Wissenserfassung und Indizierung

Die mehrstufige Ingestionspipeline (Abrufen, Extrahieren, Chunking, Einbetten, Indizieren) mit teilweisen Nachbearbeitungssteuerungen, Versionierung und Umgang mit sensiblen Inhalten.

Was ist diese Funktion?

Damit Ihr KI-Agent genaue und nützliche Antworten geben kann, muss er Dinge wissen – insbesondere die Dinge, die Ihr Unternehmen kennt. Die Funktion zur Wissensaufnahme ist der Weg, wie Ihre Inhalte in den Agenten gelangen: Dokumente, Hilfeartikel, PDFs, Webseiten, interne Wikis. Diese tiefgehende Erklärung erläutert, wie dieser Prozess funktioniert, warum er so aufgebaut ist, und was das für die Qualität der Antworten Ihres Agenten bedeutet.

Warum es für Ihr Unternehmen wichtig ist

Ein KI-Agent ist nur so gut wie die Informationen, auf die er Zugriff hat. Wenn Ihre Wissensdatenbank veraltet, unvollständig oder schlecht indiziert ist, wird Ihr Agent veraltete Antworten geben, wichtige Details übersehen oder selbstbewusst Dinge sagen, die nicht wahr sind.

Genauigkeit hängt von frischen Inhalten ab. Wenn sich Ihre Dokumentation ändert, muss der Agent dies schnell und zuverlässig widerspiegeln.
Teilaktualisierungen sparen Zeit und Geld. Jedes Mal, wenn Sie eine kleine Änderung vornehmen, Ihre gesamte Wissensdatenbank von Grund auf neu zu verarbeiten, ist langsam und teuer. Das System ist so konzipiert, dass nur das aktualisiert wird, was sich geändert hat.
Einblick in das, was passiert. Wenn ein Dokument nicht richtig aufgenommen wird, müssen Sie darüber informiert werden – und nicht erst Wochen später, wenn ein Kunde eine falsche Antwort erhält.
Konsistente Qualität über die Zeit. Wenn sich die zugrunde liegende KI-Technologie verbessert (bessere Indizierungsmethoden, bessere Einbettungen), muss Ihr Inhalt neu verarbeitet werden, um von diesen Verbesserungen zu profitieren. Das System verfolgt, welcher Inhalt mit welcher Version verarbeitet wurde, was gezielte Aktualisierungen ermöglicht.

Wie es funktioniert (ohne technische Fachbegriffe)

Denken Sie an die Aufnahme wie an eine Produktionslinie mit mehreren Stationen. Jedes Dokument durchläuft jede Station der Reihe nach:

Abrufen – Das System ruft den Inhalt von dort ab, wo er sich befindet: eine URL, ein Datei-Upload, eine API-Verbindung zu Ihrer bestehenden Dokumentationsplattform.
Extrahieren – Rohinhalte werden bereinigt und in ein einheitliches Format umgewandelt. Tabellen, Bilder und Metadaten werden entsprechend behandelt.
Chunking – Lange Dokumente werden in kleinere Teile zerlegt, über die die KI effektiv nachdenken kann. Die Chunking-Strategie wird verfolgt, sodass das System weiß, wann sie erneut durchgeführt werden muss.
Einbetten – Jedes Chunk wird in eine mathematische Darstellung umgewandelt, die es der KI ermöglicht, relevante Inhalte schnell zu finden, selbst wenn die genauen Worte nicht mit der Frage des Benutzers übereinstimmen.
Indizieren – Die eingebetteten Chunks werden in einer durchsuchbaren Datenbank gespeichert, sodass der Agent sie in Echtzeit während eines Gesprächs abrufen kann.

Wenn ein Inhalt an einer Station fehlschlägt, protokolliert das System genau, wo und warum – und Sie können nur diese Station erneut ausführen, ohne von vorne zu beginnen.

Was Sie als Betreiber erhalten

Ein Dashboard, das den Status jeder Inhaltsquelle anzeigt: wie viele Dokumente aufgenommen wurden, wann sie zuletzt aktualisiert wurden und ob es Fehlschläge gab
Warnungen, wenn die Fehlschläge bei der Aufnahme einen Schwellenwert überschreiten
Die Möglichkeit, spezifische Dokumente oder spezifische Phasen (z. B. erneut einbetten ohne erneut abzurufen) neu zu verarbeiten
Versionsverfolgung, sodass Sie genau wissen, welcher Inhalt mit welcher Version der Indizierungslogik verarbeitet wurde

Umgang mit sensiblen Inhalten

Nicht alle Inhalte sollten gleich zugänglich sein. Dokumente, die als sensibel gekennzeichnet sind, können:

Von bestimmten Agenten-Konfigurationen ausgeschlossen werden (z. B. nur für authentifizierte interne Benutzer verfügbar)
Vor der Indizierung von bestimmten Feldern befreit werden
In einem eingeschränkten Index aufbewahrt werden, der erhöhte Berechtigungen zum Abfragen erfordert

Was Sie auf der Roadmap erwarten können

Das Team arbeitet auf Folgendes hin:

Vollständige Versionsverfolgung für alle aufgenommenen Inhalte, mit einer API für partielle Neuverarbeitung (geschätzt 3 Wochen)
Migration zu einer dedizierten Vektordatenbank für schnelleren, skalierbareren Abruf (geschätzt 2 Monate)

Diese Verbesserungen werden die Aufnahme-Pipeline transparenter, effizienter und einfacher zu warten machen, während Ihre Wissensdatenbank wächst.