Zum Inhalt springen

Dokument-Engine

Dokument hochladen. KI liest den Rest.

PDFs, Word-Dateien, CSVs, gescannte Bilder — hochgeladen, geparst, in Chunks zerlegt und automatisch indexiert. Euer Team durchsucht Inhalte, nicht Dateisysteme.

Funktionsumfang

Von Rohdateien zu durchsuchbarem Wissen in Minuten.

Jedes Format, das zählt

PDF, DOCX, CSV, XLSX und gescannte Bilder per OCR. Ein Upload-Endpunkt verarbeitet alle.

Strukturbewusstes Chunking

Dokumente werden an Absatz- und Abschnittsgrenzen geteilt — nie mitten im Satz, nie über Seitenumbrüche hinweg.

Hintergrundverarbeitung

Hochladen und weitermachen. Dokumente werden asynchron verarbeitet, mit Echtzeit-Statusupdates im Dashboard.

Vektor-Indexierung

1024-dimensionale Embeddings in pgvector mit HNSW-Indexierung — schnelle Ähnlichkeitssuche ab Tag eins.

Reichhaltige Metadaten

Dateiname, Seitenzahlen, Chunk-Positionen, Upload-Zeitstempel — alles erhalten und durchsuchbar.

Mandantentrennung

Dokumente jedes Mandanten leben in einem separaten Datenbankschema. Strukturelle Isolation, nicht nur Zugangskontrolle.

Die Verarbeitungs-Pipeline

Vier Schritte von der Rohdatei zu durchsuchbarem Wissen.

1

Hochladen

Dateien per Dashboard ablegen oder per E-Mail senden. Die API akzeptiert Einzeldateien oder Stapel.

2

Parsen

Unstructured.io extrahiert Text, Tabellen und Struktur aus jedem unterstützten Format — inklusive OCR für Scans.

3

Zerteilen

Unser RecursiveChunker teilt Inhalte an natürlichen Grenzen, behält Überschriften, Listen und Seitenkontext bei.

4

Indexieren

Mistral Embed erzeugt Vektoren. pgvector speichert sie mit HNSW-Indexierung für Abruf in Sekundenbruchteilen.

Specs auf einen Blick

Für die Ingenieure, die es genau wissen wollen.

Unterstützte Formate

PDF, DOCX, CSV, XLSX, Bilder (OCR)

Embeddings

1024 Dimensionen, Mistral Embed

Vektor-Index

HNSW via pgvector — funktioniert auf leeren Tabellen

Verarbeitung

Asynchron mit Echtzeit-Status per API

Chunking

Rekursiv, strukturbewusst, seitenumbruchsicher

Speicher

PostgreSQL mit Mandanten-Schema-Isolation

Dokumentenverarbeitung in Aktion sehen.

Ladet ein Beispieldokument in eurer Demo hoch — seht es in Echtzeit indexiert und durchsuchbar.

Dokument-Engine | AI Loopwise