Technische Übersicht

Dieses Projekt nutzt Open WebUI (4 Replicas, load-balanced) als zentrale Oberfläche. Darüber werden die verschiedenen Funktionen der Plattform gebündelt, sodass Chat, Modellzugriffe und unterstützende Dienste in einer gemeinsamen Benutzeroberfläche verfügbar sind. Die Anbindung der KI-Dienste erfolgt über LiteLLM (3 Replicas) als LLM-Routing/Gateway und die API von KI:connect, die als zentrale Schnittstelle für den Zugriff auf verbundene Modellendpunkte genutzt werden kann.

KI-Modelle

Für die Textverarbeitung wird in diesem Projekt OpenAI gpt-oss-120b als Chat-Modell verwendet. Das Modell gehört zur gpt-oss-Familie von OpenAI, ist open-weight und unter Apache 2.0 lizenziert. Es ist für allgemeine, leistungsstarke Text- und Reasoning-Aufgaben ausgelegt. Da gpt-oss-120b kein Vision-Modell ist, wird bei Bildern im Chat automatisch über einen Vision Fallback Filter auf Mistral Small 3.2 24B Instruct 2506 umgeleitet.

Für die Inhaltsextraktion (OCR) von PDFs und Bildern wird ein eigener Mistral-OCR-Proxy eingesetzt, der ebenfalls auf Mistral Small 3.2 24B Instruct 2506 basiert und Vision-basierte Texterkennung durchführt.

Für Embeddings wird Qwen qwen3-embedding-8b verwendet.

Zur Verbesserung der Suchqualität wird zusätzlich Cohere Rerank v4.0 Pro eingesetzt. Dieses Modell ist über Microsoft Azure AI Foundry (Server in Schweden/Europa) verfügbar und dient dazu, Suchtreffer oder Dokumentabschnitte nach Relevanz neu zu ordnen. Cohere Rerank ist die einzige Komponente im Stack, die nicht Open Source ist.

Alle angebundenen Modelle und Dienste sind in Open WebUI zusammengeführt, sodass die Nutzung für Anwenderinnen und Anwender über eine einheitliche Oberfläche erfolgt.

RAG/Dokumentenverarbeitung

Für die Dokumentenverarbeitung werden folgende Komponenten eingesetzt:

Text-Splitter: Markdown-Header-Text-Splitter
Chunk-Größe: 4000
Vektordatenbank: pgvector (PostgreSQL 17)

Websuche und Playwright

Für die Websuche wird SearXNG als Meta-Suchmaschine verwendet. SearXNG bündelt Ergebnisse aus mehreren Suchmaschinen und stellt sie in einer einheitlichen Suche bereit.

Playwright ergänzt diesen Bereich, indem Webseiten in einem echten Browserkontext geladen und gerendert werden können. Dadurch lassen sich auch dynamische, JavaScript-basierte Inhalte zuverlässiger erfassen. Playwright unterstützt dabei moderne Browser-Engines wie Chromium, WebKit und Firefox.

Weitere Infrastruktur

Datenbank: PostgreSQL 17 mit pgvector-Erweiterung
Caching/Session: Redis 7
TTS: OpenAI Edge TTS

Digital souverän

Alle KI-Modelle (gpt-oss-120b, Mistral Small 3.2, Qwen Embedding) laufen im IT Center der RWTH Aachen. Die Infrastruktur (Open WebUI, LiteLLM, PostgreSQL, Redis etc.) läuft lokal im CLS. Einzige Ausnahme: Cohere Rerank läuft auf Azure-Servern in Schweden/Europa.

Open Source

Alle Komponenten des Stacks sind Open Source – mit Ausnahme von Cohere Rerank v4.0 Pro, das ein proprietäres Modell ist.