Dieses Projekt nutzt **Open WebUI** als zentrale Oberfläche. Darüber werden die verschiedenen Funktionen der Plattform gebündelt, sodass Chat, Modellzugriffe und unterstützende Dienste in einer gemeinsamen Benutzeroberfläche verfügbar sind. Die Anbindung der KI-Dienste erfolgt über die **API von KI:connect**, die als zentrale Schnittstelle für den Zugriff auf verbundene Modellendpunkte genutzt werden kann.
+
Dieses Projekt nutzt **Open WebUI** (4 Replicas, load-balanced) als zentrale Oberfläche. Darüber werden die verschiedenen Funktionen der Plattform gebündelt, sodass Chat, Modellzugriffe und unterstützende Dienste in einer gemeinsamen Benutzeroberfläche verfügbar sind. Die Anbindung der KI-Dienste erfolgt über **LiteLLM** (3 Replicas) als LLM-Routing/Gateway und die **API von KI:connect**, die als zentrale Schnittstelle für den Zugriff auf verbundene Modellendpunkte genutzt werden kann.
## KI-Modelle
-
Für die Textverarbeitung wird in diesem Projekt **OpenAI gpt-oss-120b** als Chat-Modell verwendet. Das Modell gehört zur gpt-oss-Familie von OpenAI und ist für allgemeine, leistungsstarke Text- und Reasoning-Aufgaben ausgelegt.
+
Für die Textverarbeitung wird in diesem Projekt **OpenAI gpt-oss-120b** als Chat-Modell verwendet. Das Modell gehört zur gpt-oss-Familie von OpenAI, ist open-weight und unter Apache 2.0 lizenziert. Es ist für allgemeine, leistungsstarke Text- und Reasoning-Aufgaben ausgelegt. Da gpt-oss-120b kein Vision-Modell ist, wird bei Bildern im Chat automatisch über einen **Vision Fallback Filter** auf **Mistral Small 3.2 24B Instruct 2506** umgeleitet.
-
Zur Verbesserung der Suchqualität wird zusätzlich **Cohere Rerank v4.0 Pro** eingesetzt. Dieses Modell ist über **Microsoft Azure AI Foundry** verfügbar und dient dazu, Suchtreffer oder Dokumentabschnitte nach Relevanz neu zu ordnen.
+
Für die **Inhaltsextraktion (OCR)** von PDFs und Bildern wird ein eigener **Mistral-OCR-Proxy** eingesetzt, der ebenfalls auf **Mistral Small 3.2 24B Instruct 2506** basiert und Vision-basierte Texterkennung durchführt.
-
Alle angebundenen Modelle und Dienste sind in **Open WebUI** zusammengeführt, sodass die Nutzung für Anwenderinnen und Anwender über eine einheitliche Oberfläche erfolgt.
-

+
Für **Embeddings** wird **Qwen qwen3-embedding-8b** verwendet.
+
+
Zur Verbesserung der Suchqualität wird zusätzlich **Cohere Rerank v4.0 Pro** eingesetzt. Dieses Modell ist über **Microsoft Azure AI Foundry** (Server in Schweden/Europa) verfügbar und dient dazu, Suchtreffer oder Dokumentabschnitte nach Relevanz neu zu ordnen. Cohere Rerank ist die einzige Komponente im Stack, die nicht Open Source ist.
+
+
Alle angebundenen Modelle und Dienste sind in **Open WebUI** zusammengeführt, sodass die Nutzung für Anwenderinnen und Anwender über eine einheitliche Oberfläche erfolgt.
+
+
## RAG/Dokumentenverarbeitung
+
+
Für die Dokumentenverarbeitung werden folgende Komponenten eingesetzt:
Für die Websuche kann eine Meta-Suchlösung wie **SearXNG** verwendet werden. SearXNG bündelt Ergebnisse aus mehreren Suchmaschinen und stellt sie in einer einheitlichen Suche bereit.
+
Für die Websuche wird **SearXNG** als Meta-Suchmaschine verwendet. SearXNG bündelt Ergebnisse aus mehreren Suchmaschinen und stellt sie in einer einheitlichen Suche bereit.
**Playwright** ergänzt diesen Bereich, indem Webseiten in einem echten Browserkontext geladen und gerendert werden können. Dadurch lassen sich auch dynamische, JavaScript-basierte Inhalte zuverlässiger erfassen. Playwright unterstützt dabei moderne Browser-Engines wie Chromium, WebKit und Firefox.
+
+
## Weitere Infrastruktur
+
+
- **Datenbank:** PostgreSQL 17 mit pgvector-Erweiterung
+
- **Caching/Session:** Redis 7
+
- **TTS:** OpenAI Edge TTS
+
+
## Digital souverän
+
+
Alle KI-Modelle (gpt-oss-120b, Mistral Small 3.2, Qwen Embedding) laufen im IT Center der RWTH Aachen. Die Infrastruktur (Open WebUI, LiteLLM, PostgreSQL, Redis etc.) läuft lokal im CLS. Einzige Ausnahme: Cohere Rerank läuft auf Azure-Servern in Schweden/Europa.
+
+
## Open Source
+
+
Alle Komponenten des Stacks sind Open Source – mit Ausnahme von **Cohere Rerank v4.0 Pro**, das ein proprietäres Modell ist.