Blame
|
1 | # Technische Übersicht |
||||||
| 2 | ||||||||
|
3 | Dieses Projekt nutzt **Open WebUI** (4 Replicas, load-balanced) als zentrale Oberfläche. Darüber werden die verschiedenen Funktionen der Plattform gebündelt, sodass Chat, Modellzugriffe und unterstützende Dienste in einer gemeinsamen Benutzeroberfläche verfügbar sind. Die Anbindung der KI-Dienste erfolgt über **LiteLLM** (3 Replicas) als LLM-Routing/Gateway und die **API von KI:connect**, die als zentrale Schnittstelle für den Zugriff auf verbundene Modellendpunkte genutzt werden kann. |
||||||
|
4 | |||||||
| 5 | ## KI-Modelle |
|||||||
| 6 | ||||||||
|
7 | Für die Textverarbeitung wird in diesem Projekt **OpenAI gpt-oss-120b** als Chat-Modell verwendet. Das Modell gehört zur gpt-oss-Familie von OpenAI, ist open-weight und unter Apache 2.0 lizenziert. Es ist für allgemeine, leistungsstarke Text- und Reasoning-Aufgaben ausgelegt. Da gpt-oss-120b kein Vision-Modell ist, wird bei Bildern im Chat automatisch über einen **Vision Fallback Filter** auf **Mistral Small 3.2 24B Instruct 2506** umgeleitet. |
||||||
|
8 | |||||||
|
9 | Für die **Inhaltsextraktion (OCR)** von PDFs und Bildern wird ein eigener **Mistral-OCR-Proxy** eingesetzt, der ebenfalls auf **Mistral Small 3.2 24B Instruct 2506** basiert und Vision-basierte Texterkennung durchführt. |
||||||
|
10 | |||||||
|
11 | Für **Embeddings** wird **Qwen qwen3-embedding-8b** verwendet. |
||||||
| 12 | ||||||||
| 13 | Zur Verbesserung der Suchqualität wird zusätzlich **Cohere Rerank v4.0 Pro** eingesetzt. Dieses Modell ist über **Microsoft Azure AI Foundry** (Server in Schweden/Europa) verfügbar und dient dazu, Suchtreffer oder Dokumentabschnitte nach Relevanz neu zu ordnen. Cohere Rerank ist die einzige Komponente im Stack, die nicht Open Source ist. |
|||||||
| 14 | ||||||||
| 15 | Alle angebundenen Modelle und Dienste sind in **Open WebUI** zusammengeführt, sodass die Nutzung für Anwenderinnen und Anwender über eine einheitliche Oberfläche erfolgt. |
|||||||
| 16 | ||||||||
| 17 | ## RAG/Dokumentenverarbeitung |
|||||||
| 18 | ||||||||
| 19 | Für die Dokumentenverarbeitung werden folgende Komponenten eingesetzt: |
|||||||
| 20 | - **Text-Splitter:** Markdown-Header-Text-Splitter |
|||||||
| 21 | - **Chunk-Größe:** 4000 |
|||||||
| 22 | - **Vektordatenbank:** pgvector (PostgreSQL 17) |
|||||||
|
23 | |||||||
| 24 | ## Websuche und Playwright |
|||||||
| 25 | ||||||||
|
26 | Für die Websuche wird **SearXNG** als Meta-Suchmaschine verwendet. SearXNG bündelt Ergebnisse aus mehreren Suchmaschinen und stellt sie in einer einheitlichen Suche bereit. |
||||||
|
27 | |||||||
| 28 | **Playwright** ergänzt diesen Bereich, indem Webseiten in einem echten Browserkontext geladen und gerendert werden können. Dadurch lassen sich auch dynamische, JavaScript-basierte Inhalte zuverlässiger erfassen. Playwright unterstützt dabei moderne Browser-Engines wie Chromium, WebKit und Firefox. |
|||||||
|
29 | |||||||
| 30 | ## Weitere Infrastruktur |
|||||||
| 31 | ||||||||
| 32 | - **Datenbank:** PostgreSQL 17 mit pgvector-Erweiterung |
|||||||
| 33 | - **Caching/Session:** Redis 7 |
|||||||
| 34 | - **TTS:** OpenAI Edge TTS |
|||||||
| 35 | ||||||||
| 36 | ## Digital souverän |
|||||||
| 37 | ||||||||
| 38 | Alle KI-Modelle (gpt-oss-120b, Mistral Small 3.2, Qwen Embedding) laufen im IT Center der RWTH Aachen. Die Infrastruktur (Open WebUI, LiteLLM, PostgreSQL, Redis etc.) läuft lokal im CLS. Einzige Ausnahme: Cohere Rerank läuft auf Azure-Servern in Schweden/Europa. |
|||||||
| 39 | ||||||||
| 40 | ## Open Source |
|||||||
| 41 | ||||||||
| 42 | Alle Komponenten des Stacks sind Open Source – mit Ausnahme von **Cohere Rerank v4.0 Pro**, das ein proprietäres Modell ist. |
|||||||
| 43 | ||||||||
| 44 |  |
|||||||