Blame

f979ac Admin 2026-03-13 16:02:57
1
# Technische Übersicht
2
a3f2f2 Admin 2026-04-01 12:46:09
3
Dieses Projekt nutzt **Open WebUI** (4 Replicas, load-balanced) als zentrale Oberfläche. Darüber werden die verschiedenen Funktionen der Plattform gebündelt, sodass Chat, Modellzugriffe und unterstützende Dienste in einer gemeinsamen Benutzeroberfläche verfügbar sind. Die Anbindung der KI-Dienste erfolgt über **LiteLLM** (3 Replicas) als LLM-Routing/Gateway und die **API von KI:connect**, die als zentrale Schnittstelle für den Zugriff auf verbundene Modellendpunkte genutzt werden kann.
f979ac Admin 2026-03-13 16:02:57
4
5
## KI-Modelle
6
a3f2f2 Admin 2026-04-01 12:46:09
7
Für die Textverarbeitung wird in diesem Projekt **OpenAI gpt-oss-120b** als Chat-Modell verwendet. Das Modell gehört zur gpt-oss-Familie von OpenAI, ist open-weight und unter Apache 2.0 lizenziert. Es ist für allgemeine, leistungsstarke Text- und Reasoning-Aufgaben ausgelegt. Da gpt-oss-120b kein Vision-Modell ist, wird bei Bildern im Chat automatisch über einen **Vision Fallback Filter** auf **Mistral Small 3.2 24B Instruct 2506** umgeleitet.
f979ac Admin 2026-03-13 16:02:57
8
a3f2f2 Admin 2026-04-01 12:46:09
9
Für die **Inhaltsextraktion (OCR)** von PDFs und Bildern wird ein eigener **Mistral-OCR-Proxy** eingesetzt, der ebenfalls auf **Mistral Small 3.2 24B Instruct 2506** basiert und Vision-basierte Texterkennung durchführt.
f979ac Admin 2026-03-13 16:02:57
10
a3f2f2 Admin 2026-04-01 12:46:09
11
Für **Embeddings** wird **Qwen qwen3-embedding-8b** verwendet.
12
13
Zur Verbesserung der Suchqualität wird zusätzlich **Cohere Rerank v4.0 Pro** eingesetzt. Dieses Modell ist über **Microsoft Azure AI Foundry** (Server in Schweden/Europa) verfügbar und dient dazu, Suchtreffer oder Dokumentabschnitte nach Relevanz neu zu ordnen. Cohere Rerank ist die einzige Komponente im Stack, die nicht Open Source ist.
14
15
Alle angebundenen Modelle und Dienste sind in **Open WebUI** zusammengeführt, sodass die Nutzung für Anwenderinnen und Anwender über eine einheitliche Oberfläche erfolgt.
16
17
## RAG/Dokumentenverarbeitung
18
19
Für die Dokumentenverarbeitung werden folgende Komponenten eingesetzt:
20
- **Text-Splitter:** Markdown-Header-Text-Splitter
21
- **Chunk-Größe:** 4000
22
- **Vektordatenbank:** pgvector (PostgreSQL 17)
f979ac Admin 2026-03-13 16:02:57
23
24
## Websuche und Playwright
25
a3f2f2 Admin 2026-04-01 12:46:09
26
Für die Websuche wird **SearXNG** als Meta-Suchmaschine verwendet. SearXNG bündelt Ergebnisse aus mehreren Suchmaschinen und stellt sie in einer einheitlichen Suche bereit.
f979ac Admin 2026-03-13 16:02:57
27
28
**Playwright** ergänzt diesen Bereich, indem Webseiten in einem echten Browserkontext geladen und gerendert werden können. Dadurch lassen sich auch dynamische, JavaScript-basierte Inhalte zuverlässiger erfassen. Playwright unterstützt dabei moderne Browser-Engines wie Chromium, WebKit und Firefox.
a3f2f2 Admin 2026-04-01 12:46:09
29
30
## Weitere Infrastruktur
31
32
- **Datenbank:** PostgreSQL 17 mit pgvector-Erweiterung
33
- **Caching/Session:** Redis 7
34
- **TTS:** OpenAI Edge TTS
35
36
## Digital souverän
37
38
Alle KI-Modelle (gpt-oss-120b, Mistral Small 3.2, Qwen Embedding) laufen im IT Center der RWTH Aachen. Die Infrastruktur (Open WebUI, LiteLLM, PostgreSQL, Redis etc.) läuft lokal im CLS. Einzige Ausnahme: Cohere Rerank läuft auf Azure-Servern in Schweden/Europa.
39
40
## Open Source
41
42
Alle Komponenten des Stacks sind Open Source – mit Ausnahme von **Cohere Rerank v4.0 Pro**, das ein proprietäres Modell ist.
43
44
![](./image-1773414174976.png)