Technische-Uebersicht - blame None

Blame

f979ac	Admin	2026-03-13 16:02:57

# Technische Übersicht

a3f2f2	Admin	2026-04-01 12:46:09

Dieses Projekt nutzt **Open WebUI** (4 Replicas, load-balanced) als zentrale Oberfläche. Darüber werden die verschiedenen Funktionen der Plattform gebündelt, sodass Chat, Modellzugriffe und unterstützende Dienste in einer gemeinsamen Benutzeroberfläche verfügbar sind. Die Anbindung der KI-Dienste erfolgt über **LiteLLM** (3 Replicas) als LLM-Routing/Gateway und die **API von KI:connect**, die als zentrale Schnittstelle für den Zugriff auf verbundene Modellendpunkte genutzt werden kann.

f979ac	Admin	2026-03-13 16:02:57

## KI-Modelle

a3f2f2	Admin	2026-04-01 12:46:09

Für die Textverarbeitung wird in diesem Projekt **OpenAI gpt-oss-120b** als Chat-Modell verwendet. Das Modell gehört zur gpt-oss-Familie von OpenAI, ist open-weight und unter Apache 2.0 lizenziert. Es ist für allgemeine, leistungsstarke Text- und Reasoning-Aufgaben ausgelegt. Da gpt-oss-120b kein Vision-Modell ist, wird bei Bildern im Chat automatisch über einen **Vision Fallback Filter** auf **Mistral Small 3.2 24B Instruct 2506** umgeleitet.

f979ac	Admin	2026-03-13 16:02:57

a3f2f2	Admin	2026-04-01 12:46:09

Für die **Inhaltsextraktion (OCR)** von PDFs und Bildern wird ein eigener **Mistral-OCR-Proxy** eingesetzt, der ebenfalls auf **Mistral Small 3.2 24B Instruct 2506** basiert und Vision-basierte Texterkennung durchführt.

f979ac	Admin	2026-03-13 16:02:57

a3f2f2	Admin	2026-04-01 12:46:09

Für **Embeddings** wird **Qwen qwen3-embedding-8b** verwendet.

Zur Verbesserung der Suchqualität wird zusätzlich **Cohere Rerank v4.0 Pro** eingesetzt. Dieses Modell ist über **Microsoft Azure AI Foundry** (Server in Schweden/Europa) verfügbar und dient dazu, Suchtreffer oder Dokumentabschnitte nach Relevanz neu zu ordnen. Cohere Rerank ist die einzige Komponente im Stack, die nicht Open Source ist.

Alle angebundenen Modelle und Dienste sind in **Open WebUI** zusammengeführt, sodass die Nutzung für Anwenderinnen und Anwender über eine einheitliche Oberfläche erfolgt.

## RAG/Dokumentenverarbeitung

Für die Dokumentenverarbeitung werden folgende Komponenten eingesetzt:

- **Text-Splitter:** Markdown-Header-Text-Splitter

- **Chunk-Größe:** 4000

- **Vektordatenbank:** pgvector (PostgreSQL 17)

f979ac	Admin	2026-03-13 16:02:57

## Websuche und Playwright

a3f2f2	Admin	2026-04-01 12:46:09

Für die Websuche wird **SearXNG** als Meta-Suchmaschine verwendet. SearXNG bündelt Ergebnisse aus mehreren Suchmaschinen und stellt sie in einer einheitlichen Suche bereit.

f979ac	Admin	2026-03-13 16:02:57

**Playwright** ergänzt diesen Bereich, indem Webseiten in einem echten Browserkontext geladen und gerendert werden können. Dadurch lassen sich auch dynamische, JavaScript-basierte Inhalte zuverlässiger erfassen. Playwright unterstützt dabei moderne Browser-Engines wie Chromium, WebKit und Firefox.

a3f2f2	Admin	2026-04-01 12:46:09

## Weitere Infrastruktur

- **Datenbank:** PostgreSQL 17 mit pgvector-Erweiterung

- **Caching/Session:** Redis 7

- **TTS:** OpenAI Edge TTS

## Digital souverän

Alle KI-Modelle (gpt-oss-120b, Mistral Small 3.2, Qwen Embedding) laufen im IT Center der RWTH Aachen. Die Infrastruktur (Open WebUI, LiteLLM, PostgreSQL, Redis etc.) läuft lokal im CLS. Einzige Ausnahme: Cohere Rerank läuft auf Azure-Servern in Schweden/Europa.

## Open Source

Alle Komponenten des Stacks sind Open Source – mit Ausnahme von **Cohere Rerank v4.0 Pro**, das ein proprietäres Modell ist.

![](./image-1773414174976.png)