Qwen3 On-Prem: AI dort, wo die Daten bleiben müssen
4. Februar 2026 - Matthias
Wir wollten es wissen: Wie gut funktioniert ein modernes LLM komplett offline – direkt im eigenen Cluster, auf einer RTX 5090, ohne externe API, ohne Datenabfluss?
Kurz gesagt: erstaunlich gut.
Wir betreiben Qwen3 als performantes On-Prem-Modell und nutzen es POC-nah für drei zentrale Modi:
- Image → Text → Text (z.B. Dokumente, Scans, Fotos)
- Text → Text (Analyse, Zusammenfassung, Klassifikation, Extraktion)
- Embeddings via API (für semantische Suche, RAG, Clustering)
Alles offline. Alles im eigenen Kubernetes-Cluster. Keine Calls nach draussen.
Wichtig: Das ist ein POC
Unser Anspruch ist nicht, dass bereits alles perfekt, hochverfügbar und produktionsreif läuft. Dieses Setup ist bewusst als Proof of Concept gedacht.
Es geht darum zu verstehen:
- Wie verhält sich ein starkes Modell im eigenen Cluster?
- Welche Komplexität entsteht realistisch im Betrieb?
- Wie gut performt ein Single-GPU-Setup im Alltag?
Stabilität, Monitoring, Skalierung – all das sind Themen, die wir bewusst iterativ angehen. Der Fokus liegt auf Lernen, nicht auf Perfektion.
Warum das relevant ist
Viele spannende AI-Use-Cases scheitern nicht an der Technik, sondern an der Frage:
Dürfen diese Daten überhaupt in eine externe Cloud?
Mit einem leistungsfähigen On-Prem-Modell verschiebt sich diese Diskussion.
Praxisbeispiel:
Unter zordmind.kube.megazord.studio betreiben wir eine öffentliche Live-Demo, die vollständig auf unserem eigenen Cluster läuft. Sämtliche Inferenz-Anfragen werden lokal verarbeitet – ohne externe API und ohne Datenabfluss.
Recht & Compliance
- Analyse umfangreicher Verträge
- Extraktion von Klauseln
- Vergleich von Versionen
- Interne Due-Diligence-Unterstützung
Gerade bei sensiblen Mandaten ist „bleibt im eigenen Rechenzentrum" kein Nice-to-have, sondern Voraussetzung.
Medizin & Gesundheitswesen
- Nachbearbeitung von OCR aus eingescannten Befunden
- Strukturierung von Freitexten
- Klassifikation medizinischer Dokumente
Hier ist Datensouveränität zentral – technisch wie regulatorisch.
Interne Wissensdatenbanken
- Embeddings für semantische Suche
- RAG über interne Dokumente
- Kontextuelle Assistenz für Teams
Embeddings generieren wir direkt über unsere eigene API – ohne dass Inhalte jemals das Cluster verlassen.
Industrie & Betrieb
- Analyse von Betriebsprotokollen
- Zusammenfassung von Incident-Reports
- Strukturierung von Support-Tickets
Auch hier gilt: Betriebsdaten sind oft sensibel und geschäftskritisch.
Technisch: kein Spielzeug-Setup
Das Modell läuft auf einer RTX 5090 im Kubernetes-Umfeld. GPU-Scheduling, klar definierte Endpoints, kontrollierte Netzwerkpfade – es fühlt sich nicht wie ein isoliertes Experiment an, sondern wie ein integrierter Servicebaustein.
Wichtig für uns:
- keine versteckten externen Abhängigkeiten
- reproduzierbares Inferenz-Verhalten
- transparente Ressourcennutzung
- klarer API-Zugriff für interne Systeme
Performance-seitig ist das Setup für einen POC beeindruckend – sowohl für interaktive Nutzung als auch für integrierte Workflows.
Was sich verändert
Der entscheidende Punkt ist nicht nur, dass es funktioniert. Sondern dass es unter eigener Kontrolle funktioniert.
Wenn ein Modell:
- offline läuft,
- im eigenen Cluster betrieben wird,
- und sensible Daten das System nicht verlassen,
dann entstehen neue Spielräume.
Nicht als Ersatz für jede Cloud-API.
Aber als ernstzunehmende Option für genau die Workloads, bei denen Kontrolle, Transparenz und Datenhoheit entscheidend sind.
Und genau dort wird es spannend.