Qwen3 On-Prem: AI dort, wo die Daten bleiben müssen

Wir wollten es wissen: Wie gut funktioniert ein modernes LLM komplett offline – direkt im eigenen Cluster, auf einer RTX 5090, ohne externe API, ohne Datenabfluss?

Kurz gesagt: erstaunlich gut.

Wir betreiben Qwen3 als performantes On-Prem-Modell und nutzen es POC-nah für drei zentrale Modi:

Image → Text → Text (z.B. Dokumente, Scans, Fotos)
Text → Text (Analyse, Zusammenfassung, Klassifikation, Extraktion)
Embeddings via API (für semantische Suche, RAG, Clustering)

Alles offline. Alles im eigenen Kubernetes-Cluster. Keine Calls nach draussen.

Wichtig: Das ist ein POC

Unser Anspruch ist nicht, dass bereits alles perfekt, hochverfügbar und produktionsreif läuft. Dieses Setup ist bewusst als Proof of Concept gedacht.

Es geht darum zu verstehen:

Wie verhält sich ein starkes Modell im eigenen Cluster?
Welche Komplexität entsteht realistisch im Betrieb?
Wie gut performt ein Single-GPU-Setup im Alltag?

Stabilität, Monitoring, Skalierung – all das sind Themen, die wir bewusst iterativ angehen. Der Fokus liegt auf Lernen, nicht auf Perfektion.

Warum das relevant ist

Viele spannende AI-Use-Cases scheitern nicht an der Technik, sondern an der Frage:

Dürfen diese Daten überhaupt in eine externe Cloud?

Mit einem leistungsfähigen On-Prem-Modell verschiebt sich diese Diskussion.

Praxisbeispiel:

Unter zordmind.kube.megazord.studio betreiben wir eine öffentliche Live-Demo, die vollständig auf unserem eigenen Cluster läuft. Sämtliche Inferenz-Anfragen werden lokal verarbeitet – ohne externe API und ohne Datenabfluss.

Recht & Compliance

Analyse umfangreicher Verträge
Extraktion von Klauseln
Vergleich von Versionen
Interne Due-Diligence-Unterstützung

Gerade bei sensiblen Mandaten ist „bleibt im eigenen Rechenzentrum" kein Nice-to-have, sondern Voraussetzung.

Medizin & Gesundheitswesen

Nachbearbeitung von OCR aus eingescannten Befunden
Strukturierung von Freitexten
Klassifikation medizinischer Dokumente

Hier ist Datensouveränität zentral – technisch wie regulatorisch.

Interne Wissensdatenbanken

Embeddings für semantische Suche
RAG über interne Dokumente
Kontextuelle Assistenz für Teams

Embeddings generieren wir direkt über unsere eigene API – ohne dass Inhalte jemals das Cluster verlassen.

Industrie & Betrieb

Analyse von Betriebsprotokollen
Zusammenfassung von Incident-Reports
Strukturierung von Support-Tickets

Auch hier gilt: Betriebsdaten sind oft sensibel und geschäftskritisch.

Technisch: kein Spielzeug-Setup

Das Modell läuft auf einer RTX 5090 im Kubernetes-Umfeld. GPU-Scheduling, klar definierte Endpoints, kontrollierte Netzwerkpfade – es fühlt sich nicht wie ein isoliertes Experiment an, sondern wie ein integrierter Servicebaustein.

Wichtig für uns:

keine versteckten externen Abhängigkeiten
reproduzierbares Inferenz-Verhalten
transparente Ressourcennutzung
klarer API-Zugriff für interne Systeme

Performance-seitig ist das Setup für einen POC beeindruckend – sowohl für interaktive Nutzung als auch für integrierte Workflows.

Was sich verändert

Der entscheidende Punkt ist nicht nur, dass es funktioniert. Sondern dass es unter eigener Kontrolle funktioniert.

Wenn ein Modell:

offline läuft,
im eigenen Cluster betrieben wird,
und sensible Daten das System nicht verlassen,

dann entstehen neue Spielräume.

Nicht als Ersatz für jede Cloud-API.

Aber als ernstzunehmende Option für genau die Workloads, bei denen Kontrolle, Transparenz und Datenhoheit entscheidend sind.

Und genau dort wird es spannend.