Open-Source-Modelle 2026: was wirklich produktionsreif ist
Llama 3.3, Qwen 2.5, Mistral Large — wir haben drei Wochen getestet, was für Schweizer KMU on-prem oder bei einem EU-Hoster läuft.
Die Frage «müssen wir wirklich zu OpenAI» beantwortet sich seit Ende 2024 anders als noch 12 Monate zuvor. Mehrere offene Modelle haben das Niveau erreicht, auf dem produktive Use-Cases ehrlich funktionieren — nicht nur Demos.
## Was wir getestet haben
Llama 3.3 70B (Meta), Qwen 2.5 72B (Alibaba), Mistral Large 2 (Mistral AI, in Paris gehostet) und DeepSeek V3. Alle vier mit denselben drei Use-Cases: deutschsprachige RAG-Anfragen auf einem internen Wiki, Klassifizierung von Support-Tickets, und Generierung von Offerten-Entwürfen aus Stichworten.
## Ergebnis Deutsch-Sprachqualität
Mistral Large 2 ist im Deutschen am natürlichsten — kein Wunder, europäisches Training. Llama 3.3 ist nah dran, mit gelegentlichen Anglizismen. Qwen ist erstaunlich gut, hat aber manchmal sonderbare Wortwahl. Für offizielle Korrespondenz: Mistral. Für interne Tools: Llama reicht völlig.
## Hardware-Realität
Ein 70B-Modell läuft quantisiert (4-bit) auf einer einzelnen Nvidia A100 80GB oder zwei RTX 4090. Stündliche Kosten bei Exoscale: rund CHF 3-5. Eigene Hardware: ab CHF 15'000 für eine produktive Single-User-Maschine, ab CHF 40'000 für ein Team-Setup. Klingt viel, ist nach 18 Monaten günstiger als Azure OpenAI bei mittlerem Volumen.
## Wann es trotzdem GPT-4 sein muss
Komplexe Reasoning-Aufgaben (mehrstufige Logik, Code-Generierung in unbekannten Frameworks, juristische Argumentation) bleiben das Revier von GPT-4 und Claude. Für 80% der KMU-Use-Cases ist das aber irrelevant — niemand schreibt Verträge mit dem Mailbot.
Nächste Mission in Ihrem Posteingang.
Eine E-Mail pro Mission. Keine Werbung.