How-To11 min Lesezeit

Open-Source-Modelle 2026: was wirklich produktionsreif ist

Llama 3.3, Qwen 2.5, Mistral Large — wir haben drei Wochen getestet, was für Schweizer KMU on-prem oder bei einem EU-Hoster läuft.

Die Frage «müssen wir wirklich zu OpenAI» beantwortet sich seit Ende 2024 anders als noch 12 Monate zuvor. Mehrere offene Modelle haben das Niveau erreicht, auf dem produktive Use-Cases ehrlich funktionieren — nicht nur Demos.

## Was wir getestet haben

Llama 3.3 70B (Meta), Qwen 2.5 72B (Alibaba), Mistral Large 2 (Mistral AI, in Paris gehostet) und DeepSeek V3. Alle vier mit denselben drei Use-Cases: deutschsprachige RAG-Anfragen auf einem internen Wiki, Klassifizierung von Support-Tickets, und Generierung von Offerten-Entwürfen aus Stichworten.

## Ergebnis Deutsch-Sprachqualität

Mistral Large 2 ist im Deutschen am natürlichsten — kein Wunder, europäisches Training. Llama 3.3 ist nah dran, mit gelegentlichen Anglizismen. Qwen ist erstaunlich gut, hat aber manchmal sonderbare Wortwahl. Für offizielle Korrespondenz: Mistral. Für interne Tools: Llama reicht völlig.

## Hardware-Realität

Ein 70B-Modell läuft quantisiert (4-bit) auf einer einzelnen Nvidia A100 80GB oder zwei RTX 4090. Stündliche Kosten bei Exoscale: rund CHF 3-5. Eigene Hardware: ab CHF 15'000 für eine produktive Single-User-Maschine, ab CHF 40'000 für ein Team-Setup. Klingt viel, ist nach 18 Monaten günstiger als Azure OpenAI bei mittlerem Volumen.

## Wann es trotzdem GPT-4 sein muss

Komplexe Reasoning-Aufgaben (mehrstufige Logik, Code-Generierung in unbekannten Frameworks, juristische Argumentation) bleiben das Revier von GPT-4 und Claude. Für 80% der KMU-Use-Cases ist das aber irrelevant — niemand schreibt Verträge mit dem Mailbot.

Newsletter

Nächste Mission in Ihrem Posteingang.

Eine E-Mail pro Mission. Keine Werbung.

Weiterlesen

How-To

Open-Source-Modelle 2026: was wirklich produktionsreif ist

Nächste Mission in Ihrem Posteingang.

Weiterlesen

Datenschutz & KI — der nüchterne Leitfaden für Schweizer KMU

RAG vs. Fine-Tuning: was Sie für Ihren ersten Use Case brauchen

Ein Offerten-Assistent in zwei Wochen — Erfahrungsbericht aus einem Treuhandbüro