← Blog
How-To7 min Lesezeit

On-Prem KI für KMU: Was wirklich an Hardware nötig ist

Von Timo Seltmann · Bald

Eine ehrliche Bestandsaufnahme: Welche GPU braucht ein 50-Personen-Betrieb für ein internes RAG-System? Spoiler — weniger als die meisten Anbieter erzählen.

Wenn ein KMU bei uns anfragt, ob ein eigenes KI-Modell im Haus betrieben werden kann, ist die häufigste Sorge: «Brauchen wir dafür ein eigenes Rechenzentrum?» Die zweithäufigste: «Kostet das nicht sechsstellig?» Beides ist meist falsch.

Ich betreibe seit zwanzig Jahren KMU-Infrastruktur. Was sich in den letzten 18 Monaten verändert hat, ist nicht die Komplexität der Modelle — die ist gestiegen — sondern die Verfügbarkeit von Open-Source-Modellen, die auf bescheidener Hardware brauchbar laufen. Llama 3.1 8B, Mistral 7B, Qwen 2.5 14B: alles Modelle, die für interne Use-Cases reichen und auf einer einzelnen GPU laufen.

## Die ehrliche Hardware-Liste

Für ein internes RAG-System (50 Mitarbeitende, deutschsprachige Wissensdatenbank, ein bis zwei Anfragen pro Minute Spitzenlast) genügt heute folgendes Setup: ein Server mit einer NVIDIA RTX 4090 (24 GB VRAM) oder einer L4 (auch 24 GB), 64 GB RAM, eine schnelle NVMe für den Vektorindex. Investition: 4'500 bis 6'500 Franken einmalig, plus Strom (rund 350 Watt unter Last).

Für grössere Modelle — Llama 3.3 70B in quantisierter Form — braucht es zwei RTX 6000 Ada (48 GB) oder eine H100 (80 GB). Da landen wir bei 25'000 bis 35'000 Franken Hardware. Auch das ist für ein KMU keine unerreichbare Grösse, sondern vergleichbar mit einer mittleren Maschinen-Investition, die niemand hinterfragt.

## Was wirklich teuer wird

Nicht die Hardware. Sondern das Drumherum: USV, redundante Stromversorgung, Klimatisierung (eine 4090 unter Volllast heizt einen Schrank deutlich auf), Monitoring, Backup-Strategie für den Vektorindex und — am wichtigsten — jemand, der das Ding wartet. Ein KMU ohne eigene IT-Abteilung muss diesen Betrieb auslagern. Das kostet pro Monat ungefähr so viel wie eine halbe Stelle Lehrling, je nach Servicegrad.

Die Alternative für Betriebe, die das nicht stemmen wollen: Hosting bei einem Schweizer Anbieter wie Infomaniak, Exoscale oder Swisscom Sovereign Cloud (Stack ohne US-Verflechtung). Da zahlt man pro Monat statt einmalig, hat aber keine Kapitalbindung. Für die meisten Betriebe unter 100 Mitarbeitenden ist das die ehrlichere Empfehlung.

## Was nicht funktioniert

Auf einer Gaming-Notebook-GPU. Auf einem Mac mini «zum Ausprobieren». Auf einer alten Workstation aus dem Keller mit einer GTX 1080. Wir haben das alles gesehen. Das Modell läuft — irgendwie — aber die Antwortzeiten sind so schlecht, dass niemand das System benutzt. Und ein nicht-benutztes System wird abgeschaltet.

## Der Reality-Check

Bevor Sie über Hardware nachdenken: Definieren Sie den Use-Case. Wie viele Anfragen pro Tag? Welche Antwortzeit ist akzeptabel? Welche Modellgrösse braucht es wirklich? In neun von zehn Fällen, die wir begleiten, ist die Antwort: weniger als der Anbieter im Pitch gesagt hat. Und das ist eine gute Nachricht.

Newsletter

Nächste Mission in Ihrem Posteingang.

Eine E-Mail pro Mission. Keine Werbung.

Weiterlesen