← Blog
Meinung6 min Lesezeit

Fünf Datenfragen, die niemand stellt — bevor das Modell läuft

Von Matteo Karten · Bald

Bevor ein Prompt in ein Modell geht, sollte jemand wissen, woher die Daten kommen, wem sie gehören und wie lange sie aufbewahrt werden. Diese Fragen fehlen in 80 Prozent der KI-Projekte.

Mein Job in den letzten 18 Monaten bei den BVB hat mich eines gelehrt: Die meisten KI-Projekte scheitern nicht am Modell. Sie scheitern an den Daten — oder genauer: daran, dass niemand sich vorher gefragt hat, ob die Daten überhaupt verwendet werden dürfen, in welcher Qualität sie vorliegen und wer am Ende dafür haftet.

Hier sind die fünf Fragen, die in jedem KI-Projekt vor der Modellauswahl beantwortet sein müssen. Wenn sie nicht beantwortet sind, ist das Projekt nicht reif.

## 1. Woher kommt jedes einzelne Datenfeld?

Klingt trivial, ist es nicht. «Aus dem CRM» reicht nicht. Wer hat es dort eingetragen, wann, mit welcher Einwilligung der betroffenen Person? Bei strukturierten Daten ist das oft dokumentiert. Bei unstrukturierten — Mails, Notizen, Protokollen — fast nie. Und genau diese unstrukturierten Daten landen heute in RAG-Systemen.

## 2. Wer ist Inhaber, wer Bearbeiter, wer Verantwortlicher?

RevDSG-Sprache, aber relevant. Wenn ein KI-Anbieter Daten verarbeitet, ist er Auftragsbearbeiter — und Sie bleiben verantwortlich. Das gilt auch dann, wenn die «KI» nur ein API-Call ist. Wer das nicht vertraglich sauber regelt, haftet im Schadensfall persönlich.

## 3. Wie lange dürfen die Daten aufbewahrt werden?

Hier scheitert es regelmässig. Modelle werden auf Daten trainiert, die längst hätten gelöscht werden müssen. Vektor-Datenbanken speichern Embeddings von Dokumenten, die gemäss Aufbewahrungspflicht vernichtet sind. Niemand prüft das, weil die Daten «nur noch als Vektor» vorliegen — was aber datenschutzrechtlich kein Unterschied ist, solange ein Personenbezug rekonstruierbar bleibt.

## 4. Was passiert, wenn jemand sein Auskunfts- oder Löschrecht geltend macht?

Können Sie alle Daten einer Person aus dem System entfernen — inklusive Embeddings, Logs, gecachten Antworten? Wenn nicht, haben Sie ein revDSG-Problem, sobald die erste Anfrage kommt. Die meisten KI-Systeme sind darauf nicht ausgelegt. Das muss vor dem Go-Live geklärt werden, nicht danach.

## 5. Wer prüft die Datenqualität — und wie oft?

Ein Modell ist nur so gut wie seine Inputs. Wenn das interne Wiki halb-veraltet ist, halluziniert das RAG-System fröhlich vor sich hin und verkauft Halbwahrheiten als Wahrheit. Datenqualität ist kein einmaliges Projekt, sondern ein Betriebsprozess. Wer Daten in ein Modell speist, muss jemanden benennen, der die Qualität verantwortet — operativ, mit Zeit und Mandat.

## Der Test

Wenn ein Anbieter Ihnen ein KI-System verkaufen will und keine dieser fünf Fragen von sich aus stellt — gehen Sie. Nicht weil er ein schlechter Mensch ist, sondern weil er Ihnen ein Problem verkauft, das in 18 Monaten Ihres wird, nicht seines.

Newsletter

Nächste Mission in Ihrem Posteingang.

Eine E-Mail pro Mission. Keine Werbung.

Weiterlesen