AI-Modelle kollabieren, wenn sie auf rekursiv erzeugten Daten trainiert werden

Basierend auf: Nature (2024), Volume 631, Seiten 755–759

Originalstudie:

https://www.nature.com/articles/s41586-024-07566-y

Kernidee der Studie

Die Arbeit in Nature zeigt ein fundamentales Problem moderner KI-Modelle:
Wenn Sprachmodelle wiederholt mit Daten trainiert werden, die selbst von anderen KI-Modellen erzeugt wurden,
beginnt die Qualität der Modelle systematisch zu kollabieren.

Statt immer besser zu werden, verlieren die Modelle schrittweise Diversität, seltene Informationen und statistische Feinheiten.
Am Ende entsteht eine Art „Echo-Kammer der KI“, in der Fehler verstärkt und Realität verzerrt wird.

Was passiert beim „Model Collapse“?

Das zentrale Problem ist eine Art Daten-Feedback-Schleife:

  • Ein Modell wird mit echten Daten trainiert
  • Es generiert synthetische Texte
  • Diese synthetischen Daten werden erneut zum Training verwendet
  • Mit jeder Iteration geht Informationsvielfalt verloren

Das Ergebnis ist eine schleichende Vereinheitlichung der Datenverteilung – seltene, aber wichtige Informationen verschwinden zuerst.

Warum das relevant ist

Die Studie ist besonders wichtig, weil große Teile zukünftiger Internetdaten vermutlich KI-generiert sein werden.
Damit entsteht ein strukturelles Risiko für alle Trainingspipelines moderner Sprachmodelle.

Vereinfacht gesagt: Wenn das Internet zunehmend von KI geschrieben wird, trainieren KIs irgendwann primär auf sich selbst –
mit potenziell degenerierenden Effekten.

Einordnung: Die Bibliothek von Babel

Das Problem erinnert stark an das Gedankenexperiment der
„Bibliothek von Babel“
von Jorge Luis Borges.

Dort existiert theoretisch eine unendliche Bibliothek, die alle möglichen Kombinationen von Zeichen enthält –
also auch alle wahren, falschen und sinnlosen Texte zugleich.

In ähnlicher Weise droht bei rekursivem KI-Training ein Datenraum, in dem Wahrheit, Halluzination und statistischer Lärm
zunehmend ineinander übergehen – und die Struktur der „Realität“ im Modell verwischt.

Fazit: Der größte Risikofaktor zukünftiger KI-Systeme ist nicht nur zu wenig Daten – sondern zu viel der falschen Daten,
insbesondere wenn sie von anderen KI-Systemen selbst erzeugt wurden.