Originalstudie:
https://www.nature.com/articles/s41586-024-07566-y
Kernidee der Studie
Die Arbeit in Nature zeigt ein fundamentales Problem moderner KI-Modelle:
Wenn Sprachmodelle wiederholt mit Daten trainiert werden, die selbst von anderen KI-Modellen erzeugt wurden,
beginnt die Qualität der Modelle systematisch zu kollabieren.
Statt immer besser zu werden, verlieren die Modelle schrittweise Diversität, seltene Informationen und statistische Feinheiten.
Am Ende entsteht eine Art „Echo-Kammer der KI“, in der Fehler verstärkt und Realität verzerrt wird.
Was passiert beim „Model Collapse“?
Das zentrale Problem ist eine Art Daten-Feedback-Schleife:
- Ein Modell wird mit echten Daten trainiert
- Es generiert synthetische Texte
- Diese synthetischen Daten werden erneut zum Training verwendet
- Mit jeder Iteration geht Informationsvielfalt verloren
Das Ergebnis ist eine schleichende Vereinheitlichung der Datenverteilung – seltene, aber wichtige Informationen verschwinden zuerst.
Warum das relevant ist
Die Studie ist besonders wichtig, weil große Teile zukünftiger Internetdaten vermutlich KI-generiert sein werden.
Damit entsteht ein strukturelles Risiko für alle Trainingspipelines moderner Sprachmodelle.
Vereinfacht gesagt: Wenn das Internet zunehmend von KI geschrieben wird, trainieren KIs irgendwann primär auf sich selbst –
mit potenziell degenerierenden Effekten.
Einordnung: Die Bibliothek von Babel
Das Problem erinnert stark an das Gedankenexperiment der
„Bibliothek von Babel“ von Jorge Luis Borges.
Dort existiert theoretisch eine unendliche Bibliothek, die alle möglichen Kombinationen von Zeichen enthält –
also auch alle wahren, falschen und sinnlosen Texte zugleich.
In ähnlicher Weise droht bei rekursivem KI-Training ein Datenraum, in dem Wahrheit, Halluzination und statistischer Lärm
zunehmend ineinander übergehen – und die Struktur der „Realität“ im Modell verwischt.

