/ en / Traditional / help

Beats Biblionetz - Texte

AI models collapse when trained on recursively generated data

Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Nicolas Papernot, Ross Anderson, Yarin Gal
Erstpublikation in: Nature volume 631, pages755–759 (2024)
Publikationsdatum:
Erste Seite des Textes (PDF-Thumbnail)
Dieses Biblionetz-Objekt existiert erst seit November 2025. Es ist deshalb gut möglich, dass viele der eigentlich vorhandenen Vernetzungen zu älteren Biblionetz-Objekten bisher nicht erstellt wurden. Somit kann es sein, dass diese Seite sehr lückenhaft ist.

iconZusammenfassungen

Stable diffusion revolutionized image creation from descriptive text. GPT-2 (ref. 1), GPT-3(.5) (ref. 2) and GPT-4 (ref. 3) demonstrated high performance across a variety of language tasks. ChatGPT introduced such language models to the public. It is now clear that generative artificial intelligence (AI) such as large language models (LLMs) is here to stay and will substantially change the ecosystem of online text and images. Here we consider what may happen to GPT-{n} once LLMs contribute much of the text found online. We find that indiscriminate use of model-generated content in training causes irreversible defects in the resulting models, in which tails of the original content distribution disappear. We refer to this effect as ‘model collapse’ and show that it can occur in LLMs as well as in variational autoencoders (VAEs) and Gaussian mixture models (GMMs). We build theoretical intuition behind the phenomenon and portray its ubiquity among all learned generative models. We demonstrate that it must be taken seriously if we are to sustain the benefits of training from large-scale data scraped from the web. Indeed, the value of data collected about genuine human interactions with systems will be increasingly valuable in the presence of LLM-generated content in data crawled from the Internet.
Von Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Nicolas Papernot, Ross Anderson, Yarin Gal im Text AI models collapse when trained on recursively generated data (2024)

iconDieser wissenschaftliche Zeitschriftenartikel erwähnt ...


Personen
KB IB clear
OpenAI

Begriffe
KB IB clear
Chat-GPT , ContentContent , Datendata , Generative Machine-Learning-Systeme (GMLS)computer-generated text , Generative Pretrained Transformer 3 (GPT-3) , Generative Pretrained Transformer 4 (GPT-4) , GPT-2 , Internetinternet , Künstliche Intelligenz (KI / AI)artificial intelligence , model collapse / Model Autophagy Disorder (MAD)
icon
Texte
Jahr  Umschlag Titel Abrufe IBOBKBLB
2023 local web  GPT-4 Technical Report (OpenAI) 7, 6, 4, 2, 3, 3, 5, 6, 10, 4, 9, 15 28 18 15 105

iconDieser wissenschaftliche Zeitschriftenartikel erwähnt vermutlich nicht ... Eine statistisch erstelle Liste von nicht erwähnten (oder zumindest nicht erfassten) Begriffen, die aufgrund der erwähnten Begriffe eine hohe Wahrscheinlichkeit aufweisen, erwähnt zu werden.

icon
Nicht erwähnte Begriffe
GMLS & Bildung, GMLS & Schule

iconTagcloud

iconZitationsgraph (Beta-Test mit vis.js)

iconVolltext dieses Dokuments

Auf dem WWW AI models collapse when trained on recursively generated data: Artikel als Volltext (lokal: PDF, 1131 kByte; WWW: Link OK )

iconAnderswo suchen  Auch im Biblionetz finden Sie nicht alles. Aus diesem Grund bietet das Biblionetz bereits ausgefüllte Suchformulare für verschiedene Suchdienste an. Biblionetztreffer werden dabei ausgeschlossen.

iconBeat und dieser wissenschaftliche Zeitschriftenartikel

Beat hat Dieser wissenschaftliche Zeitschriftenartikel erst in den letzten 6 Monaten in Biblionetz aufgenommen. Er hat Dieser wissenschaftliche Zeitschriftenartikel einmalig erfasst und bisher nicht mehr bearbeitet. Beat besitzt kein physisches, aber ein digitales Exemplar. Eine digitale Version ist auf dem Internet verfügbar (s.o.). Es gibt bisher nur wenige Objekte im Biblionetz, die dieses Werk zitieren.

iconBiblionetz-History Dies ist eine graphische Darstellung, wann wie viele Verweise von und zu diesem Objekt ins Biblionetz eingetragen wurden und wie oft die Seite abgerufen wurde.