Elon Musk beweert dat AI geen echte trainingsgegevens meer heeft

Elon Musk: AI heeft de kennis van de mensheid opgeslokt; synthetische gegevens zijn de toekomst (Afbeeldingsbron: Dall-E 3)

Elon Musk beweert dat AI sinds 2024 geen real-world trainingsgegevens meer beschikbaar heeft, en pleit voor het genereren van synthetische gegevens als de toekomst van AI-ontwikkeling. Grote techbedrijven omarmen deze aanpak al, hoewel onderzoekers waarschuwen voor potentiële risico's zoals het instorten van modellen en biasversterking.

Nathan Ali (vertaald door Ninh Duy), Gepubliceerd 14-01-2025 🇺🇸 🇫🇷 ...

In een recent interview op CES zei Elon Musk dat kunstmatige intelligentie in principe alle beschikbare trainingsgegevens uit de echte wereld heeft opgebruikt alle beschikbare real-world trainingsgegevens heeft opgebruikt, wat erop wijst dat het genereren van synthetische gegevens de belangrijkste manier is om verder te komen. Dit idee komt overeen met wat de voormalige OpenAI hoofdwetenschapper Ilya Sutskever zei over het bereiken van "piekgegevens" in AI-ontwikkeling.

Musk gelooft dat de door mensen geproduceerde gegevens in 2024 op waren. Als CEO van Tesla en eigenaar van xAI benadrukte hij dat AI zijn eigen trainingsgegevens laten creëren de meest praktische oplossing is om AI vooruit te helpen. Met deze methode kunnen AI-systemen zichzelf controleren en al doende leren.

Veel grote techbedrijven zijn al op de trein van synthetische gegevens gesprongen. Microsofts nieuwe open-source Phi-4 model, bijvoorbeeld, vertrouwt op een combinatie van synthetische en echte informatie, terwijl Google een vergelijkbare strategie gebruikt voor zijn Gemma modellen. Anthropic's Claude 3.5 Sonnet en Meta's nieuwste Llama-serie vertrouwen ook op AI-gegenereerde gegevens.

Ondertussen voorspellen analisten van Gartner dat tegen 2024 ongeveer 60 procent van de gegevens die gebruikt worden in AI- en analyseprojecten synthetisch zullen zijn. Een grote reden voor de verschuiving zijn de kosten. AI-startup Writer zegt dat het ongeveer 700.000 dollar heeft uitgegeven om zijn Palmyra X 004-model te ontwikkelen - veel goedkoper dan de geschatte 4,6 miljoen dollar om een vergelijkbaar OpenAI-model te bouwen.

Maar synthetische gegevens zijn niet zonder problemen. Onderzoekers waarschuwen voor het risico van "model collapse", waarbij AI minder inventief en meer bevooroordeeld kan worden. Dit probleem kan zich voordoen als eventuele vertekeningen in de oorspronkelijke dataset worden versterkt wanneer de AI zelf nieuwe gegevens begint te produceren.