Musk roept op tot synthetische data voor AI

Musk roept op tot synthetische data voor AI

Elon Musk roept op tot het gebruik van synthetische data voor AI-training, waarbij hij stelt dat alle menselijke data vrijwel is uitgeput. Dit opmerkelijke standpunt werd naar voren gebracht terwijl hij de mogelijkheden van kunstmatige intelligentie verkende.

Musk, die in 2023 zijn eigen AI-bedrijf xAI oprichtte, benadrukt dat bedrijven die actief zijn in AI hun beschikbare databronnen hebben uitgeput. Volgens Musk hebben deze bedrijven de grenzen van menselijke kennis bereikt. Hij wijst erop dat er een verschuiving nodig is naar 'synthetische' data, wat betekent dat informatie door AI-modellen zelf wordt gegenereerd.

“De cumulatieve som van menselijke kennis is eigenlijk vorig jaar uitgeput,” verklaarde Musk. Dit roept de vraag op: hoe kunnen we voortbouwen op wat we al hebben geleerd? Volgens Musk is de overgang naar synthetische data de enige manier om deze tekortkoming aan te pakken. Hij legt uit dat deze AI-gegenereerde data in staat is om essays te schrijven of theses te creëren, en zichzelf te beoordelen in een proces van zelf-leren.

In de technologische wereld wordt synthetische data al toegepast. Meta, het moederbedrijf van Facebook en Instagram, heeft het gebruikt om zijn Llama AI-model te verbeteren, terwijl Microsoft dit ook deed voor zijn Phi-4-model. Dit soort innovaties zien we ook terug bij Google en OpenAI, die synthetische data in hun AI-projecten verwerken.

Echter, Musk waarschuwt dat AI-modellen soms 'hallucinaties' kunnen produceren. Dit houdt in dat ze onjuiste of zinloze uitkomsten genereren. Tijdens een livestreamgesprek met Mark Penn, voorzitter van het reclamebureau Stagwell, gaf Musk aan dat deze hallucinaties het gebruik van synthetische data erg uitdagend maken.

Andrew Duncan van het Alan Turing Institute in het VK ondersteunt Musk’s stelling. Volgens recent onderzoek kan de publieke data pool voor AI-modellen al in 2026 uitgeput zijn. Hij waarschuwt dat te veel afhankelijkheid van synthetische data kan leiden tot 'model collapse', een situatie waarin de kwaliteit van modeluitkomsten verslechtert.

Duncan legt uit dat als je een model voedt met synthetische data, je kunt verwachten dat de resultaten steeds minder worden. Dit kan leiden tot uitkomsten die bevooroordeeld zijn en creativiteit missen. De groei van AI-gegeneerde content op internet kan dit probleem verder verergeren, waardoor deze materialen terechtkomen in AI-trainingsdatasets.

Een ander belangrijk aspect in dit debat is het beheer van hoogwaardige data en de bijbehorende rechten. Vorig jaar bevestigde OpenAI dat het ontwikkelen van tools zoals ChatGPT niet mogelijk zou zijn zonder gebruik te maken van auteursrechtelijk beschermd materiaal. Dit heeft geleid tot oproepen vanuit de creatieve sector en uitgevers voor een vergoeding bij het gebruik van hun werken in AI-training.

De suggestie van Musk om over te schakelen naar synthetische data voor AI-training roept belangrijke vragen op. Hoewel het misschien een tijdelijke oplossing biedt, zijn de risico's van 'model collapse' reëel. Een afname in de kwaliteit en originaliteit van AI-modellen kan uiteindelijk leiden tot ongegronde en nutteloze antwoorden voor gebruikers.