Musk Opfordrer til Syntetiske Data i AI

Musk Opfordrer til Syntetiske Data i AI

Elon Musk har udtalt, at virksomheder, der arbejder med kunstig intelligens, har brugt det tilgængelige menneskelige data til træning af modeller, og at de næsten har nået grænsen for menneskelig viden. Den rigeste mand i verden peger på, at teknologifirmaer snart kan være nødt til at skifte til at bruge "syntetiske" data - data, der skabes af AI-modeller - for at udvikle og forbedre nye systemer. Dette er allerede en tendens, der ses i den hurtigt udviklende AI-branche.

"Den samlede mængde menneskelig viden er udtømt i AI-træning. Det skete grundlæggende sidste år," sagde Musk, som i 2023 lancerede sit eget AI-foretagende, xAI.

AI-modeller, herunder GPT-4o modellen, som driver ChatGPT chatbotten, gennemgår en træningsproces ved hjælp af et omfattende datasæt fra internettet. Gennem denne proces lærer modellerne at identificere mønstre i dataene, hvilket giver dem evnen til at forudsige de næste ord i en sætning.

I et nyligt interview på sin sociale medieplatform, X, udtalte Musk, at den eneste måde at håndtere manglen på kilde-materiale til træning af nye modeller på, er at skifte til syntetiske data genereret af kunstig intelligens.

Han påpegede, at for at supplere de udtømte datakilder, er den eneste løsning syntetisk data, hvor modellerne selv kan skabe essays eller lave opgaver og derefter bedømme deres egne svar i en proces med selvlæring.

Meta, moderselskabet bag Facebook og Instagram, har anvendt syntetiske data for at forbedre sin Llama AI-model, mens Microsoft også har brugt AI-genereret indhold til sin Phi-4-model. Derudover har både Google og OpenAI, virksomheden bag ChatGPT, integreret syntetiske data i deres AI-initiativer.

Men Musk advarede om, at AI-modellers tendens til at producere "hallucinationer" - en betegnelse for fejlinformationer eller meningsløse udtryk - repræsenterer en betydelig risiko ved metoden med syntetiske data.

I en livestreamet samtale med Mark Penn, formanden for reklamefirmaet Stagwell, bemærkede Musk, at hallucinationer gør brugen af kunstige data "udfordrende", og han stillede spørgsmålstegn ved, hvordan man kan skelne mellem, hvad der er en hallucination, og hvad der er et legitimt svar.

Andrew Duncan, direktør for grundlæggende AI ved Alan Turing Institute i UK, bemærkede, at Musks udsagn stemmer overens med en nylig akademisk artikel, der antyder, at puljen af offentligt tilgængelige data til AI-modeller kan være udpint allerede i 2026. Han advarede desuden om, at overdreven afhængighed af syntetiske data kan føre til "model collapse", en tilstand præget af faldende outputkvalitet. "Når du begynder at fodre en model med syntetiske data, vil du begynde at opleve faldende udbytte," sagde han og påpeger risikoen for, at output kan være skævt og mangler kreativitet.

Duncan nævnte også, at en stigende mængde AI-genereret indhold tilgængeligt på internettet kan ende med at blive inkorporeret i AI-træningsdatasæt.

Håndteringen af data af høj kvalitet og de tilhørende rettigheder er blevet et væsentligt juridisk spørgsmål i takt med AI-udviklingens hurtige fremdrift. OpenAI anerkendte sidste år, at udviklingen af værktøjer som ChatGPT ikke ville være mulig uden brug af ophavsretligt beskyttede materialer, hvilket har ført til krav fra kreative sektorer og forlag om betaling for anvendelsen af deres værker i træningen af disse modeller.

Musk's forslag om at skifte til syntetiske data til AI-træning rejser alvorlige bekymringer. Selvom det kan give en midlertidig løsning, må risikoerne for "model collapse" ikke ignoreres. Afhængigheden af AI-genereret indhold kan føre til faldende udbytte, hvor resultaterne bliver mere og mere skæve og mangler kreativitet.

Som syntetiske data bliver mere udbredte, kan kvaliteten af AI-modellerne falde, hvilket resulterer i upålidelige eller meningsløse svar. Desuden kan den stigende brug af AI-genereret indhold i træningsdatasæt forværre disse problemer, hvilket gør det vanskeligt at sikre nøjagtigheden og originaliteten i fremtidige AI-systemer.