Elon Musk i AI stručnjaci razgovaraju o sintetičkim podacima za obuku AI sistema
Brief news summary
Elon Musk i stručnjaci za AI ističu rastući nedostatak stvarnih podataka za obuku AI modela. Musk predlaže da je većina iskoristivog ljudskog znanja za AI iscrpljena prošle godine. Ovo se slaže s teorijom "peak data" Ilye Sutskevera i potiče pomak ka sintetičkim podacima koje sami AI modeli kreiraju. Musk vjeruje da AI mora generisati i ocjenjivati vlastite podatke za napredak. Tehnološki giganti poput Microsofta, Mete, OpenAI-a i Anthropica već usvajaju sintetičke podatke za obuku AI. Gartner predviđa da će do 2024. godine 60% AI i analitičkih podataka biti sintetički. Primjeri AI modela koji koriste sintetičke podatke uključuju Microsoftov Phi-4, Googleov Gemma, Anthropicov Claude 3.5 Sonnet i Metinu Llama seriju. Sintetički podaci nude troškovne prednosti. Na primjer, Writerov model Palmyra X 004, prvenstveno izgrađen sa sintetičkim podacima, koštao je 700 hiljada dolara, što je mnogo manje od 4,6 miliona dolara potrošenih na sličan model od strane OpenAI-a.Elon Musk se slaže s drugim stručnjacima za umjetnu inteligenciju da nedostaje stvarnih podataka za treniranje AI modela. Tokom livestream razgovora s predsjednikom Stagwell-a, Markom Pennom, na X-u, Musk je rekao: "Praktično smo potrošili kumulativni zbroj ljudskog znanja u obuci AI, " naglasivši da se to iscrpljenje dogodilo prošle godine. Musk, koji vodi AI kompaniju xAI, ponovio je stavove bivšeg glavnog naučnika OpenAI-a, Ilye Sutskevera, koji je ovo pitanje obradio na NeurIPS konferenciji o mašinskom učenju u decembru. Sutskever je spomenuo da je AI industrija dosegla "vrhunac podataka", predviđajući da će nedostatak podataka za treniranje zahtijevati promjenu trenutnih praksi razvoja modela. Musk je sugerirao da je sintetički podatak, koji generira AI sam, put naprijed, rekavši: "Jedini način da nadomjestimo [stvarne podatke] je sa sintetičkim podacima, gdje AI kreira [podatke za treniranje]. Sa sintetičkim podacima, [AI] će se sam ocjenjivati i uključiti se u samo-učenje. " Mnoge kompanije, uključujući Microsoft, Meta, OpenAI i Anthropic, već koriste sintetičke podatke za obuku svojih glavnih AI modela.
Prema Gartneru, 60% podataka koji se koriste za AI i analitičke projekte u 2024. godini bit će sintetički generisani. Phi-4, nedavno otvoren za javnost od strane Microsofta, treniran je korišćenjem i sintetičkih i stvarnih podataka, kao i Googleovi Gemma modeli. Anthropic je također koristio sintetičke podatke za svoj visoko sposobni Claude 3. 5 Sonnet sistem, a Meta je fino podesila svoju najnoviju Llama seriju modela sa podacima generisanim AI-om. Obuka modela na sintetičkim podacima također nudi ekonomske prednosti. Startup za AI, Writer, tvrdi da je njegov Palmyra X 004 model, uglavnom razvijen na sintetičkim izvorima, koštao samo 700. 000 dolara za razvoj, u poređenju s procijenjenim 4. 6 miliona dolara za model slične veličine iz OpenAI-a.
Watch video about
Elon Musk i AI stručnjaci razgovaraju o sintetičkim podacima za obuku AI sistema
Try our premium solution and start getting clients — at no cost to you