lang icon En
Dec. 27, 2024, 6:57 a.m.
11827

V3 model DeepSeeka nadmašuje tehnološke gigante uz inovacije u budžetu.

Brief news summary

Kineski start-up DeepSeek izazvao je veliku pažnju na globalnoj AI sceni objavom novog velikog jezičkog modela (LLM), DeepSeek V3. S 671 milijardom parametara, model je treniran za samo dva mjeseca uz trošak od 5,58 miliona američkih dolara. Iako su koristili manje računarskih resursa u poređenju s gigantima poput Meta i OpenAI, DeepSeek V3 je nadmašio konkurente na testovima učinka. Ovaj uspjeh ukazuje na napredak kineskih AI kompanija, čak i uprkos američkim sankcijama koje ograničavaju pristup naprednim poluprovodnicima. DeepSeek V3 je ključan za usluge generisanja AI zbog svoje sposobnosti da upravlja složenim podacima i pruža precizne prognoze. Andrej Karpathy iz OpenAI pohvalio je efikasni pristup treniranju DeepSeeka, koji se postiže samo dijeljenjem unaprijed treniranih težina, omogućujući drugima da koriste model bez otkrivanja njegovog koda za treniranje ili dataseta. Ova inovativna strategija predstavlja važan korak za kineske AI firme u oštro konkurentnom globalnom tržištu.

V3 model DeepSeek-a razvijen je u roku od dva mjeseca za 5, 58 miliona američkih dolara, koristeći manje računalnih resursa od svojih konkurenata. Vrijeme čitanja: 2 minute Zašto možete vjerovati SCMP-u Izvještaj Ben Jianga iz Pekinga Objavljeno i ažurirano: 18:45, 27. decembar 2024. DeepSeek, kineski start-up, uzdrmao je globalnu industriju AI-a sa svojim novim velikim jezičkim modelom (LLM), koji je nadmašio modele Meta Platforms i kreatora ChatGPT-a, OpenAI-a, u testovima temeljnih standarda. Kompanija sa sjedištem u Hangzhouu objavila je u četvrtak putem WeChata da njen LLM, DeepSeek V3, ima 671 milijardu parametara i da je treniran otprilike dva mjeseca uz cijenu od 5, 58 miliona američkih dolara, koristeći znatno manje resursa računalne moći od onih koje su razvile veće tehnološke firme. LLM podržava generativne AI usluge poput ChatGPT-a, a visok broj parametara je ključan za prilagođavanje složenim obrascima podataka i davanje preciznih predikcija. Računarski naučnik Andrej Karpathy, član osnivačkog tima OpenAI-a, komentarisao je izvještaj kineskog start-upa o svom novom AI modelu, rekavši na društvenoj mreži X: "DeepSeek čini da izgleda lako . . .

s objavom otvorenih težina modela LLM vrhunske klase treniranog s budžetom koji je šala. " Otvorene težine podrazumijevaju objavljivanje samo unaprijed treniranih parametara, ili težina, AI modela, omogućavajući trećim stranama da koriste model za inferenciju i fino podešavanje, ali ne pružajući kôd za treniranje, originalni skup podataka, detalje arhitekture i metodologiju treniranja. Stvaranje snažnog LLM-a od strane DeepSeek-a uz daleko manji budžet od onoga što veće kompanije poput Meta i OpenAI obično ulažu, ističe napredak kineskih AI firmi, uprkos američkim sankcijama koje ograničavaju njihov pristup naprednim poluprovodnicima potrebnim za treniranje modela.


Watch video about

V3 model DeepSeeka nadmašuje tehnološke gigante uz inovacije u budžetu.

Try our premium solution and start getting clients — at no cost to you

Content creator image

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

AI Company welcome image

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today