lang icon English
Dec. 26, 2024, 8:59 p.m.
12823

DeepSeek V3: Hiina juhtiv avatud tehisintellektimudel avalikustatud

Brief news summary

DeepSeek, juhtiv Hiina tehisintellekti ettevõte, on lansseerinud DeepSeek V3, avatud lähtekoodiga tehisintellekti mudeli. See mudel võimaldab arendajatel seda alla laadida, muuta ja kasutada erinevatel eesmärkidel, sealhulgas ka ärilistes rakendustes. DeepSeek V3 paistab silma kodeerimise, tõlkimise ja kirjutamise ülesannetes, ületades sageli konkurente nagu Meta, OpenAI ja Alibaba mõõdupuudes. Selle võimekus tuleneb põhjalikust treeningust suurel andmestikul, mis koosneb 14,8 triljonist tokenist ja 671 miljardist parameetrist, mis on rohkem kui Meta Llama 3.1-l, millel on 405 miljardit parameetrit. See tohutu andmestik nõuab optimaalsete tulemuste saavutamiseks võimast riistvara. DeepSeek kasutas Nvidia H800 GPU-sid kaks kuud, mis tagas kulutõhusa treeningprotsessi võrreldes OpenAI GPT-4-ga. Vaatamata oma tugevustele seisab mudel silmitsi väljakutsetega poliitiliselt tundlike teemade, nagu Tiananmeni väljak, käsitlemisel, et järgida Hiina regulatsioone. High-Flyer Capital Management toetab DeepSeeki, investeerides tehisintellekti serveri infrastruktuuri, sealhulgas suurtesse Nvidia GPU klastritesse, eesmärgiga edendada tehisintellekti arendust "superintelligentsete" süsteemide suunas ja ületada suletud lähtekoodiga tehisintellekti piirangud.

Hiina laboratoorium on tutvustanud seni üht võimsamat "avatud" tehisintellekti mudelit, nimega DeepSeek V3. Selle on välja töötanud tehisintellekti firma DeepSeek ja see anti välja kolmapäeval leebe litsentsi alusel, mis võimaldab arendajatel seda alla laadida ja laiendada enamiku kasutusvõimaluste jaoks, kaasa arvatud kaubanduslikud rakendused. DeepSeek V3 paistab silma mitmesuguste tekstipõhiste ülesannete täitmisel, nagu kodeerimine, tõlkimine ja esseede ning e-kirjade kirjutamine etteantud juhiste järgi. DeepSeeki sisemiste testide põhjal ületab DeepSeek V3 nii allalaaditavad "avatud" mudelid kui ka "suletud" tehisintellekti mudelid, millele pääseb ligi ainult API kaudu. Kodeerimisvõistlustel Codeforcesil, mis on programmeerimisvõistluste platvorm, edestab DeepSeek teisi mudeleid, sealhulgas Meta Llama 3. 1 405B, OpenAI GPT-4o ja Alibaba Qwen 2. 5 72B. See paistab silma ka Aider Polyglot testis, mille eesmärk on hinnata, kas mudel suudab kirjutada uut koodi, mis integreerub olemasoleva koodiga. DeepSeek V3 on treenitud 14, 8 triljoni tokeni suuruse andmekogumiga. Andmeteaduses esindavad tokenid toorandmete osi, kusjuures 1 miljon tokenit vastab ligikaudu 750 000 sõnale. Mudel on ka mastaapselt suur, sisaldades 671 miljardit parameetrit (või 685 miljardit tehisintellekti arendusplatvormil Hugging Face), mis on sisemised muutujad, mida mudelid kasutavad otsuste tegemiseks. See suurus on umbes 1, 6 korda suurem kui Llama 3. 1 405B 405 miljardit parameetrit. Tavaliselt teevad suurema parameetrite arvuga mudelid paremaid tulemusi, kuid need vajavad ka võimsat riistvara sujuvaks töötamiseks. Optimeerimata DeepSeek V3 vajab mõistliku kiiruse saavutamiseks kõrgekvaliteediliste GPU-de baasi. Vaatamata oma ebapraktilisusele on DeepSeek V3 saavutus. DeepSeek treenis mudelit ligikaudu kahe kuuga, kasutades Nvidia H800 GPU-dega andmekeskust, mille ostmist USA kaubandusministeerium on hiljuti Hiina ettevõtetele keelanud.

Firma väidab, et kulutas DeepSeek V3 treenimiseks vaid 5, 5 miljonit dollarit, mis on murdosa OpenAI GPT-4 sarnaste mudelite kuludest. Kuid mudeli poliitilised seisukohad on mõneti piiratud. Näiteks ei kommenteeri see Tiananmeni väljaku teemat. Hiina ettevõttena allub DeepSeek Hiina interneti regulatsioonidele, tagades, et mudeli vastused toetavad "sotsialistlikke põhiväärtusi". Paljud Hiina tehisintellekti süsteemid väldivad teemasid, mis võivad reguleerijaid ärritada, näiteks Xi Jinpingi režiimi puudutavaid arutelusid. DeepSeek, mis hiljuti tutvustas DeepSeek-R1 konkurendina OpenAI o1 "mõtlemisvõime" mudelile, on intrigeeriv organisatsioon. Seda toetab High-Flyer Capital Management, Hiina riskifond, mis kasutab kauplemiseks tehisintellekti. High-Flyer ehitab oma serveriklastrid mudelite treenimiseks, millest üks sisaldab väidetavalt 10 000 Nvidia A100 GPU-d ning maksab 1 miljard jeeni (~138 miljonit dollarit). Ettevõtte asutaja on arvutiteaduse lõpetanud Liang Wenfeng, kelle eesmärk on DeepSeeki kaudu saavutada "superintelligentne" tehisintellekt. Wenfeng kirjeldas selle aasta alguses antud intervjuus suletud lähtekoodiga tehisintellekte, nagu OpenAI omi, kui "ajutist" eelist. “[See] ei ole takistanud teisi järele jõudmast, " täheldas ta. Tõepoolest.


Watch video about

DeepSeek V3: Hiina juhtiv avatud tehisintellektimudel avalikustatud

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Nov. 14, 2025, 1:26 p.m.

Anthropic avastas tehisintellekti juhitava häkkim…

Anthropic, juhtiv tehisintellekti ettevõte, on avalikustanud murrangulise ja murettekitava arengusuuna küberturvalisuses: esimese dokumenteeritud juhtumi, kus tehisintellekt iseseisvalt juhib häkkimiskampaaniat.

Nov. 14, 2025, 1:25 p.m.

AI-ga loodud Sora videod ICE läbipääsude kohta on…

„Vaata sammast, härra, liigu edasi,” ütleb ICE-tähise ja “POICE” märgistusega märkega politseinikke kandev ohvitser Mehhikost pärit näootsaga mehele, kes on riietunud Walmarti töötaja vesti.

Nov. 14, 2025, 1:18 p.m.

Kevin Reilly nimetati tehisintellekti nõustamisfi…

Kevin Reilly, kogenud Hollywoodi juht, keda tuntakse tema olulise rolli tõttu tuntuimate telesarjade nagu "Sopranod", "The Office" ja "Glee" toimumisel, on võtnud vastu uue väljakutse ja astunud Kartel, Beverly Hillsis baseeruva tehisintellekti loovnõustamise ettevõtte, tegevjuhi rolli.

Nov. 14, 2025, 1:14 p.m.

Google seisab Euroopa Liidu konkurentsivõistluse …

Euroopa Liit on algatanud suure antitrust-uurimise Google’i rämpsposti poliitika kohta pärast muresid mitmetelt uudisteväljaannete poolt kogu Euroopas.

Nov. 14, 2025, 1:12 p.m.

Dealism käivitab esimese Vibe Sellingil põhineva …

SINGAPURA, 13.

Nov. 14, 2025, 9:31 a.m.

Tehisintellekti juhitud SEO: Järgmisel tasandil d…

Tehisintellekt (AI) muutub kiiresti digitaalmarkkinimises transformatiivseks jõuks, eriti otsingumootorite optimeerimises (SEO).

Nov. 14, 2025, 9:22 a.m.

Tehisintellekt on liitlane, mitte vaenlane

Shelley E. Kohan tervitab Leigh Sevinit, Endeari kaasasutajat, kes pakub kaasaegset CRM-lahendust omnikanalilisele jaemüügibrändile.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today