News
>
DeepSeek V3: Hiina juhtiv avatud tehisintellektimudel avalikustatud

Dec. 26, 2024, 8:59 p.m.

DeepSeek V3: Hiina juhtiv avatud tehisintellektimudel avalikustatud

Brief news summary

DeepSeek, juhtiv Hiina tehisintellekti ettevõte, on lansseerinud DeepSeek V3, avatud lähtekoodiga tehisintellekti mudeli. See mudel võimaldab arendajatel seda alla laadida, muuta ja kasutada erinevatel eesmärkidel, sealhulgas ka ärilistes rakendustes. DeepSeek V3 paistab silma kodeerimise, tõlkimise ja kirjutamise ülesannetes, ületades sageli konkurente nagu Meta, OpenAI ja Alibaba mõõdupuudes. Selle võimekus tuleneb põhjalikust treeningust suurel andmestikul, mis koosneb 14,8 triljonist tokenist ja 671 miljardist parameetrist, mis on rohkem kui Meta Llama 3.1-l, millel on 405 miljardit parameetrit. See tohutu andmestik nõuab optimaalsete tulemuste saavutamiseks võimast riistvara. DeepSeek kasutas Nvidia H800 GPU-sid kaks kuud, mis tagas kulutõhusa treeningprotsessi võrreldes OpenAI GPT-4-ga. Vaatamata oma tugevustele seisab mudel silmitsi väljakutsetega poliitiliselt tundlike teemade, nagu Tiananmeni väljak, käsitlemisel, et järgida Hiina regulatsioone. High-Flyer Capital Management toetab DeepSeeki, investeerides tehisintellekti serveri infrastruktuuri, sealhulgas suurtesse Nvidia GPU klastritesse, eesmärgiga edendada tehisintellekti arendust "superintelligentsete" süsteemide suunas ja ületada suletud lähtekoodiga tehisintellekti piirangud.

Hiina laboratoorium on tutvustanud seni üht võimsamat "avatud" tehisintellekti mudelit, nimega DeepSeek V3. Selle on välja töötanud tehisintellekti firma DeepSeek ja see anti välja kolmapäeval leebe litsentsi alusel, mis võimaldab arendajatel seda alla laadida ja laiendada enamiku kasutusvõimaluste jaoks, kaasa arvatud kaubanduslikud rakendused. DeepSeek V3 paistab silma mitmesuguste tekstipõhiste ülesannete täitmisel, nagu kodeerimine, tõlkimine ja esseede ning e-kirjade kirjutamine etteantud juhiste järgi. DeepSeeki sisemiste testide põhjal ületab DeepSeek V3 nii allalaaditavad "avatud" mudelid kui ka "suletud" tehisintellekti mudelid, millele pääseb ligi ainult API kaudu. Kodeerimisvõistlustel Codeforcesil, mis on programmeerimisvõistluste platvorm, edestab DeepSeek teisi mudeleid, sealhulgas Meta Llama 3. 1 405B, OpenAI GPT-4o ja Alibaba Qwen 2. 5 72B. See paistab silma ka Aider Polyglot testis, mille eesmärk on hinnata, kas mudel suudab kirjutada uut koodi, mis integreerub olemasoleva koodiga. DeepSeek V3 on treenitud 14, 8 triljoni tokeni suuruse andmekogumiga. Andmeteaduses esindavad tokenid toorandmete osi, kusjuures 1 miljon tokenit vastab ligikaudu 750 000 sõnale. Mudel on ka mastaapselt suur, sisaldades 671 miljardit parameetrit (või 685 miljardit tehisintellekti arendusplatvormil Hugging Face), mis on sisemised muutujad, mida mudelid kasutavad otsuste tegemiseks. See suurus on umbes 1, 6 korda suurem kui Llama 3. 1 405B 405 miljardit parameetrit. Tavaliselt teevad suurema parameetrite arvuga mudelid paremaid tulemusi, kuid need vajavad ka võimsat riistvara sujuvaks töötamiseks. Optimeerimata DeepSeek V3 vajab mõistliku kiiruse saavutamiseks kõrgekvaliteediliste GPU-de baasi. Vaatamata oma ebapraktilisusele on DeepSeek V3 saavutus. DeepSeek treenis mudelit ligikaudu kahe kuuga, kasutades Nvidia H800 GPU-dega andmekeskust, mille ostmist USA kaubandusministeerium on hiljuti Hiina ettevõtetele keelanud.

Firma väidab, et kulutas DeepSeek V3 treenimiseks vaid 5, 5 miljonit dollarit, mis on murdosa OpenAI GPT-4 sarnaste mudelite kuludest. Kuid mudeli poliitilised seisukohad on mõneti piiratud. Näiteks ei kommenteeri see Tiananmeni väljaku teemat. Hiina ettevõttena allub DeepSeek Hiina interneti regulatsioonidele, tagades, et mudeli vastused toetavad "sotsialistlikke põhiväärtusi". Paljud Hiina tehisintellekti süsteemid väldivad teemasid, mis võivad reguleerijaid ärritada, näiteks Xi Jinpingi režiimi puudutavaid arutelusid. DeepSeek, mis hiljuti tutvustas DeepSeek-R1 konkurendina OpenAI o1 "mõtlemisvõime" mudelile, on intrigeeriv organisatsioon. Seda toetab High-Flyer Capital Management, Hiina riskifond, mis kasutab kauplemiseks tehisintellekti. High-Flyer ehitab oma serveriklastrid mudelite treenimiseks, millest üks sisaldab väidetavalt 10 000 Nvidia A100 GPU-d ning maksab 1 miljard jeeni (~138 miljonit dollarit). Ettevõtte asutaja on arvutiteaduse lõpetanud Liang Wenfeng, kelle eesmärk on DeepSeeki kaudu saavutada "superintelligentne" tehisintellekt. Wenfeng kirjeldas selle aasta alguses antud intervjuus suletud lähtekoodiga tehisintellekte, nagu OpenAI omi, kui "ajutist" eelist. “[See] ei ole takistanud teisi järele jõudmast, " täheldas ta. Tõepoolest.

News source

Watch video about

DeepSeek V3: Hiina juhtiv avatud tehisintellektimudel avalikustatud

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

DeepSeek V3: Hiina juhtiv avatud tehisintellektimudel avalikustatud

Brief news summary

News source

Watch video about

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Content Maker

Last news

Anthropic avastas esimese autonoomse tehisintellekti juhitud küberrünnaku, mis on seotud Hiina häkkijatega

Tehisintellekti loodud deportatsioonivideod põhjustavad Facebookis poleemikat

Kevin Reilly nimetati Karteli tegevjuhiks, et juhtida tehisintellekti innovatsiooni loovtööstustes

The Best for your Business

Hot news

Anthropic avastas tehisintellekti juhitava häkkim…

AI-ga loodud Sora videod ICE läbipääsude kohta on…

Kevin Reilly nimetati tehisintellekti nõustamisfi…

Google seisab Euroopa Liidu konkurentsivõistluse …

Dealism käivitab esimese Vibe Sellingil põhineva …

Tehisintellekti juhitud SEO: Järgmisel tasandil d…

Tehisintellekt on liitlane, mitte vaenlane

AI Company

Sales

Marketing

DeepSeek V3: Hiina juhtiv avatud tehisintellektimudel avalikustatud

Brief news summary

News source

Watch video about

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator. Let’s make a post or video and publish it on any social media — ready?

Content Maker

Last news

Anthropic avastas esimese autonoomse tehisintellekti juhitud küberrünnaku, mis on seotud Hiina häkkijatega

Tehisintellekti loodud deportatsioonivideod põhjustavad Facebookis poleemikat

Kevin Reilly nimetati Karteli tegevjuhiks, et juhtida tehisintellekti innovatsiooni loovtööstustes

The Best for your Business

Hot news

Anthropic avastas tehisintellekti juhitava häkkim…

AI-ga loodud Sora videod ICE läbipääsude kohta on…

Kevin Reilly nimetati tehisintellekti nõustamisfi…

Google seisab Euroopa Liidu konkurentsivõistluse …

Dealism käivitab esimese Vibe Sellingil põhineva …

Tehisintellekti juhitud SEO: Järgmisel tasandil d…

Tehisintellekt on liitlane, mitte vaenlane

AI Company

Your News is ready

Your article is ready

Generating video takes longer than text.

Join our community of experts

Reasons why you should be part of the experts community

Welcome to Neuron Expert!

Check your email

Launch Your AI-Powered Business

AI Marketing Across All Social Media

AI Sales Manager + CRM

Support

Content Maker

Topic

Specify the topic (Optional)

Link (Optional)

Learn how to craft press releases, create unique social media posts, write SEO-optimized articles for websites, and produce videos, all from a single source

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?