lang icon En
Dec. 26, 2024, 8:59 p.m.
13408

DeepSeek V3: Wiodący Chiński Model Open AI Ujawniony

Brief news summary

DeepSeek, wiodąca chińska firma AI, uruchomiła DeepSeek V3, otwartoźródłowy model AI. Ten model pozwala deweloperom na pobieranie, modyfikowanie i wykorzystywanie go w różnych celach, w tym do zastosowań komercyjnych. DeepSeek V3 doskonale radzi sobie z zadaniami związanymi z kodowaniem, tłumaczeniem i pisaniem, często przewyższając w testach konkurentów takich jak Meta, OpenAI i Alibaba. Jego możliwości wynikają z intensywnego treningu na dużym zbiorze danych zawierającym 14,8 biliona tokenów oraz 671 miliardów parametrów, co przewyższa Meta's Llama 3.1 z 405 miliardami parametrów. Ten ogromny zbiór danych wymaga mocnego sprzętu do optymalnego wykorzystania. DeepSeek używało procesorów Nvidia H800 GPU przez dwa miesiące, co zaowocowało opłacalnym procesem treningowym w porównaniu do GPT-4 OpenAI. Pomimo swoich zalet, model napotyka wyzwania przy tematach politycznie wrażliwych, takich jak Plac Tiananmen, aby dostosować się do chińskich regulacji. High-Flyer Capital Management wspiera DeepSeek, inwestując w infrastrukturę serwerową AI, w tym duże klastry GPU Nvidia, dążąc do rozwoju AI w kierunku systemów „superinteligentnych” i przezwyciężenia ograniczeń zamkniętych źródłowo AI.

Chińskie laboratorium zaprezentowało jeden z najpotężniejszych "otwartych" modeli AI, zwany DeepSeek V3. Opracowany przez firmę AI DeepSeek, został wydany w środę na licencji pozwalającej programistom na pobieranie i modyfikowanie go do większości zastosowań, w tym komercyjnych. DeepSeek V3 wyróżnia się w rozmaitych zadaniach tekstowych, takich jak programowanie, tłumaczenie i pisanie esejów oraz e-maili na podstawie podpowiedzi. Według wewnętrznych testów DeepSeek, DeepSeek V3 przewyższa zarówno dostępne do pobrania, "otwarte" modele, jak i "zamknięte" modele AI, które są dostępne jedynie przez API. W konkursach programistycznych na Codeforces, platformie do zawodów programistycznych, DeepSeek przewyższa inne modele, w tym Llama 3. 1 405B od Meta, GPT-4o od OpenAI i Qwen 2. 5 72B od Alibaba. Model ten również doskonale radzi sobie w teście Aider Polyglot, stworzonym do oceny, czy model potrafi pisać nowy kod integrujący się z istniejącym kodem. DeepSeek V3 został wyszkolony na zbiorze danych obejmującym 14, 8 bilionów tokenów. W nauce o danych tokeny reprezentują fragmenty surowych danych, przy czym 1 milion tokenów to około 750 000 słów. Model jest również ogromny pod względem rozmiaru, z 671 miliardami parametrów (lub 685 miliardami na platformie AI Hugging Face), które są wewnętrznymi zmiennymi używanymi przez modele do podejmowania decyzji. Ten rozmiar to około 1, 6 razy więcej niż 405 miliardów parametrów Llama 3. 1 405B. Zwykle modele z większą ilością parametrów działają lepiej, ale wymagają również potężnego sprzętu do efektywnego działania. Nieoptymalizowany DeepSeek V3 potrzebuje banku wysokiej klasy GPU do osiągania rozsądnych prędkości. Pomimo swojej niepraktyczności, DeepSeek V3 jest osiągnięciem. DeepSeek wyszkolił model w ciągu około dwóch miesięcy, korzystając z centrum danych Nvidia H800 GPU, które niedawno zostały zakazane do nabycia przez chińskie firmy przez Departament Handlu USA.

Firma twierdzi, że wydała jedynie 5, 5 miliona dolarów na trenowanie DeepSeek V3, co stanowi ułamek kosztów modeli takich jak GPT-4 od OpenAI. Jednak poglądy polityczne modelu są w pewnym stopniu ograniczone. Na przykład nie komentuje tematu placu Tiananmen. Jako chińska firma, DeepSeek podlega chińskim regulacjom internetowym, zapewniając, że odpowiedzi modelu podtrzymują "wartości socjalistyczne". Wiele chińskich systemów AI unika tematów, które mogą nie spodobać się regulatorom, jak dyskusje o reżimie Xi Jinpinga. DeepSeek, które niedawno wprowadziło DeepSeek-R1 jako konkurenta OpenAI’s o1 "reasoning" model, jest interesującą organizacją. Jest wspierane przez High-Flyer Capital Management, chiński fundusz hedgingowy używający AI do handlu. High-Flyer buduje własne klastry serwerów do szkolenia modeli, z których jeden podobno zawiera 10 000 GPU Nvidia A100 i kosztuje 1 miliard jenów (~138 milionów dolarów). Założony przez Liang Wenfenga, absolwenta informatyki, High-Flyer dąży do osiągnięcia "superinteligentnego" AI przez DeepSeek. Wenfeng, w wywiadzie na początku tego roku, opisał zamknięte źródła AI, jak te od OpenAI, jako "tymczasową" przewagę. "[To] nie powstrzymało innych od dogonienia, " zauważył. Rzeczywiście.


Watch video about

DeepSeek V3: Wiodący Chiński Model Open AI Ujawniony

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 23, 2025, 1:26 p.m.

15 sposobów, w jakie sprzedaż się zmieniła w tym …

Przez ostatnich 18 miesięcy zespół SaaStr zagłębił się w temat AI i sprzedaży, a intensywny wzrost nastąpił od czerwca 2025 roku.

Dec. 23, 2025, 1:23 p.m.

GPT-5 od OpenAI: Co do tej pory wiemy

OpenAI przygotowuje się do uruchomienia GPT-5, kolejnej dużej wersji swojego series dużych modeli językowych, którego premiera przewidywana jest na początek 2026 roku.

Dec. 23, 2025, 1:20 p.m.

Sztuczna inteligencja w SEO: rewolucja w tworzeni…

Sztuczna inteligencja (SI) szybko przekształca dziedzinę tworzenia i optymalizacji treści w ramach optymalizacji dla wyszukiwarek internetowych (SEO).

Dec. 23, 2025, 1:20 p.m.

Rozwiązania w zakresie wideokonferencji opartych …

Przejście na pracę zdalną uwydatniło kluczową potrzebę posiadania skutecznych narzędzi komunikacyjnych, co doprowadziło do rozwoju rozwiązań do wideokonferencji zasilanych sztuczną inteligencją, umożliwiających płynną współpracę na odległość.

Dec. 23, 2025, 1:17 p.m.

Rynek sztucznej inteligencji w medycynie: wielkoś…

Przegląd Rynek globalny sztucznej inteligencji w medycynie szacowany jest na około 156,8 miliarda USD do 2033 roku, wobec 13,7 miliarda USD w 2023 roku, z dynamicznym CAGR wynoszącym 27,6% od 2024 do 2033

Dec. 23, 2025, 9:30 a.m.

Danny Sullivan i John Mueller z Google o SEO dla …

John Mueller z Google gościł Danny’ego Sullivana, również z Google, podczas podcastu Search Off the Record, aby omówić temat „Myśli na temat SEO i SEO dla AI”.

Dec. 23, 2025, 9:26 a.m.

Lexus testuje generatywną sztuczną inteligencję w…

Krótki wgląd: Lexus uruchomił świąteczną kampanię marketingową stworzoną przy użyciu generatywnej sztucznej inteligencji, jak podano w komunikacie prasowym

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today