Rozbieżności w benchmarkach modelu AI o3 firmy OpenAI budzą obawy dotyczące przejrzystości

Rozbieżność między wynikami benchmarków pierwszego i trzeciego rzędu dla modelu AI o3 firmy OpenAI wywołała pytania dotyczące przejrzystości firmy i praktyk oceny modeli. Gdy OpenAI wprowadziło model o3 w grudniu, twierdziło, że model potrafi poprawnie odpowiedzieć na nieco ponad jedną czwartą pytań z FrontierMath, trudnego zestawu zadań matematycznych. Ten wynik znacznie przewyższał konkurencję — kolejny najlepszy model odpowiadał poprawnie na około 2% problemów z FrontierMath. „Dziś wszystkie dostępne oferty mają mniej niż 2% [poprawnych odpowiedzi na FrontierMath], ” stwierdził Mark Chen, główny dyrektor ds. badań w OpenAI, podczas transmisji na żywo. „U nas, wewnętrznie, przy agresywnych ustawieniach testowych z większą mocą obliczeniową, udaje się nam osiągnąć ponad 25%. ” Jednak ta liczba prawdopodobnie stanowiła wartość maksymalną, osiągniętą przez wersję o3 obsługiwaną przez większą moc obliczeniową niż model, który OpenAI publicznie opublikowało w zeszłym tygodniu. Epoch AI, instytut badawczy stojący za FrontierMath, opublikował w piątek niezależne wyniki benchmarków dla o3. Zauważyli, że o3 osiągał około 10%, co jest znacznie poniżej najwyższej deklarowanej przez OpenAI wartości. Nie oznacza to koniecznie oszustwa ze strony OpenAI. Wyniki benchmarków opublikowane przez OpenAI w grudniu wskazywały na wynik dolnej granicy zgodny z ustaleniami Epoch.
Epoch zwróciło także uwagę na różnice w konfiguracji testów oraz na fakt, że użyli nowszej wersji FrontierMath do oceny. „Różnica między naszymi wynikami a wynikami OpenAI może wynikać z tego, że OpenAI oceniało za pomocą bardziej zaawansowanego, wewnętrznego modelu, korzystając z większej mocy obliczeniowej podczas testów, albo z faktu, że te wyniki zostały uzyskane na innej próbce zestawu FrontierMath (180 problemów w frontiermath-2024-11-26 vs. 290 problemów w frontiermath-2025-02-28-private), ” wyjaśnił Epoch. Zgodnie z wpisem na platformie X od Fundacji ARC Prize, która testowała wersję o3 przedpremierową, publiczny model o3 „jest innym modelem […] dostosowanym do użytku w czacie/produktach, ” co zgadza się z obserwacjami Epoch. „Wszystkie opublikowane poziomy mocy obliczeniowej o3 są mniejsze niż wersja, którą [testowaliśmy], ” dodała ARC Prize. Ogólnie rzecz biorąc, większa moc obliczeniowa zazwyczaj przekłada się na lepsze wyniki benchmarków. Przedstawiciel techniczny OpenAI, Wenda Zhou, wspomniała podczas zeszłotygodniowej transmisji na żywo, że wersja produkcyjna o3 jest „bardziej zoptymalizowana pod kątem rzeczywistych zastosowań” i szybsza w porównaniu do wersji demonstracyjnej z grudnia, co może tłumaczyć różnice w wynikach benchmarków. „[Z]robiliśmy [optymalizacje], by uczynić [model] bardziej opłacalnym w kosztach [i] bardziej przydatnym ogólnie, ” powiedziała Zhou. „Wciąż mamy nadzieję — wciąż uważamy — że to jest znacznie lepszy model […], nie będziesz musiał tyle czekać na odpowiedź, co jest ważne w przypadku tego typu modeli. ” Niemniej jednak fakt, że publicznie dostępny o3 nie spełnia początkowych zapowiedzi OpenAI dotyczących wyników, jest do pewnego stopnia bez znaczenia, ponieważ modele o3-mini-high i o4-mini przewyższają o3 w FrontierMath, a firma planuje wkrótce wypuścić bardziej zaawansowaną wersję, o3-pro. Mimo to epizod ten podkreśla, że wyniki benchmarków AI powinny być traktowane z rezerwą — zwłaszcza gdy pochodzą od firm promujących swoje własne usługi. Kontrowersje wokół benchmarków stają się coraz częstsze w dziedzinie sztucznej inteligencji, gdy dostawcy konkurują o nagłówki i uwagę użytkowników nowymi modelami. W styczniu Epoch spotkał się z krytyką za opóźnianie ujawnienia finansowania od OpenAI aż do momentu ogłoszenia o3. Wielu naukowych współtwórców FrontierMath nie było świadomych udziału OpenAI, dopóki nie został on upubliczniony. Ostatnio firma Elon'a Muska, xAI, została oskarżona o publikowanie mylących wykresów benchmarków dla swojego modelu AI Grok 3. Ponadto, Meta przyznała wcześniej w tym miesiącu, że promowała wyniki benchmarków dla innej wersji modelu niż ta, którą udostępniła deweloperom. Aktualizacja na 16:21 czasu pacyficznego: Dodano komentarze od członka zespołu technicznego OpenAI, Wendy Zhou, z zeszłotygodniowej transmisji.
Brief news summary
Model AI o3 firmy OpenAI wywołał kontrowersje związane z przejrzystością, ze względu na sprzeczne wyniki w zakresie wydajności na benchmarku FrontierMath. OpenAI twierdziło, że o3 rozwiązało ponad 25% trudnych problemów matematycznych, znacznie przewyższając konkurentów, którzy osiągali poniżej 2% dokładności. Jednak niezależne testy przeprowadzone przez Epoch AI wykazały dokładność bliższą 10%, co jest bardziej zgodne z ostrożnymi szacunkami OpenAI podawanymi publicznie. Różnica ta wynika z tego, że wewnętrzne oceny OpenAI korzystały z większej, mocniejszej wersji o3, wyposażonej w większe zasoby obliczeniowe, podczas gdy publicznie dostępny model jest mniejszy i zoptymalizowany pod kątem szybkości, co skutkuje obniżeniem wydajności. Zarówno Fundacja Nagrody ARC, jak i pracownicy OpenAI potwierdzili różnice w wielkości i ustawieniach modelu. Nowsze wersje, takie jak o3-mini-high i o4-mini, wykazują poprawę, ale sytuacja podkreśla potrzebę zachowania sceptycyzmu wobec twierdzeń o benchmarkach AI, zwłaszcza tych mających charakter promocyjny. Podobne problemy związane z przejrzystością dotknęły innych twórców AI, takich jak Epoch, xAI i Meta, co podkreśla trwające wyzwania w branży sztucznej inteligencji.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Manus AI: W pełni autonomny cyfrowy agent
Na początku 2025 roku krajobraz sztucznej inteligencji doświadczył znaczącego postępu wraz z uruchomieniem Manus AI, uniwersalnego agenta AI stworzonego przez chiński startup Monica.im.

Argo Blockchain PLC ogłasza wyniki roczne za 2024…
Argo Blockchain plc (LSE:ARB; NASDAQ:ARBK) podaje swoje zatwierdzone sprawozdanie finansowe za rok zakończony 31 grudnia 2024 roku.

Google wprowadza swojego czatbota AI Gemini dla d…
Google planuje uruchomić swojego czatbota AI Gemini dla dzieci poniżej 13.

W końcu wyląduj w przestrzeni z Justinem Sunem, n…
Podróż w kosmos z Justinem Sunem Giełda kryptowalut HTX (dawniej Huobi) ogłosiła, że w lipcu 2025 roku wyśle jednego użytkownika na kosmiczną podróż wartą 6 milionów dolarów z Justinem Sunem

Sztuczna inteligencja nie jest Twoim przyjacielem
Ostatnio, po aktualizacji OpenAI mającej na celu uczynienie ChatGPT „lepszym w kierowaniu rozmowami ku produktywnym rezultatom”, użytkownicy zauważyli, że chatbot nadmiernie wychwala słabe pomysły — na przykład plan jednego z użytkowników, by sprzedawać dosłowne „gówno na patyku”, nazwany „nie tylko sprytnym — to geniusz”.

Potencjał blockchaina w zdecentralizowanych finan…
Ruch zdecentralizowanych finansów (DeFi) szybko zyskuje na popularności, zasadniczo przekształcając globalny krajobraz finansowy.

Senator amerykański składa ustawę wzywającą do śl…
9 maja 2025 roku senator USA Tom Cotton zaprezentował "Ustawę o Bezpieczeństwie Układów", kluczowy projekt legislacyjny mający na celu wzmocnienie bezpieczeństwa i kontroli nad nowoczesnymi układami AI objętymi regulacjami eksportowymi, szczególnie w celu zapobiegania nieautoryzowanemu dostępowi i nadużyciom ze strony przeciwników, takich jak Chiny.