Ново истражување открива дека вештачката интелигенција има тешкотии со читање на аналоги часовници и пресметка на датумот според календарот

Ново истражување идентификува сет на задачи што луѓето ги извршуваат без напор, а вештачката интелигенција (ВИ) се мачи со нив — особено читање на аналоги часовници и одредување на денот од неделата за даден датум. Иако ВИ може да генерира код, слики, текст сличен на човечкиот, па дури и да полага тестови во различни степени, често погрешно интерпретира позиција на индикаторите на часовникот и не успева во основната аритметика за календар. Истражувањето, претставено на Меѓународната конференција за претставување на учењето (ICLR) во 2025 година и објавено на претскандалскиот сервер arXiv (сè уште не е рецензирано), ја нагласува значајната празнина во способностите на ВИ да извршува задачи кои луѓето ги совладале рано во животот. Водечкиот автор Рохит Сахена од Универзитетот во Единбург истакна дека овие недостатоци мора да се решат за ВИ да се користи ефикасно во контексти кои бараат брза реакција и работа во реални услови како планери, автоматизација и асистивни технологии. Истражувачите тестираа различни мултимодални големи јазици модели (MLLM) — меѓу кои Meta’s Llama 3. 2-Vision, Anthropic’s Claude-3. 5 Sonnet, Google’s Gemini 2. 0 и OpenAI’s GPT-4o — користејќи уникатен сет на податоци со слики од часовници и календари. Моделите не успеаја во повеќе од половина од случаите да правилно идентификуваат времето на часовникот или да одредат деновите од неделата за примерни датуми, со точност од само 38, 7% за часовници и 26, 3% за календарски задачи. Сахена објасни дека слабоста во читањето часовници кај ВИ произлегува од недостатокот на просторно размислување — задачи што бараат откривање на преклопувањето на индикаторите, мерење на агли и интерпретирање на различни дизајни на часовници, како што се римските броеви или стилизирани цинингери. Препознавањето на сликата како часовник е полесно за ВИ отколку точното читање.
Исто така, иако аритметиката е основна за пресметките, големите јазични модели не извршуваат пресметки преку алгоритми; наместо тоа, тие предвидуваат исклучоци според обрасците во тренирачките податоци. Овој пристап доведува до неконзистентни и непредвидливи заклучоци, што објаснува високите стапки на неуспех на задачи поврзани со датумите. Овој наод ги засилува доказите дека начинот на „разбирање“ на ВИ значително се разликува од човечкото когниција. ВИ се покажува како особено ефективна кога постојат многу примери за тренирање, но се мачи со апстрактно размислување и генерализација, особено во задачи кои ги комбинираат перцепцијата со прецизна логика. Дополнително, ограничените податоци за ретки феномени како престојните години го ограничуваат учењето, бидејќи ВИ не може да направи потребните концептуални врски. Овие резултати нагласуваат потреба од поспеодржни, фокусирани бази на податоци и повторна евалуација на способностите на ВИ да интегрира логичко и просторен размислување, со акцент на ризиците од прекумерна зависност од нивните аутпутови во сложени задачи. Сахена истакна дека е неопходно да се спроведуваат строги тестирања, механизми за исклучување и често човечко надгледување кога ВИ е во прашање за комбинирање на перцепцијата со прецизно размислување.
Brief news summary
Новите истражувања презентирани на Меѓународната конференција за претставување на учењето во 2025 година ги истакнуваат значајните ограничувања на тековните модели на вештачка интелигенција како што се Meta’s Llama 3.2-Vision, Anthropic’s Claude-3.5 Sonnet, Google’s Gemini 2.0 и OpenAI’s GPT-4o. И покрај неодамнешните напредоци, овие модели се борат со задачи што за луѓето се едноставни, како читање на аналогни часовници и одредување на денот од датумите. Истражувањето утврдува дека овие модели точна интерпретација на времето на часовникот направиле само 38,7% од времето, а на календарските датуми само 26,3%, што нагласува нивната зависност од препознавање на образци наместо од вистинско логичко разбирање. Водено од Рохит Саксена од Универзитетот во Единбург, истражувањето открива дека иако системите за ИИ можат точно да идентификуваат предмети, тие се соочуваат со значајни предизвици со сложени задачи за просторно и логичко размислување, особено кога станува збор за недоволно чести настани како престојните години. Резултатите нагласуваат потребата од нови пристапи за тренирање кои ќе ги интегрираат вештините за логичко и просторско размислување и предупредуваат од претерана зависност од ИИ за задачи што бараат прецизни пресметки. На крај, истражувањето ја истакнува основната разлика меѓу човечкото когнитивно функционирање и препознавањето на образци од страна на ИИ, промовирајќи сеопфатна проверка и човечки надзор во временски чувствителни апликации во реалниот свет.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Нвида добива поддршка за вештачка интелигенција, …
Следното бојиште во трката за армиите на вештачката интелигенција не е Пекинг—туку Ријад, барем според Ведбуш.

Јавниот интернет еtnепрежна слаба точка за блокче…
Според Остин Федера, ко-фундер и извршен директор на DoubleZero – проект фокусиран на развој на високоскоростни кабелски комуникациски шини за блокчейн мрежи, јавната интернет инфраструктура е главната пречка за брзината и перформансите на мрежите со висок проток на трансакции.

Shoosmiths го поттикнува воведувањето на вештачка…
На почетокот на минатиот месец, Shoosmiths, британска правна фирма со 1500 вработени, објави бонус фонд од 1 милион фунти кој ќе се дели меѓу вработените ако колективно го прифатат алатката за вештачка интелигенција, Copilot, во нивните работни процеси.

JP Morgan го склучи првиот трансакција за токениз…
JP Morgan ја заврши својата прва трансакција на јавен блокчейн, сигнализирајќи ги растечките активности на финансискиот гигант во Web3 еко-системот.

Искористенички чипови се новиот 'новец на држават…
© 2025 Fortune Media IP Limited.

Централните банки истражуваат блокчейн технологиј…
Централните банки започнуваат да истражуваат како програмски блокчейн технолошки решенија можат да ја трансформираат имплементацијата на монетарната политика.

Завршената презентација на „Магијата на вештачкат…
Ако водството на Дизни има свој план, ќе бидеме преплавени со бесконечни римејкови, продолженија и спинофи на „Моите – Ѕвездени вистини“ се додека Сонцето на крајот не експлодира.