مطالعه جدید نشان میدهد هوش مصنوعی در تشخیص ساعتهای آگواره و محاسبات تاریخ تقویم دچار مشکل است

تحقیقات جدید مجموعهای از وظایف را شناسایی کرده است که انسانها بدون زحمت انجام میدهند اما هوش مصنوعی (AI) در آنها مشکل دارد، بهویژه خواندن ساعتهای آنالوگ و تعیین روز هفته برای یک تاریخ معین. اگرچه هوش مصنوعی میتواند کد، تصاویر، متنهای شبیه انسان تولید کند و در آزمونها به درجات مختلفی موفق باشد، اما اغلب در تفسیر صحیح موقعیت عقربههای ساعت و انجام حسابهای پایه تقویم دچار اشتباه میشود. این مطالعه که در کنفرانس بینالمللی نمایشهای یادگیری (ICLR) در سال ۲۰۲۵ ارائه و در سرور پیشچکیده arXiv منتشر شده است (و هنوز مورد ارزیابی همتا قرار نگرفته است)، بر شکافهای قابل توجه در تواناییهای هوش مصنوعی در انجام وظایفی که انسانها در اوایل زندگی مهارت آن را دارند، تأکید میکند. روهیٹ ساکسنا، نویسنده مسئول و استاد دانشگاه ادینبورگ، بر این موضوع تأکید کرد که باید این کمبودها برطرف شوند تا هوش مصنوعی بتواند در زمینههای حساس به زمان و دنیای واقعی، مانند برنامهریزی، اتوماسیون و فناوریهای کمکی، مؤثر واقع شود. محققان چندین مدل بزرگ زبانی چندحسی (MLLM) از جمله Llama 3. 2-Vision شرکت Meta، Claude-3. 5 Sonnet از شرکت Anthropic، Gemini 2. 0 گوگل و GPT-4o شرکت OpenAI را با استفاده از مجموعه دادههای مخصوص تصاویر ساعت و تقویم مورد آزمایش قرار دادند. این مدلها در حدود نیمی از موارد نتوانستند زمان دقیق ساعت یا روزهای هفته برای تاریخهای نمونه را شناسایی کنند، و نرخ دقت آنها فقط ۳۸. ۷٪ در تشخیص ساعتها و ۲۶. ۳٪ در وظایف مربوط به تقویم بود. ساکسنا توضیح داد که ضعف در خواندن ساعت توسط هوش مصنوعی ناشی از نبود استدلال فضایی است—وظایفی که نیازمند تشخیص تداخل عقربهها، اندازهگیری زاویه و تفسیر نوعهای مختلف طراحی ساعتها، مانند اعداد رومی یا صفحههای استیل، است. برای هوش مصنوعی، تشخیص تصویر به عنوان یک ساعت آسانتر است از خواندن دقیق آن.
به همین شکل، علیرغم اینکه حساب و ریاضیات بخش بنیادی محاسبات است، مدلهای بزرگ زبانی عملیات حسابی را با استفاده از الگوریتم انجام نمیدهند؛ بلکه خروجی را بر اساس الگوهای دادههای آموزشی پیشبینی میکنند. این امر منجر به استدلالهای ناسازگار و غیرقانونی میشود که نرخ بالای شکست در حسابهای مربوط به تاریخها را توضیح میدهد. این مطالعه به شواهد رو به رشد نشان میدهد که روش “درک” هوش مصنوعی با شناخت انسانی از نظر بنیادی متفاوت است. هوش مصنوعی در زمانی که نمونههای آموزشی فراوان وجود دارد، برتری دارد، اما در استدلال انتزاعی و تعمیمپذیری، بهویژه در وظایف ترکیبی از ادراک و منطق دقیق، ضعیف عمل میکند. علاوه بر این، کمبود دادههای آموزشی درباره پدیدههای نادرتر مانند سال کبیسه، عملکرد آن را مختل میکند، زیرا هوش مصنوعی توانایی برقراری ارتباطات مفهومی لازم را ندارد. این یافتهها بر ضرورت وجود مجموعه دادههای غنیتر و هدفمند تأکید دارند و نیاز به ارزیابی مجدد توانایی هوش مصنوعی در ادغام استدلال منطقی و فضایی را برجسته میسازند، و هشدار میدهند که تکیه بیش از حد بر خروجیهای هوش مصنوعی در وظایف پیچیده میتواند خطرناک باشد. ساکسنا بر اهمیت آزمایشهای دقیق، مکانیزمهای پشتیبان، و نظارت انسانی مکرر زمانی که هوش مصنوعی وظیفه ادغام ادراک و استدلال دقیق را بر عهده دارد، تأکید کرد.
Brief news summary
پژوهش جدید ارائهشده در کنفرانس بینالمللی نمایهسازی یادگیری ۲۰۲۵، محدودیتهای قابلتوجه در مدلهای هوش مصنوعی کنونی مانند Llama 3.2-Vision شرکت Meta، Claude-3.5 Sonnet شرکت Anthropic، Gemini 2.0 شرکت Google و GPT-4o شرکت OpenAI را برجسته میکند. علیرغم پیشرفتهای اخیر، این مدلها در انجام وظایفی که برای انسانها ساده است، مانند خواندن ساعتهای آنالوگ و تشخیص روزهای هفته بر اساس تاریخ، مشکل دارند. مطالعه نشان داد که این مدلها تنها ۳۸.۷ درصد مواقع به درستی زمان ساعت را تفسیر میکنند و در مورد تاریخهای تقویمی تنها ۲۶.۳ درصد دقت دارند، که بر تکیه بیش از حد آنها بر تشخیص الگو به جای تواناییهای استدلال واقعی تأکید میکند. این پژوهش، به رهبری روهیت ساکسنا از دانشگاه ادینبرا، نشان میدهد که در حالیکه سیستمهای هوش مصنوعی میتوانند اشیاء را بهطور دقیق شناسایی کنند، در انجام وظایف استدلال فضایی و منطقی پیچیده، بهویژه در ارتباط با رویدادهای نادر مانند سال کبیسه، با چالشهای جدی روبهرو هستند. یافتهها بر ضرورت توسعه روشهای آموزشی جدید تأکید میکنند که مهارتهای استدلال منطقی و فضایی را در بر گیرند و هشدار میدهند که نباید بر هوش مصنوعی بیشاز حد در وظایف نیازمند محاسبات دقیق تکیه شد. در نهایت، این مطالعه تفاوتهای بنیادی بین شناخت انسانی و تطابق الگوهای هوش مصنوعی را برجسته میکند و طرفداران ارزیابی جامع و نظارت انسانی را برای کارهای حساس زمانی در دنیای واقعی توصیه میکند.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

نایویدا تقویت هوش مصنوعی میگیرد، متا با مشکل در …
صحنه نبرد بعدی در مسابقه تسلیحات هوش مصنوعی، بیجینگ نیست—بلکه ریاض است، حداقل طبق گفته Wedbush.

اینترنت عمومی یک گلوگاه برای فناوری بلاکچین است —…
طبق گفته آستین فدرا، بنیانگذار و مدیرعامل دابلزرو—پروژهای متمرکز بر توسعه خطوط ارتباطی فیبر نوری با سرعت بالا برای بلاکچینها—زیرساخت اینترنت عمومی بزرگترین عامل محدودکننده در سرعت و عملکرد شبکههای بلاکچین با ظرفیت بالاست.

شوزمیدرز تشویق به استفاده از هوش مصنوعی با جایزه …
در ابتدای ماه گذشته، شرکت حقوقی بریتانیایی شووشیث (Shoosmiths)، با ۱۵۰۰ کارمند، اعلام کرد که یک مجموعه پاداش ۱ میلیون پوندی برای کارکنان در نظر گرفته است؛ در صورتیکه این تیم به طور جمعی ابزار هوش مصنوعی مایکروسافت، کاپیلوت (Copilot) را در فرآیندهای کاری خود به کار گیرند.

جیپیمورگان اولین تراکنش خزانهداری توکنیزهشده …
جیپیمورگان اولین تراکنش خود در بلاکچین عمومی را انجام داده است که نشاندهنده افزایش فعالیتهای این غول مالی در اکوسیستم وب3 است.

شرکتهای تراشه هوش مصنوعی به عنوان "سکه دنیای جدی…
© ۲۰۲۵ فورچون مدیا آیپِی لیمیتد.

بانکهای مرکزی در حال بررسی فناوری بلاکچین برای …
بانکهای مرکزی در حال شروع به بررسی چگونگی تحول فناوری بلاکچین قابل برنامهریزی در اجرای سیاستهای پولی هستند.

نمایش ویژهای از جلوههای ویژه هوشمند در ستارگان …
اگر مدیریت دیزنی مطابق خواسته خود عمل کند، ما با انبوهی از بازسازیهای، دنبالهسازیها و فرنچایزهای بیپایان جنگ ستارگان روبرو خواهیم شد که تا انفجار خورشید ادامه پیدا میکند.