Kajian Baru Menunjukkan AI Mengalami Kesukaran Membaca Jam Analog dan Pengiraan Tarikh Kalendar

Penelitian baharu telah mengenal pasti beberapa tugasan yang dilaksanakan dengan mudah oleh manusia namun sukar bagi kecerdasan buatan (AI)—terutama membaca jam analog dan menentukan hari dalam seminggu untuk tarikh tertentu. Walaupun AI mampu menghasilkan kod, imej, teks seperti manusia, dan juga lulus ujian dengan tahap yang berbeza-beza, ia sering kali salah mentafsir kedudukan jarum jam dan gagal dalam pengiraan kalendar asas. Kajian yang dibentangkan di Persidangan Antarabangsa Pembelajaran Representasi 2025 (ICLR) dan diterbitkan di pelayan pra-cetak arXiv (belum melalui penilaian rakan sebaya), menyoroti jurang besar dalam keupayaan AI melakukan tugas yang mampu dilakukan manusia sejak usia muda. Penulis utama, Rohit Saxena dari University of Edinburgh menegaskan bahawa kelemahan ini perlu diatasi supaya AI dapat digunakan secara berkesan dalam konteks yang memerlukan tindakan segera dan dunia sebenar seperti penjadualan, automasi, dan teknologi bantuan. Para penyelidik menguji pelbagai model bahasa berbilang mod (MLLM) — termasuk Llama 3. 2-Vision dari Meta, Claude-3. 5 Sonnet dari Anthropic, Gemini 2. 0 dari Google, dan GPT-4o dari OpenAI — menggunakan set data khas yang mengandungi imej jam dan kalendar. Model-model ini gagal mengenal pasti waktu jam atau menentukan hari dalam seminggu untuk tarikh sampel lebih daripada separuh masa, dengan kadar ketepatan hanya 38. 7% untuk jam dan 26. 3% untuk tugasan kalendar. Saxena menjelaskan bahawa kelemahan AI dalam membaca jam berpunca daripada kekurangan kebolehan berfikir secara spatial—tugas yang memerlukan pengesanan jarum jam bertindih, pengukuran sudut, dan mentafsir pelbagai rekaan jam seperti angka Rom atau dial bergaya. Mengenal pasti imej sebagai jam lebih mudah bagi AI berbanding membaca dengan tepat.
Begitu juga, walaupun pengiraan asas adalah asas kepada pengkomputeran, model bahasa besar tidak melakukan pengiraan melalui algoritma; sebaliknya, mereka meramalkan output berdasarkan pola data latihan. Ini menyebabkan penalaran yang tidak konsisten dan tidak berasaskan peraturan, yang menjelaskan kadar kegagalan tinggi dalam pengiraan berkaitan tarikh. Kajian ini menambah bukti yang makin meningkat bahawa cara AI "memahami" berbeza secara asas daripada pengetahuan manusia. AI cemerlang apabila terdapat banyak contoh latihan tetapi menghadapi kesukaran dengan penalaran abstrak dan generalisasi, terutamanya dalam tugasan yang menggabungkan persepsi dengan logik yang tepat. Lebih buruk lagi, kekurangan data latihan mengenai fenomena jarang berlaku seperti tahun lompat menghalang prestasi, kerana AI gagal membuat hubungan konseptual yang diperlukan. Penemuan ini menegaskan perlunya set data yang lebih kaya dan tertumpu serta penilaian semula terhadap keupayaan AI mengintegrasikan penalaran logik dan spatial, serta menonjolkan risiko bergantung secara berlebihan kepada output AI dalam tugasan yang kompleks. Saxena menekankan kepentingan ujian yang ketat, mekanisme sokongan, dan pengawasan manusia yang kerap apabila AI diberi tugasan menggabungkan persepsi dan penalaran tepat.
Brief news summary
Penelitian baru yang dipersembahkan di Persidangan Antarabangsa tentang Perwakilan Pembelajaran 2025 menyoroti kekurangan ketara dalam model AI semasa seperti Llama 3.2-Vision daripada Meta, Claude-3.5 Sonnet daripada Anthropic, Gemini 2.0 daripada Google, dan GPT-4o daripada OpenAI. Walaupun terdapat kemajuan terkini, model-model ini menghadapi kesukaran dengan tugas-tugas yang mudah untuk manusia, seperti membaca jam analog dan menentukan hari minggu dari tarikh. Kajian mendapati model-model ini hanya dapat mentafsirkan masa jam dengan tepat sebanyak 38.7% dan tarikh kalendar hanya 26.3%, menegaskan bahawa mereka bergantung kepada pengenalan corak bukannya keupayaan penalaran sebenar. Diketuai oleh Rohit Saxena dari The University of Edinburgh, penyelidikan ini mendedahkan bahawa walaupun sistem AI dapat mengenal pasti objek dengan tepat, mereka menghadapi cabaran besar dalam tugas penalaran ruang dan logik yang kompleks, terutamanya melibatkan kejadian tidak biasa seperti tahun lompat. Penemuan ini menekankan keperluan kepada pendekatan latihan baharu yang mengintegrasikan kemahiran penalaran logik dan ruang dan memberi amaran terhadap bergantung terlalu banyak kepada AI untuk tugas yang memerlukan pengiraan tepat. Akhirnya, kajian ini menyoroti perbezaan asas antara kognisi manusia dan padanan corak AI, dengan menyokong keperluan pengesahan menyeluruh dan pengawasan manusia dalam aplikasi dunia sebenar yang sensitif terhadap masa.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Nvidia mendapatkan rangsangan AI, Meta menghadapi…
Medan pertempuran seterusnya dalam perlumbaan senjata AI bukanlah Beijing—ia adalah Riyadh, sekurang-kurangnya menurut Wedbush.

Internet awam adalah halangan utama untuk blockch…
Menurut Austin Federa, pengasas bersama dan CEO DoubleZero—sebuah projek yang fokus membangun rel komunikasi gentian optik berkelajuan tinggi untuk blockchain—infrastruktur internet awam adalah halangan utama kepada kelajuan dan prestasi untuk rangkaian blockchain berkelajuan tinggi.

Shoosmiths Galakkan Penggunaan AI dengan Bonus £1…
Pada awal bulan lepas, Shoosmiths, sebuah firma guaman Britain yang mempunyai 1,500 pekerja, mengumumkan satu dana bonus sebanyak £1 juta untuk dikongsi bersama staf jika mereka secara kolektif mengadopsi alat AI dari Microsoft, Copilot, dalam aliran kerja mereka.

JP Morgan Menyelesaikan Transaksi Perbendaharaan …
JP Morgan telah menyelesaikan transaksi perdananya di atas blockchain awam, menandakan peningkatan penglibatan gergasi kewangan tersebut dalam ekosistem Web3.

Dari segi teknologi, cip AI adalah 'mata wang bar…
© 2025 Fortune Media IP Limited.

Bank Pusat Terokai Blockchain untuk Memodenkan Da…
Bank pusat mula mengkaji bagaimana teknologi blokchain yang boleh diprogramkan boleh mengubah pelaksanaan dasar kewangan.

Pameran Kesan Khas AI dalam Star Wars adalah Kega…
Jika pihak pengurusan Disney mempunyai kehendak, kita akan dibanjiri dengan reboot, sekuel, dan spin-off Star Wars yang tidak berkesudahan sehingga Matahari akhirnya meletup.