Jan. 26, 2025, 8:30 a.m.
2298

კაცობრიობის საბოლოო გამოცდა: ახალი გამოწვევა მოწინავე AI სისტემებისათვის

Brief news summary

როგორც ხელოვნური ინტელექტის (A.I.) შესაძლებლობები პრემიების მართვის საგნის გათვალისწინებით, ექსპერტები ჟღერადობას მიქარავს გამოწვევას – შექმნან ტესტები, რომლებიც A.I.-ს სწრაფად ვერ გამოცდება. ისტორიაში, A.I.-ის პროგრესი შეფასდებოდა სტანდარტიზებული შეფასებების საშუალებით, რომლებიც S.A.T.-საც ჰგავს, რაც შეფასებს უნარებს მათემატიკაში, მეცნიერებაში და ლოგიკაში. თუმცა, A.I.-ის მოდლების გაუმჯობესების შემდეგ, ისინი შესანიშნავად წარმოადგენენ ამ ტესტებზე, რაც უფრო რთული შეფასებების შექმნას იწვევს, ვიდრე სამაგისტრო დონეზე გამოცდები. უახლესი მოდელები ისეთი კომპანიებისგან, როგორიცაა OpenAI, Google და Anthropic, იყო განსაკუთრებული წარმატებით ამ მოწინავე ტესტებზე, რაც აჩვენებს მიმდინარე შეფასების მეთოდების ალტერნატივების აუცილებლობას. ამ პრობლემის ფონზე, AI Safety and Scale AI-ის მკვლევარები იწყებენ "ადამიანობების ბოლო გამოცდას", რომელსაც აღწერენ, როგორც A.I. სისტემებისთვის ყველაზე რთულ გამოცდას. ეს ინიციატივა, რომელსაც ხელმძღვანელობს A.I. უსაფრთხოების ექსპერტი დენი ჰენდრიკსი, მიზნად ისახავს გადაჭრას საგანგაშო კითხვას: არის ли A.I. სისტემები ახლა იმდენად ჭკვიანი, რომ მათ ზუსტად ვერც შევაფასებთ?

თუ თქვენ artificial intelligence-ის მიმართ ახალ მიზეზებს ეძებთ შეწუხებისათვის, დაფიქრდით ამაზე: მსოფლიოს რამდენიმე brightest minds ამჟამად სირთულეს საკითხავენ ტესტების შექმნაში, რომლებსაც A. I. სქემები ვერ ჩააბარებენ. მრავალი წლის განმავლობაში, A. I. სისტემები შეფასებულ იქნა სხვადასხვა სტანდარტიზებული ბენჩმარკ ტესტების გამოყენებით. ამ ტესტების მრავალი კითხვა ძნელი იყო, SAT- დონეზე, ისეთ საგნებში, როგორიც არის მათემატიკა, მეცნიერება და ლოგიკა. ამ მოდელების ქულების გაგება დროში A. I. -ში პროგრესის粗ეული ინდიკატორი იყო. თუმცა, A. I. სისტემებმა ამ შეფასებებზე საბოლოოდ გამოსჭვიფეს, რაც საჭირო იყო უფრო რთული ტესტების შექმნა - ხშირად მოიცავდა კითხვებს, რომლებიც კურსდამთავრებულ სტუდენტებს შეიძლება ჰქონდეს გამოცდებზე. სამწუხაროდ, აღნიშნული ტესტები არც ისე კარგად მოქმედებენ. OpenAI, Google და Anthropic მსგავსი კომპანიების ახალი მოდელები Ph. D. - დონეზე ბევრ გამოწვევაზე მაღალი ქულების მიღწევით გამოირჩევიან, რაც ამ ტესტების ეფექტურობას ამცირებს და გაწვდილ კითხვას სვამს: A. I. სისტემები ნელ-ნელა ძალიან ინტელექტუალური ხომ არ ხდება ჩვენი შეფასებისთვის? ამ კვირაში, مركز A. I. უსაფრთხოების და Scale AI- ს მკვლევარები აჯამებენ შესაძლებელი პასუხი: ახალი შეფასება სახელწოდებით "ემოციის ბოლო გამოცდა", რომელიც მათი მტკიცებით, არის ყველაზე რთული ტესტი A. I.

სისტემებისთვის. ემოციის ბოლო გამოცდა შექმნილი იყო Dan Hendrycks-ის მიერ, სახილავი A. I. უსაფრთხოების მკვლევარი და AI უსაფრთხოების ცენტრის დირექტორი. (ტესტის თავდაპირველი განახლებული სათაური "ემოციის ბოლო დგომა" მიატოვეს ტექნიკურობის გამო. ) მადლობა თქვენი გვერდზე დაადასტურებელი პროცესისთვის. თუ თქვენ Reader რეჟიმში ხართ, გთხოვთ, გამოვიდეთ და გაუწვდოთ Times ანგარიშზე, ან მოიწვდეთ სრული წვდომისთვის The Times-ზე. მადლობა დაგმადლებით თქვენი მიქცევის პროცესზე. უკვე გამოწერილი ხართ?დაებრუნეთ. გსურთ სრული წვდომა The Times-ზე?გამოწერეთ.


Watch video about

კაცობრიობის საბოლოო გამოცდა: ახალი გამოწვევა მოწინავე AI სისტემებისათვის

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 15, 2025, 1:26 p.m.

მაყინვარი არქივ: AI-ის მყარად ფლობს რეკორდულ 33…

Salesforce-ის ანალიზი 2025 წლის კიბერქათ კვირის სავაჭრო პერიოდზე გამორჩეულად დიდ მსოფლიო საცალო გაყიდვებს აჩვენებს, რომლის საერთო თანხა არის 336.6 მილიარდი დოლარი, რაც წინა წელთან შედარებით 7%-იან ზრდას ემთხვევა.

Dec. 15, 2025, 1:24 p.m.

AI გადაშენების რისკები: მასკი და ამოდეი აფიწებენ …

ტექნოლოგიური ხელოვნური ინტელექტის (AI) სწრაფმა განვითარებამ გამოიწვია მნიშვნელოვანი დისკუსია და შეშფოთება ექსპერტებს შორის, განსაკუთრებით მისი გრძელვადიანი გავლენის შესახებ ადამიანურ სახსრებზე.

Dec. 15, 2025, 1:21 p.m.

შედი გაიღე როგორც დონალდ დონალდ ტრამპი: ეს AI მარ…

ეს სპონსორირებული შინაარსია; ბарчარტი არ დაეთანხმება ქვემოთ მითითებულ ვებგვერდებს ან პროდუქტებს.

Dec. 15, 2025, 1:16 p.m.

Google DeepMind-ის AlphaCode: ხელოვნური ინტელექტი…

გוגלს დიპმაინდი ახლახანს წარმოადგინა ინოვაციური სიღრმისეული ბინის სისტემის სახელწოდებით AlphaCode, რაც ნიშნავს წყალგამყოფ ნაბიჯს ხელოვნური ინტელექტის და პროგრამული უზრუნველყოფის განვითარების სფეროში.

Dec. 15, 2025, 1:15 p.m.

სარწმუნო SEO განმარტავს, რატომ მოდიან AI-დისტრიბუ…

ჩემი ყურადღება გამახვილებულია აგენტური SEO-ის გამოჩენაზე, როგორაც ვარ convainჩვეული, რომ როდესაც შესაძლებლობები მომავალ რამდენიმე წელს გაუმჯობესდება, აგენტები მნიშვნელოვნად მოახდენენ გავლენას ინდუსტრიაზე.

Dec. 15, 2025, 1:10 p.m.

სალფოსფეის პიტერ ლინგტონი აგრიგების მონაცემების მ…

პიტერ ლინგტონი, სეილფსോര്ის საომარ განყოფილებაში არიის ვიცე-პრეზიდენტი, ხაზს უსვამს იმ გარდამტეხ ეფექტებს, რომელიც მოწინავე ტექნოლოგიებმა ექნება საომარი დეპარტამენტში მომავალი სამი-ხუთი წლის განმავლობაში.

Dec. 15, 2025, 9:35 a.m.

სპრაუტ სოსიალთან სტრატეგიული მდგომარეობა სოციალურ…

Sprout Social დანამდვილებით დამკვიდრდა სოციალური მედიის მენეჯმენტის სფეროში როგორც მოწინავე მოთამაშე, განვითარებული ხელოვნური ინტელექტის ტექნოლოგიის დამკვიდრებით და სტრატეგიული პარტნიორობის ჩამოყალიბებით, რომელიც ინოვაციას უწყობს ხელს და სამსახურის შეთავაზებას უმჯობესებს.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today