AI ჩათბოტებს იდენტიფიცირებენ მუდმივ ხარვეზებს, რაც ზემოქმედებს სანდოობაზე

ბრძანებავ, აქ არის თქვენი ტექსტის ქართულ თარგმანი, თითქმის უკმარისოდ მოცულობისთვის: ბრძანებავ, აქ არის თქვენი ტექსტის ქართულ თარგმანი, თითქმის უკმარისოდ მოცულობისთვის: მხოლოდ მოწინავე ტექნოლოგიური კომპანიებიდან, როგორიცაა OpenAI და Google, AI ჩატბოტებმა ბოლო თვეებში განიცადეს მეცნიერების გაუმჯობესებები რეზონირებაში მიუკერძოებელ პასუხების გასაუმჯობესებლად. თუმცა, ბოლო ტესტებმა აჩვენა, რომ ზოგიერთი ახალი მოდელი იკავებს უფრო ცუდ შედეგებს, ვიდრე ადრეული ვერსიები, გამომდინარე fenomenon — "ჰალუცინაციებიც" — შეცდომები, სადაც ჩატბოტები ქმნიან ყალბ ინფორმაციას ან აძლევენ ფაქტობრივად სიზუსტის პასუხებს, მაგრამ-modal შეთანხმებას ან დავალებას არ ემორჩილებიან. ეს პრობლემა გაუჩერებლად მაჩვენებს მის არსებობას დიდագույն ენობრივ მოდელებზე (LLMs), ისეთებზე როგორიცაა OpenAI-ს ChatGPT და Google-ის Gemini, და სავსებით სავარაუდოა, რომ იგი სრული ამოსაღებად ვერ იქნება გადაწყვეტილი. OpenAI-ს ტექნიკური ანგარიში აჩვენა, რომ მისი აპრილში გამოქვეყნებული o3 და o4-mini მოდელები significantly უფრო ხშირად ხვედროდნენ ჰალუცინაციებს, ვიდრე 2024 წლის ბოლოს გამოქვეყნებული o1 მოდელი: o3-ს ჰალუცინაციების სიხშირე იყო 33%, o4-mini-ს — 48%, მაშინ როდესაც o1-ის მონაცემები საჯაროდ ცნობად იყო 16%, რომელიც აღნიშნავდა ფედერაციის ფაქტებს. ამასთანავე, Vectara-ს ლიდერბორდმა დაადგინა, რომ ზოგიერთი რეზონირებადი მოდელი — მათ შორის DeepSeek-R1 — უფრო მეტი ჰალუცინაციის პრაქტიკა ჰქონდა, მიუხედავად მათი მრავალმხრივი განჭვრეტა პასუხის წინ. OpenAI-ს უკრძალავს, რომ რეზონირების პროცესები თავად მართავენ ჰალუცინაციებს და აქტიურად აღწერის გზებს ეძებს, რომ შეამციროს ჰალუცინაციები ყველანაირ მოდელზე. ჰალუცინაციების დაყოვნება ემუქრება რამდენიმე გამოყენებას: მოდელებს, რომლებიც ხშირად ქმნიან სიცრუეებს, ხელს უშლიან კვლევის მხარდაჭერას; პარალეგალ ბოტები, რომლებიც მიუღებელ მომენტებში უტყუარ განაცხადებს, გაფართოვებულია სამართლიან შეცდომებს; მყიდველის მომსახურების ბოტები, რომლებიც მოძველებული ინფორმაციით მოქმედებენ, გამოიწვევს ოპერაციულ პრობლემებს. დაწყებით, AI კომპანიები მიანიშნებდნენ, რომ ჰალუცინაციები დროთა განმავლობაში შემცირდება, რადგან ადრეულ მოდელების განახლებები აჩვენებდა გაუმჯობესებებს. თუმცა, ბოლო დროით მაღალმა ჰალუცინაციების დონემ ამ პროგნოზს ეჭვი მიაყენა, მიუხედავად რეზონირებაში. Vectara-ს ლიდერბორდის მიანიშნებებზე, ჰალუცინაციების მაჩვენებლები შედარებით თანაბარია რეზონირებადი და არა-რეზონირებადი მოდელებს შორის, მათ შორის OpenAI და Google-ის მოდელებს შორის, მიუხედავად იმისა, რომ ზუსტი რაოდენობები მნიშვნელობა ნაკლებია, ვიდრეIFIER- ის განლაგება.
Google-ი არც კომენტარს არ აკეთებს ამაზე. თუმცა, ასეთ რეიტინგებს აქვს limitations. ისინი აერთიანებენ სხვადასხვა ჰალუცინაციების ტიპებს; მაგალითად, DeepSeek-R1-ის 14. 3%-იანი ჰალუცინაციების მაჩვენებელი ძირითადად შედგებოდა "საბრალო" შემთხვევებისგან — პასუხები ლოგიკურად გამართლებული და ცოდნით დამყარებული, მაგრამ წყაროს ტექსტში ვერ გაცემული. გარდა ამისა, ტექსტის შეჯამებაზე დაფუძნებული ტესტები შეიძლება არ ასახავდეს ჰალუცინაციების სიხშირეს სხვა დავალებებში, რადგან LLM-ები არ არიან შექმნილი კონკრეტულად რეზონირებისთვის. ვაშინგტონის უნივერსიტეტის ემილი ბენდერი ხაზავს, რომ ეს მოდელები პროგნოზირებს ალბათობით შემდეგ სიტყვებს, ვიდრე იგი რეალურად იგებს ტექსტს და ამით "ჰალუცინაციის" ზუსტად მითითება ცდება ან ართმევს. ბენდერი კრიტიკულად აფასებს "ჰალუცინაციას" როგორც პრობლემას, რადგან იგი გულისხმობს შეცდომებს, რომლებიც მოხდენილია გამონათქვამში, რომელიც სხვა მხრივ სანდო სისტემაში ხდება, და მიაწერს ადამიანის მახასიათებლებს AI-ს, რომელიც არც ზოგადი აზროვნებით და არც რეალურად percep-ცობას არ ახორციელებს. პრინსტონის არვინდ ნარესანიანი განმარტავს, რომ მოდელები ასევე ერევიან რწმენითად არასანდო ან მოძველებულ Daten-ზე დაყრდნობით, და უბრალოდ მონაცემების დამატებამ ან გამოთვლის გამოთვლითი რესურსების ზრდამ ამ პრობლემების განკურნება ვერ უზრუნველყოფა. ასე რომ, შეცდომებზე განჭვირვალე AI–ს შეიძლება სამუდამოდ დარჩეს რეალობა. ნარესანიანი გვპირდება, რომ ასეთი მოდელები საჭიროა გამოიყენოს მხოლოდ მაშინ, როცა ფაქტების შემოწმება სწრაფია, ვიდრე კვლევის ჩატარება თავდაპირველად, ხოლო ბენდერი რეკომენდაციას უწევს totally თავიდან აიცილოს ფაქტუალურ ინფორმაციას ეთანხმებოდა AI ჩატბოტებზე.
Brief news summary
უახლესი განვითარებები AI ჩატბოტებში, როგორიცაა OpenAI და Google, რომლებიც fokუსირებულია განმარტებისა და სიზუსტის გაუმჯობესებაზე, პარადოქსულად გამოიწვია ჰალუცინაციის ხარისხის მომატება — შემთხვევები, როდესაც მოდელები ქმნიან მცდარს ან მარნეულ ინფორმაციას და ვერ შეესაბამება სავალდებულო ინსტრუქციებს. მაგალითად, OpenAI-ს ახალი o3 და o4-mini მოდელები აჩვენებენ ჰალუცინაციის მაჩვენებლებს 33% და 48%, ხოლო ხერხემლიანი o1 მოდელი 16%-ს, ხოლო მსგავს ტენდენციას აფიქსირებს DeepSeek-R1 მოდელი. მიუხედავად ამ პრობლემებისა, OpenAI ამტკიცებს, რომ განმარტების კომპონენტები არ არის ბრალდებული და აგრძელებს სამუშაოს ჰალუცინაციების შემცირების მიმართულებით. ეს პრობლემა განსაკუთრებით მნიშვნელოვანი არის კვლევაში, სამართალწარმოშობაში და მომხმარებელთა მომსახურეობაში, სადაც მცდარი ინფორმაცია შეიძლება იყოს დაუცველ შედეგებამდე. Vectara-ს შეფასებებმა აჩვენა ჰალუცინაციის შემთხვევების მინიმალური განსხვავებები განმარტებისა და არანარკვევი მოდელების შორის, თუმცა მონაცემები ჯერ კიდევ შეზღუდულია. ექსპერტები ამხნევებენ, რომ „ჰალუცინაცია“ ზოგავს რთული პრობლემების მარტივიზაციას, რომლებიც დამოკიდებულია მოძველებულ ან არასანდო მონაცემებზე. მცირე დანაკლისების და არაკეთილსინდისიერების გამო, ზოგი სთავაზობს AI ჩატბოტების გამოყენების შეზღუდვას ისეთ სცენარებს, სადაც ინფორმაციის დადასტურება უფრო ადვილია, ვიდრე დამოუკიდებელი ფაქტების შემოწმება. ზოგადად, ჰალუცინაციები რჩება ერთ-ერთი მნიშვნელოვანი გაურკვეველი პრობლემა AI ენის მოდელებში.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

რობინი ჰუდი ახორციელებს ბლოქჩეინზე დაფუძნებული პრ…
რობინჰუდი მუშაობს ბლოქჩეინზე დაფუძნებულ პლატფორმაზე, რომლის მიზანია ევროპულ სავაჭრო კომპანიებს მიაწოდოს წვდომა ამერიკულ ფინანსურ აქტივებზე, ამის შესახებ ორი წყაროა, რომლებიც ინფორმირებულნი არიან მის შესახებ და საუბრობენ ბლუმბერგთან.

OpenAI ხელში გამოუშვა o3-mini: სწრაფი, მამაცი, ხე…
OpenAI-მ წარმოადგინა o3-mini, ახალი ხელოვნური ინტელექტის მოტყუების მოდელი, რომელიც განკუთვნილია ზუსტი დემონსტრირების გასაუმჯობესებლად მათემატიკური გამოთვლებში, კოდის შექმნაში და სამეცნიერო პრობლემების გადაჭრაში.

ტერეთის USDT მასზე გამოშვება ქაია ბლოქჩეინზე, სულ…
საიმედო სამედიცინო კომპანია Tether-ი გამოაცხადა მისი ოჯახის USDT სტაბილკოინის გამოშვებაზე Kaia ბლოქჩაინისა, რომელია ლეიერ 1 ქსელი, რომელიც შემუშავდა აგვისტოში 2024 USDT-ი ასევე იქნება ინტეგრირებული იაპონურ მესენჯერული აპლიკაციის LINE-ის Mini Dapp პლატფორმასა და მის თვით-კასტოდიან გემართვა დაფარვაზე

ელტონი ჯონი და დუა ლიპა ეძებენ დაცვას AI–სგან
დუა ლიპა, სერი ელტონი ჯონი, სერი იან მაკკლელი, ფლორენს უელჩი და უკრაინაში 400-ზე მეტი ბრიტანელი მუსიკოსი, მწერალი და არტისტი ერთობლივ მიმართვაში მოუწოდებენ პრემიერ მინისტრ სირი კეირ სტამერს ნივთიერების კანონების განახლებისთვის, რათა დაიცვან სჩარევები from AI-ს მიერ მათ სტარტებელი ნამუშევრების ცუდად გამოყენებისგან.

Blockchain-ის როლი ფინანსურ ჩართულობაში ინიციატივ…
ბლოკჩейн ტექნოლოგია სულ უფრო მეტად აღიარება ხდება როგორც ძლიერი იარაღი ფინანსური ინკლუზიის განვითარებისათვის გლობალურად, განსაკუთრებით დაუკავშირულ და underserved მოსახლეობისთვის, რომლებსაც უწევთ უქვეითებელი ნაერთი ბანკების წვდომა.

ბლოქჩეინი ჯანდაცვაში: პაციენტის მონაცემების დაცვა
სამედიცინო ინდუსტრია მნიშვნელოვან ტრანსფორმაციას განიცდის ბლოქჩეინ ტექნოლოგიის დამკვიდრებით, რათა გაუმჯობესდეს პაციენტის ჯანმრთელობის მონაცემების უსაფრთხოება და მართვა.

პაპა ლეო XIV-მ განაგრძო თავისი ხედვა და აღნიშნავდ…
ვატიკან სითი (AP) — შაბათს პაპმა ლეო XIV-მა განაცახადა მისი პაპის იარუსის ხედვა, ხაზგასმით აყვანა ხელოვნური ინტელექტის (AI) როგორც მნიშვნელოვან გამოწვევად ადამიანის წინაშე და დაპირება გააგრძელოს პაპ ფრანცისკის მიერ განსაზღვრული ძირითადი პრიორიტეტები.