lang icon En
May 10, 2025, 5:50 p.m.
4314

Các chatbot AI gặp phải các vấn đề ảo tưởng dai dẳng ảnh hưởng đến độ tin cậy

Brief news summary

Những tiến bộ gần đây trong các chatbot AI của các công ty như OpenAI và Google, nhằm cải thiện khả năng lý luận và chính xác, lại gây ra hiện tượng tăng tỷ lệ “ảo tưởng” – những trường hợp các mô hình tạo ra thông tin sai lệch hoặc gây hiểu nhầm và không tuân thủ đúng hướng dẫn. Ví dụ, các mô hình mới của OpenAI như o3 và o4-mini có tỷ lệ ảo tưởng lần lượt là 33% và 48%, trong khi các mô hình cũ hơn như o1 chỉ khoảng 16%, và các xu hướng tương tự cũng được ghi nhận ở các mô hình như DeepSeek-R1. Dẫu gặp những thách thức này, OpenAI khẳng định rằng các thành phần liên quan đến lý luận không phải là nguyên nhân gây ra vấn đề và vẫn tiếp tục nỗ lực giảm thiểu các hiện tượng ảo tưởng. Vấn đề này đặc biệt nghiêm trọng trong các lĩnh vực như nghiên cứu, tư vấn pháp lý và dịch vụ khách hàng, nơi mà những sai sót có thể gây hậu quả nghiêm trọng. Các đánh giá của Vectara cho thấy sự chênh lệch nhỏ về tần suất ảo tưởng giữa các mô hình có khả năng lý luận và không có khả năng lý luận, mặc dù dữ liệu còn hạn chế. Các chuyên gia cảnh báo rằng “ảo tưởng” đã làm quá đơn giản hóa các vấn đề phức tạp liên quan đến sự phụ thuộc vào dữ liệu lỗi thời hoặc không đáng tin cậy. Trước những sai sót kéo dài này, một số người đề xuất hạn chế sử dụng chatbot AI trong các trường hợp mà việc xác minh thông tin còn dễ dàng hơn việc kiểm tra độc lập. Nhìn chung, hiện tượng ảo tưởng vẫn là một vấn đề lớn chưa được giải quyết trong các mô hình ngôn ngữ AI.

Các chatbot AI từ các công ty công nghệ hàng đầu như OpenAI và Google đã liên tục nhận được cải thiện về khả năng lập luận trong những tháng gần đây nhằm nâng cao độ tin cậy của câu trả lời. Tuy nhiên, các bài kiểm tra gần đây cho thấy một số mô hình mới hơn hoạt động kém hơn các phiên bản trước, thể hiện một hiện tượng gọi là "ảo tưởng"— các sai lầm trong đó chatbot tạo ra thông tin sai lệch hoặc đưa ra câu trả lời đúng về mặt thực tế nhưng không phù hợp hoặc không theo hướng dẫn. Vấn đề này đã tồn tại từ khi các mô hình ngôn ngữ lớn (LLMs) như ChatGPT của OpenAI và Gemini của Google ra đời, và có vẻ như khó có thể hoàn toàn giải quyết được. Một báo cáo kỹ thuật của OpenAI cho thấy các mô hình o3 và o4-mini phát hành vào tháng 4 có tỷ lệ ảo tưởng cao hơn đáng kể so với mô hình cũ o1 phát hành cuối năm 2024: o3 có tỷ lệ ảo tưởng 33%, o4-mini 48%, so với 16% của o1 khi tổng hợp các thực tế công khai. Tương tự, bảng xếp hạng theo dõi tỷ lệ ảo tưởng của Vectara cho thấy một số mô hình lập luận—bao gồm DeepSeek-R1—đã ghi nhận mức tăng đáng kể về ảo tưởng so với các phiên bản trước, mặc dù chúng sử dụng phương pháp lập luận nhiều bước trước khi trả lời. OpenAI khẳng định rằng quá trình lập luận không phải là nguyên nhân chủ yếu của việc gia tăng ảo tưởng và đang tích cực nghiên cứu các phương pháp giảm thiểu ảo tưởng trong tất cả các mô hình. Sự tồn tại của ảo tưởng đe dọa đến nhiều ứng dụng: các mô hình thường xuyên tạo ra thông tin sai lệch gây cản trở hỗ trợ nghiên cứu; bot trợ lý pháp lý trích dẫn các trường hợp không tồn tại có thể gây lỗi pháp lý; các bot dịch vụ khách hàng có thông tin cũ gây ra các vấn đề hoạt động. Ban đầu, các công ty AI kỳ vọng ảo tưởng sẽ giảm dần theo thời gian, vì các bản cập nhật mô hình ban đầu đã cho thấy những tiến bộ. Tuy nhiên, mức độ ảo tưởng cao hơn gần đây đã thách thức triển vọng này, bất chấp việc có liên quan đến quá trình lập luận hay không. Bảng xếp hạng của Vectara cho thấy tỷ lệ ảo tưởng xấp xỉ như nhau ở các mô hình lập luận so với không lập luận của OpenAI và Google, mặc dù các con số chính xác ít quan trọng hơn thứ hạng tương đối.

Google đã từ chối bình luận. Tuy nhiên, các xếp hạng này có hạn chế. Chúng pha trộn các loại ảo tưởng khác nhau; ví dụ, tỷ lệ 14, 3% của DeepSeek-R1 chủ yếu gồm các trường hợp "nhẹ nhàng"— các câu trả lời hợp lý, có căn cứ dựa trên kiến thức nhưng không có trong văn bản nguồn. Thêm vào đó, việc kiểm tra chỉ dựa vào tóm tắt văn bản có thể không phản ánh chính xác tần suất ảo tưởng trong các nhiệm vụ khác, vì các LLM không được thiết kế đặc biệt để tóm tắt. Emily Bender của Đại học Washington nhấn mạnh rằng các mô hình này dự đoán các từ tiếp theo có khả năng cao hơn là xử lý thông tin để hiểu ý nghĩa thực sự của văn bản, khiến thuật ngữ "ảo tưởng" vừa gây hiểu nhầm vừa mang tính nhân dạng. Bender phê phán "ảo tưởng" vì nó ám chỉ các sai sót là những lệch lạc trong các hệ thống đáng tin cậy và quy cho AI khả năng cảm nhận như con người, điều mà AI không có khả năng làm. Arvind Narayanan của Princeton bổ sung rằng các mô hình cũng sai lầm khi dựa vào dữ liệu không đáng tin cậy hoặc lỗi thời, và việc thêm dữ liệu huấn luyện hoặc tăng cường sức mạnh tính toán vẫn chưa giải quyết được các vấn đề này. Do đó, AI dễ mắc lỗi có thể là thực tế kéo dài. Narayanan đề xuất chỉ sử dụng các mô hình như vậy khi việc kiểm chứng các thông tin nhanh hơn việc tự thực hiện nghiên cứu ban đầu, còn Bender thì khuyên nên tránh hoàn toàn dựa vào các chatbot AI để lấy thông tin thực tế.


Watch video about

Các chatbot AI gặp phải các vấn đề ảo tưởng dai dẳng ảnh hưởng đến độ tin cậy

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 12, 2025, 1:42 p.m.

Disney gửi lệnh ngưng và không tái phạm tới Googl…

Công ty Walt Disney đã bắt đầu một hành động pháp lý quan trọng chống lại Google bằng cách gửi thư cảnh cáo, cáo buộc gã khổng lồ công nghệ vi phạm bản quyền nội dung của Disney trong quá trình huấn luyện và phát triển các mô hình trí tuệ nhân tạo (AI) sinh generative mà không cung cấp khoản bồi thường nào.

Dec. 12, 2025, 1:35 p.m.

Trí tuệ nhân tạo và Tương lai của Tối ưu hóa công…

Khi trí tuệ nhân tạo (AI) tiến bộ và ngày càng tích hợp vào marketing kỹ thuật số, ảnh hưởng của nó đến tối ưu hóa công cụ tìm kiếm (SEO) ngày càng rõ nét.

Dec. 12, 2025, 1:33 p.m.

Trí tuệ nhân tạo: Kế hoạch MiniMax và Zhipu AI ni…

MiniMax và Zhipu AI, hai công ty hàng đầu trong lĩnh vực trí tuệ nhân tạo, được cho là đang chuẩn bị niêm yết trên Sở Giao dịch Chứng khoán Hong Kong vào đầu năm tới, có thể là tháng Một.

Dec. 12, 2025, 1:31 p.m.

OpenAI bổ nhiệm CEO của Slack, Denise Dresser, là…

Denise Dresser, CEO của Slack, chuẩn bị rời khỏi vị trí để trở thành Giám đốc Doanh thu (Chief Revenue Officer) tại OpenAI, công ty đứng sau ChatGPT.

Dec. 12, 2025, 1:30 p.m.

Các kỹ thuật Tổng hợp video AI nâng cao hiệu quả …

Ngành công nghiệp điện ảnh đang trải qua một cuộc chuyển đổi lớn khi các hãng phim ngày càng tích hợp các kỹ thuật tổng hợp video bằng trí tuệ nhân tạo (AI) để nâng cao quy trình hậu kỳ.

Dec. 12, 2025, 1:24 p.m.

19 công cụ AI mạng xã hội tốt nhất để chuyển đổi …

AI đang cách mạng hóa tiếp thị mạng xã hội bằng cách cung cấp các công cụ đơn giản hóa và nâng cao sự tương tác của khán giả.

Dec. 12, 2025, 9:42 a.m.

Những Người Ảnh Hưởng AI Trên Mạng Xã Hội: Cơ Hội…

Sự xuất hiện của các influencer do AI tạo ra trên mạng xã hội đánh dấu một bước chuyển lớn trong môi trường kỹ thuật số, khơi nguồn cho nhiều cuộc tranh luận về tính xác thực của các tương tác trực tuyến cũng như những mối quan ngại đạo đức liên quan đến những nhân vật ảo này.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today