Các chatbot AI từ các công ty công nghệ hàng đầu như OpenAI và Google đã liên tục nhận được cải thiện về khả năng lập luận trong những tháng gần đây nhằm nâng cao độ tin cậy của câu trả lời. Tuy nhiên, các bài kiểm tra gần đây cho thấy một số mô hình mới hơn hoạt động kém hơn các phiên bản trước, thể hiện một hiện tượng gọi là "ảo tưởng"— các sai lầm trong đó chatbot tạo ra thông tin sai lệch hoặc đưa ra câu trả lời đúng về mặt thực tế nhưng không phù hợp hoặc không theo hướng dẫn. Vấn đề này đã tồn tại từ khi các mô hình ngôn ngữ lớn (LLMs) như ChatGPT của OpenAI và Gemini của Google ra đời, và có vẻ như khó có thể hoàn toàn giải quyết được. Một báo cáo kỹ thuật của OpenAI cho thấy các mô hình o3 và o4-mini phát hành vào tháng 4 có tỷ lệ ảo tưởng cao hơn đáng kể so với mô hình cũ o1 phát hành cuối năm 2024: o3 có tỷ lệ ảo tưởng 33%, o4-mini 48%, so với 16% của o1 khi tổng hợp các thực tế công khai. Tương tự, bảng xếp hạng theo dõi tỷ lệ ảo tưởng của Vectara cho thấy một số mô hình lập luận—bao gồm DeepSeek-R1—đã ghi nhận mức tăng đáng kể về ảo tưởng so với các phiên bản trước, mặc dù chúng sử dụng phương pháp lập luận nhiều bước trước khi trả lời. OpenAI khẳng định rằng quá trình lập luận không phải là nguyên nhân chủ yếu của việc gia tăng ảo tưởng và đang tích cực nghiên cứu các phương pháp giảm thiểu ảo tưởng trong tất cả các mô hình. Sự tồn tại của ảo tưởng đe dọa đến nhiều ứng dụng: các mô hình thường xuyên tạo ra thông tin sai lệch gây cản trở hỗ trợ nghiên cứu; bot trợ lý pháp lý trích dẫn các trường hợp không tồn tại có thể gây lỗi pháp lý; các bot dịch vụ khách hàng có thông tin cũ gây ra các vấn đề hoạt động. Ban đầu, các công ty AI kỳ vọng ảo tưởng sẽ giảm dần theo thời gian, vì các bản cập nhật mô hình ban đầu đã cho thấy những tiến bộ. Tuy nhiên, mức độ ảo tưởng cao hơn gần đây đã thách thức triển vọng này, bất chấp việc có liên quan đến quá trình lập luận hay không. Bảng xếp hạng của Vectara cho thấy tỷ lệ ảo tưởng xấp xỉ như nhau ở các mô hình lập luận so với không lập luận của OpenAI và Google, mặc dù các con số chính xác ít quan trọng hơn thứ hạng tương đối.
Google đã từ chối bình luận. Tuy nhiên, các xếp hạng này có hạn chế. Chúng pha trộn các loại ảo tưởng khác nhau; ví dụ, tỷ lệ 14, 3% của DeepSeek-R1 chủ yếu gồm các trường hợp "nhẹ nhàng"— các câu trả lời hợp lý, có căn cứ dựa trên kiến thức nhưng không có trong văn bản nguồn. Thêm vào đó, việc kiểm tra chỉ dựa vào tóm tắt văn bản có thể không phản ánh chính xác tần suất ảo tưởng trong các nhiệm vụ khác, vì các LLM không được thiết kế đặc biệt để tóm tắt. Emily Bender của Đại học Washington nhấn mạnh rằng các mô hình này dự đoán các từ tiếp theo có khả năng cao hơn là xử lý thông tin để hiểu ý nghĩa thực sự của văn bản, khiến thuật ngữ "ảo tưởng" vừa gây hiểu nhầm vừa mang tính nhân dạng. Bender phê phán "ảo tưởng" vì nó ám chỉ các sai sót là những lệch lạc trong các hệ thống đáng tin cậy và quy cho AI khả năng cảm nhận như con người, điều mà AI không có khả năng làm. Arvind Narayanan của Princeton bổ sung rằng các mô hình cũng sai lầm khi dựa vào dữ liệu không đáng tin cậy hoặc lỗi thời, và việc thêm dữ liệu huấn luyện hoặc tăng cường sức mạnh tính toán vẫn chưa giải quyết được các vấn đề này. Do đó, AI dễ mắc lỗi có thể là thực tế kéo dài. Narayanan đề xuất chỉ sử dụng các mô hình như vậy khi việc kiểm chứng các thông tin nhanh hơn việc tự thực hiện nghiên cứu ban đầu, còn Bender thì khuyên nên tránh hoàn toàn dựa vào các chatbot AI để lấy thông tin thực tế.
Các chatbot AI gặp phải các vấn đề ảo tưởng dai dẳng ảnh hưởng đến độ tin cậy
Công ty Walt Disney đã bắt đầu một hành động pháp lý quan trọng chống lại Google bằng cách gửi thư cảnh cáo, cáo buộc gã khổng lồ công nghệ vi phạm bản quyền nội dung của Disney trong quá trình huấn luyện và phát triển các mô hình trí tuệ nhân tạo (AI) sinh generative mà không cung cấp khoản bồi thường nào.
Khi trí tuệ nhân tạo (AI) tiến bộ và ngày càng tích hợp vào marketing kỹ thuật số, ảnh hưởng của nó đến tối ưu hóa công cụ tìm kiếm (SEO) ngày càng rõ nét.
MiniMax và Zhipu AI, hai công ty hàng đầu trong lĩnh vực trí tuệ nhân tạo, được cho là đang chuẩn bị niêm yết trên Sở Giao dịch Chứng khoán Hong Kong vào đầu năm tới, có thể là tháng Một.
Denise Dresser, CEO của Slack, chuẩn bị rời khỏi vị trí để trở thành Giám đốc Doanh thu (Chief Revenue Officer) tại OpenAI, công ty đứng sau ChatGPT.
Ngành công nghiệp điện ảnh đang trải qua một cuộc chuyển đổi lớn khi các hãng phim ngày càng tích hợp các kỹ thuật tổng hợp video bằng trí tuệ nhân tạo (AI) để nâng cao quy trình hậu kỳ.
AI đang cách mạng hóa tiếp thị mạng xã hội bằng cách cung cấp các công cụ đơn giản hóa và nâng cao sự tương tác của khán giả.
Sự xuất hiện của các influencer do AI tạo ra trên mạng xã hội đánh dấu một bước chuyển lớn trong môi trường kỹ thuật số, khơi nguồn cho nhiều cuộc tranh luận về tính xác thực của các tương tác trực tuyến cũng như những mối quan ngại đạo đức liên quan đến những nhân vật ảo này.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today