Các nhà nghiên cứu dùng các câu hỏi trong trò chơi đố vui Sunday Puzzle để đánh giá khả năng “lý luận” của trí tuệ nhân tạo
Các nhà nghiên cứu từ nhiều trường đại học và startup đã phát triển một chuẩn đo lường AI mới, sử dụng các câu đố trong chương trình “Sunday Puzzle” của NPR. Các câu đố này không yêu cầu kiến thức chuyên môn sâu, giúp kiểm tra khả năng lý luận và giải quyết vấn đề của các mô hình AI. Mục tiêu là phát triển một bài kiểm tra mà người dùng bình thường cũng có thể dễ dàng hiểu, đồng thời tránh việc các mô hình chỉ dựa vào bộ nhớ học thuộc.
Trong thử nghiệm, các mô hình lý luận như o1 và R1 của DeepSeek thể hiện hiệu suất vượt trội, nhưng không phải là không có vấn đề. Một số mô hình như R1, đôi khi sẽ đầu hàng và đưa ra câu trả lời sai hoặc rút lại câu trả lời ngay sau khi đưa ra. Những mô hình này cần thêm thời gian để đưa ra kết quả chính xác, điều này phản ánh quá trình suy luận lâu dài mà con người cũng thường gặp phải khi giải quyết vấn đề phức tạp.
Kết quả thử nghiệm cho thấy mô hình o1 đạt điểm cao nhất với 59%, theo sau là o3-mini với 47%, trong khi R1 chỉ đạt 35%. Các nhà nghiên cứu dự định mở rộng thử nghiệm để tìm ra cách cải thiện các mô hình lý luận, hy vọng sẽ thúc đẩy sự phát triển của AI mà mọi người có thể dễ dàng hiểu và tiếp cận.
shared via techcrunch,