Hai nhà tiên phong của Trí tuệ nhân tạo đoạt giải Turing
20/05/25
![]() |
Andrew Barto và Richard Sutton tại Đại học Massachusetts, Amherst |
Năm nay, Giải Turing – được ví như giải Nobel của ngành tin học – đã được trao cho hai nhà khoa học Andrew Barto và Richard Sutton nhờ công trình tiên phong về học tăng cường (reinforcement learning), một kỹ thuật cốt lõi đang vận hành các chatbot như ChatGPT hay hệ thống AlphaGo. Hai ông sẽ chia nhau giải thưởng trị giá 1 triệu USD, do Hiệp hội Máy tính ACM trao tặng.
Hành trình bắt đầu vào năm 1977, khi Andrew Barto, khi đó là nhà nghiên cứu tại Đại học Massachusetts Amherst, đề xuất một lý thuyết mới: các nơ-ron trong não hoạt động như những “kẻ khoái lạc”, luôn tìm kiếm niềm vui và tránh né nỗi đau. Một năm sau, Richard Sutton gia nhập nhóm nghiên cứu, cùng phát triển ý tưởng rằng máy móc có thể học giống như con người và động vật. Từ đó, họ phát triển nên "học tăng cường" – cho phép hệ thống AI tự học thông qua thử và sai. Tác phẩm của họ, cuốn “Reinforcement Learning: An Introduction” (1998), đến nay vẫn là tài liệu nền tảng của lĩnh vực này.
Học tăng cường từng chỉ tồn tại trong giới học thuật cho đến khi hệ thống AlphaGo của Google xuất hiện năm 2016, đánh bại kỳ thủ Go số 1 thế giới Lee Sedol – sớm hơn 10 năm so với dự đoán của giới chuyên gia. AlphaGo đã chơi hàng triệu ván cờ với chính nó, học hỏi từ các chiến thắng và thất bại, giống như một sinh vật đang tiến hóa. Người dẫn dắt nhóm phát triển AlphaGo – David Silver – từng là học trò của Sutton tại Đại học Alberta, nơi Sutton thành lập một trong ba trung tâm AI quốc gia của Canada. Còn Barto cũng xây dựng phòng nghiên cứu tương tự ở UMass Amherst.
Ngoài game, học tăng cường còn đóng vai trò nền tảng trong sự phát triển của các chatbot hiện đại. Trước khi ChatGPT ra mắt năm 2022, OpenAI đã thuê hàng trăm người dùng thử bản AI thô, đưa ra đánh giá, sửa lỗi và hướng dẫn trả lời. Hệ thống học hỏi từ phản hồi của con người – một kỹ thuật gọi là Reinforcement Learning from Human Feedback (RLHF) – để cải thiện khả năng phản hồi một cách tự nhiên và chính xác hơn.
Gần đây, các công ty như OpenAI và startup DeepSeek (Trung Quốc) tiếp tục nâng cấp học tăng cường để AI có thể tự học từ chính mình. Ví dụ, khi giải toán, chatbot sẽ thử nhiều phương pháp, ghi nhận cái nào hiệu quả, cái nào không – tương tự như cách AlphaGo tự huấn luyện. Khi được áp dụng ở quy mô khổng lồ, cách học này giúp các mô hình AI bắt đầu mô phỏng tư duy con người, từ đó tạo ra những hệ thống “tư duy logic” như OpenAI’s o1 hay DeepSeek’s R1.
Cả Barto và Sutton tin rằng trong tương lai, học tăng cường sẽ là chìa khóa để robot và AI học hỏi qua tương tác trực tiếp với thế giới, giống như cách trẻ con học bò, đi và nói. “Việc học cách điều khiển cơ thể thông qua học tăng cường – đó là điều vô cùng tự nhiên,” ông Barto nói.
Giải Turing năm nay không chỉ vinh danh hai bộ óc xuất sắc, mà còn nhấn mạnh tầm quan trọng của học tăng cường – kỹ thuật đang tái định hình cách máy móc học hỏi, tương tác và dần tiệm cận trí tuệ con người.
shared via nytimes,