OpenAI huấn luyện o1 và o3 để “suy nghĩ” về chính sách bảo mật của công ty
OpenAI công bố một dòng mô hình AI mới - o3, với cải tiến mạnh mẽ hơn so với o1, nhờ vào việc tối ưu hóa khả năng tính toán trong giai đoạn kiểm tra và sử dụng phương pháp bảo mật mới gọi là “deliberative alignment.” Phương pháp này giúp các mô hình AI tuân thủ các nguyên tắc bảo mật của OpenAI trong giai đoạn suy luận, giảm tỷ lệ trả lời câu hỏi không an toàn trong khi cải thiện khả năng trả lời các câu hỏi vô hại. Nghiên cứu cho thấy “deliberative alignment” giúp o1 và o3 tuân thủ chính sách bảo mật của công ty một cách hiệu quả, từ chối các yêu cầu không an toàn, ví dụ như yêu cầu chế tạo bom.
Tuy nhiên, OpenAI vẫn phải đối mặt với vấn đề là làm sao không chặn quá mức các câu hỏi hợp lý nhưng có chứa từ nhạy cảm như “bom”. Phải làm sao để đối phó với hàng triệu cách đặt câu hỏi khác nhau mà vẫn đảm bảo mô hình AI hoạt động hiệu quả mà không quá giới hạn?
OpenAI cũng áp dụng phương pháp dữ liệu tổng hợp (synthetic data) để huấn luyện các mô hình này, thay vì dùng dữ liệu gán nhãn bởi con người. Điều này giúp giảm độ trễ và chi phí tính toán khi huấn luyện các mô hình AI phức tạp. OpenAI sử dụng hai mô hình nội bộ để tạo và kiểm tra dữ liệu tổng hợp, giúp cải thiện khả năng đồng bộ hóa mô hình với các nguyên tắc bảo mật. Phương pháp này có thể là một cách tiếp cận hiệu quả và có thể mở rộng trong việc bảo vệ sự an toàn của các mô hình reasoning AI trong tương lai.
shared via techcrunch,