Robot hình người giúp việc nhà nhận lệnh bằng giọng nói
21/02/25
Vào thứ Năm, Brett Adcock, nhà sáng lập kiêm CEO của Figure, đã công bố một mô hình máy học mới dành cho robot hình người. Thông tin này được đưa ra chỉ hai tuần sau khi Adcock tuyên bố rằng công ty robot tại Bay Area sẽ ngừng hợp tác với OpenAI. Trọng tâm của thông báo lần này là Helix, một mô hình "tổng quát" thuộc nhóm Vision-Language-Action (VLA).
VLA là một xu hướng mới trong lĩnh vực robot, kết hợp khả năng xử lý hình ảnh và ngôn ngữ để tiếp nhận thông tin. Hiện tại, ví dụ tiêu biểu nhất của công nghệ này là RT-2 của Google DeepMind, một hệ thống đào tạo robot bằng cách kết hợp video và mô hình ngôn ngữ lớn (LLM).
Helix hoạt động theo cơ chế tương tự, sử dụng dữ liệu hình ảnh và các lệnh ngôn ngữ để điều khiển robot theo thời gian thực. Figure cho biết: "Helix thể hiện khả năng tổng quát hóa đối tượng mạnh mẽ, có thể nhặt hàng nghìn vật dụng gia đình mới với đủ hình dạng, kích thước, màu sắc và chất liệu chưa từng xuất hiện trong quá trình huấn luyện, chỉ bằng cách tiếp nhận lệnh ngôn ngữ tự nhiên."
Lý tưởng nhất, bạn chỉ cần nói cho robot biết phải làm gì, và nó sẽ thực hiện ngay. Đó chính là mục tiêu của Helix. Nền tảng này được thiết kế để thu hẹp khoảng cách giữa xử lý hình ảnh và ngôn ngữ. Khi nhận lệnh bằng giọng nói tự nhiên, robot sẽ đánh giá môi trường xung quanh rồi thực hiện tác vụ.
Figure đưa ra ví dụ như: "Đưa túi bánh quy cho robot bên phải của bạn" hoặc "Nhận túi bánh quy từ robot bên trái và đặt vào ngăn kéo đang mở." Cả hai tình huống đều liên quan đến sự phối hợp giữa hai robot, vì Helix được thiết kế để điều khiển hai robot cùng lúc, cho phép chúng hỗ trợ nhau trong các công việc gia đình.
Công ty đang trình diễn mô hình VLA bằng cách ứng dụng nó vào Figure 02 – robot hình người của họ trong môi trường gia đình. Nhà ở vốn là một thách thức lớn đối với robot, do không có sự sắp xếp và tính nhất quán như trong kho hàng hay nhà máy.
Khả năng học tập và kiểm soát vẫn là rào cản lớn đối với việc đưa các hệ thống robot phức tạp vào gia đình. Bên cạnh đó, chi phí lên đến hàng trăm nghìn USD cũng là lý do khiến các công ty robot hình người chưa ưu tiên lĩnh vực này. Hầu hết đều tập trung vào khách hàng công nghiệp trước, nhằm cải thiện độ tin cậy và giảm chi phí trước khi hướng đến ứng dụng trong nhà. Việc hỗ trợ công việc gia đình có lẽ vẫn còn vài năm nữa mới thành hiện thực.
Khi TechCrunch ghé thăm trụ sở của Figure tại Bay Area vào năm 2024, Adcock đã trình diễn một số thử nghiệm về khả năng hoạt động của robot trong nhà. Tuy nhiên, có vẻ như đây không phải ưu tiên hàng đầu, vì Figure đang tập trung triển khai robot tại các môi trường làm việc, hợp tác với các doanh nghiệp như BMW.
Với thông báo về Helix lần này, Figure đang khẳng định rằng robot gia đình cũng xứng đáng là một ưu tiên độc lập. Đây là một môi trường phức tạp để kiểm tra các mô hình huấn luyện, nhưng cũng là bước đệm cần thiết. Nếu robot có thể thực hiện các nhiệm vụ trong bếp, chúng cũng có thể mở rộng khả năng sang nhiều tình huống khác nhau.
"Để robot trở nên hữu ích trong gia đình, chúng cần có khả năng tạo ra các hành vi thông minh mới ngay khi được yêu cầu, đặc biệt đối với những vật thể chúng chưa từng thấy trước đây," Figure cho biết. "Dạy robot thực hiện ngay cả một hành vi mới cũng đòi hỏi rất nhiều công sức từ con người – từ hàng giờ lập trình thủ công ở cấp độ tiến sĩ cho đến hàng nghìn lần huấn luyện bằng phương pháp mô phỏng."
Việc lập trình thủ công không thể mở rộng quy mô cho môi trường gia đình, vì có quá nhiều biến số. Mỗi nhà bếp, phòng khách hay phòng tắm đều có sự khác biệt đáng kể. Các công cụ nấu ăn và dọn dẹp cũng rất đa dạng. Chưa kể, con người có thói quen di chuyển đồ đạc, tạo ra sự lộn xộn và sử dụng nhiều loại ánh sáng khác nhau. Phương pháp lập trình truyền thống mất quá nhiều thời gian và tiền bạc – dù Figure chắc chắn có nguồn lực tài chính dồi dào.
Giải pháp còn lại là tăng cường huấn luyện. Cánh tay robot được huấn luyện để nhặt và đặt đồ vật trong phòng thí nghiệm cũng dựa trên phương pháp này. Tuy nhiên, điều mà bạn không thấy là hàng trăm giờ lặp đi lặp lại để đảm bảo hệ thống đủ ổn định để thực hiện các tác vụ có tính biến đổi cao. Muốn nhặt một món đồ chính xác ngay lần đầu tiên, robot cần thực hiện điều đó hàng trăm lần trước đó.
Như phần lớn công nghệ robot hình người hiện nay, Helix vẫn đang ở giai đoạn đầu. Người xem cần lưu ý rằng có rất nhiều công đoạn phía sau để tạo nên những video trình diễn ngắn gọn và trau chuốt mà họ thấy. Thông báo hôm nay thực chất cũng là một chiến lược tuyển dụng, nhằm thu hút thêm các kỹ sư tham gia phát triển dự án.
shared via TechCrunch,