Physical Intelligence ra mắt bộ não robot mới có thể tự tìm ra các nhiệm vụ chưa được dạy

Trí tuệ Vật lý, một startup robot đầy triển vọng, tuyên bố bộ não robot mới của họ có thể thực hiện các tác vụ mà nó chưa từng được dạy

Physical Intelligence, startup robot mới hai năm tuổi có trụ sở tại San Francisco, đã âm thầm trở thành một trong những công ty AI được theo dõi chặt chẽ nhất ở Vùng Vịnh. Hôm thứ Năm, họ công bố nghiên cứu mới cho thấy mô hình mới nhất của họ có thể điều khiển robot thực hiện các tác vụ mà chúng chưa từng được huấn luyện một cách rõ ràng — một khả năng mà chính các nhà nghiên cứu của công ty cho biết đã khiến họ bất ngờ.

Mô hình mới, có tên π0.7, thể hiện những gì công ty mô tả là một bước tiến sớm nhưng ý nghĩa hướng tới mục tiêu được tìm kiếm từ lâu là một bộ não robot đa năng: Một bộ não có thể được hướng dẫn vào một nhiệm vụ lạ lẫm, được huấn luyện bằng ngôn ngữ thông thường và thực sự hoàn thành nó. Nếu những phát hiện này được kiểm chứng, chúng cho thấy AI robot có thể đang tiến gần đến một bước ngoặt tương tự như những gì lĩnh vực này đã thấy với các mô hình ngôn ngữ lớn — nơi các khả năng bắt đầu tăng lên theo những cách vượt xa những gì dữ liệu cơ bản dường như dự đoán.

Nhưng trước hết: Yêu cầu cốt lõi trong bài báo là khái quát hóa thành phần — khả năng kết hợp các kỹ năng đã học trong các bối cảnh khác nhau để giải quyết các vấn đề mà mô hình chưa từng gặp phải. Cho đến nay, cách tiếp cận tiêu chuẩn để huấn luyện robot về cơ bản là học thuộc lòng — thu thập dữ liệu về một nhiệm vụ cụ thể, huấn luyện một mô hình chuyên gia trên dữ liệu đó, sau đó lặp lại cho mọi nhiệm vụ mới. Physical Intelligence cho biết π0.7 phá vỡ mô hình đó.

Sergey Levine, một trong những người đồng sáng lập Physical Intelligence và là giáo sư tại UC Berkeley chuyên về AI cho robot, cho biết: “Khi nó vượt qua ngưỡng mà nó chỉ thực hiện chính xác những thứ mà bạn thu thập dữ liệu cho đến thực sự trộn lẫn mọi thứ theo những cách mới, thì các khả năng sẽ tăng lên nhiều hơn tuyến tính so với lượng dữ liệu. Đặc tính mở rộng có lợi hơn nhiều đó là điều mà chúng ta đã thấy trong các lĩnh vực khác, như ngôn ngữ và thị giác.”

Phần trình diễn ấn tượng nhất của bài báo liên quan đến một nồi chiên không khí mà mô hình về cơ bản chưa từng thấy trong quá trình huấn luyện. Khi nhóm nghiên cứu điều tra, họ chỉ tìm thấy hai tập liên quan trong toàn bộ tập dữ liệu huấn luyện: Một tập mà một robot khác chỉ đơn giản là đóng nồi chiên không khí và một tập từ tập dữ liệu mã nguồn mở, nơi một robot khác đặt một chai nhựa vào bên trong theo hướng dẫn của ai đó. Mô hình bằng cách nào đó đã tổng hợp các đoạn đó, cộng với dữ liệu tiền huấn luyện dựa trên web rộng hơn, thành một sự hiểu biết chức năng về cách thiết bị hoạt động.

Ashwin Balakrishna, một nhà khoa học nghiên cứu tại Physical Intelligence và là sinh viên tiến sĩ khoa học máy tính tại Stanford, cho biết: “Rất khó để theo dõi kiến thức đến từ đâu hoặc nó sẽ thành công hay thất bại ở đâu.”

Tuy nhiên, không cần huấn luyện, mô hình đã nỗ lực sử dụng thiết bị để nấu khoai lang. Với hướng dẫn bằng lời nói từng bước — về cơ bản, một người hướng dẫn robot thực hiện nhiệm vụ giống như cách bạn có thể giải thích điều gì đó cho một nhân viên mới — nó đã thực hiện thành công. Khả năng huấn luyện đó rất quan trọng vì nó cho thấy robot có thể được triển khai trong các môi trường mới và được cải thiện trong thời gian thực mà không cần thu thập thêm dữ liệu hoặc đào tạo lại mô hình.

Vậy tất cả có ý nghĩa gì? Các nhà nghiên cứu không hề ngại ngùng về những hạn chế của mô hình và cẩn thận không đi trước chính mình. Ít nhất trong một trường hợp, họ chỉ thẳng ngón tay vào chính nhóm của mình. Balakrishna nói: “Đôi khi chế độ thất bại không phải do robot hay mô hình. Nó nằm ở chúng ta. Không giỏi kỹ thuật nhắc nhở.” Ông mô tả một thử nghiệm nồi chiên không khí ban đầu tạo ra tỷ lệ thành công là 5%. Ông cho biết, sau khi dành khoảng nửa giờ để tinh chỉnh cách giải thích nhiệm vụ cho mô hình, nó đã tăng lên 95%.

Ảnh: Physical Intelligence

Mô hình cũng chưa có khả năng thực hiện các tác vụ đa bước phức tạp một cách tự động từ một lệnh cấp cao duy nhất. Levine nói: “Bạn không thể nói với nó, ‘Này, hãy làm cho tôi một ít bánh mì nướng’. Nhưng nếu bạn hướng dẫn nó — ‘đối với máy nướng bánh mì, hãy mở phần này, nhấn nút đó, làm điều này’ — thì nó thực sự có xu hướng hoạt động khá tốt.”

Nhóm cũng thừa nhận rằng các tiêu chuẩn chuẩn hóa cho robot thực sự không tồn tại, điều này gây khó khăn cho việc xác nhận bên ngoài các tuyên bố của họ. Thay vào đó, công ty đã đo π0.7 so với các mô hình chuyên gia trước đây của mình — các hệ thống được xây dựng có mục đích được huấn luyện trên các nhiệm vụ riêng lẻ — và nhận thấy rằng mô hình tổng quát phù hợp với hiệu suất của chúng trên một loạt các công việc phức tạp, bao gồm pha cà phê, gấp quần áo và lắp ráp hộp.

Điều đáng chú ý nhất về nghiên cứu — nếu bạn tin lời các nhà nghiên cứu — không phải là bất kỳ bản trình diễn đơn lẻ nào mà là mức độ mà kết quả khiến họ ngạc nhiên, những người có công việc là biết chính xác những gì có trong dữ liệu huấn luyện và do đó mô hình nên và không nên có khả năng làm gì. Balakrishna nói: “Kinh nghiệm của tôi luôn là khi tôi hiểu sâu sắc những gì có trong dữ liệu, tôi có thể đoán được mô hình sẽ có thể làm gì. Tôi hiếm khi ngạc nhiên. Nhưng vài tháng qua là lần đầu tiên tôi thực sự ngạc nhiên. Tôi vừa mua một bộ bánh răng một cách ngẫu nhiên và hỏi robot, ‘Này, bạn có thể xoay bánh răng này không?

Physical Intelligence ra mắt bộ não robot mới có thể tự tìm ra các nhiệm vụ chưa được dạy

Tóm tắt nhanh

Điểm chính

Trí tuệ Vật lý, một startup robot đầy triển vọng, tuyên bố bộ não robot mới của họ có thể thực hiện các tác vụ mà nó chưa từng được dạy

Góc nhìn từ cộng đồng