Phương pháp cải tiến để lên kế hoạch cho các tác vụ trực quan phức tạp

Một phương pháp tốt hơn để lập kế hoạch cho các tác vụ thị giác phức tạp

Các nhà nghiên cứu của MIT đã phát triển một phương pháp dựa trên trí tuệ nhân tạo tạo sinh để lập kế hoạch cho các tác vụ thị giác dài hạn, chẳng hạn như điều hướng robot, hiệu quả hơn gấp đôi so với một số kỹ thuật hiện có. Phương pháp của họ sử dụng một mô hình ngôn ngữ thị giác chuyên dụng để nhận thức kịch bản trong một hình ảnh và mô phỏng các hành động cần thiết để đạt được mục tiêu. Sau đó, một mô hình thứ hai dịch các mô phỏng đó sang một ngôn ngữ lập trình tiêu chuẩn cho các vấn đề lập kế hoạch và tinh chỉnh giải pháp.

Cuối cùng, hệ thống tự động tạo ra một bộ tệp có thể được đưa vào phần mềm lập kế hoạch cổ điển, phần mềm này sẽ tính toán một kế hoạch để đạt được mục tiêu. Hệ thống hai bước này tạo ra các kế hoạch với tỷ lệ thành công trung bình khoảng 70%, vượt trội so với các phương pháp cơ sở tốt nhất chỉ có thể đạt được khoảng 30%. Điều quan trọng là, hệ thống có thể giải quyết các vấn đề mới mà nó chưa từng gặp phải trước đây, khiến nó phù hợp với môi trường thực tế nơi các điều kiện có thể thay đổi ngay lập tức.

"Khung của chúng tôi kết hợp những ưu điểm của các mô hình ngôn ngữ thị giác, như khả năng hiểu hình ảnh của chúng, với khả năng lập kế hoạch mạnh mẽ của một trình giải chính thức," Yilun Hao, một sinh viên tốt nghiệp ngành hàng không vũ trụ (AeroAstro) tại MIT và là tác giả chính của một bài báo truy cập mở về kỹ thuật này cho biết. "Nó có thể lấy một hình ảnh duy nhất và di chuyển nó thông qua mô phỏng và sau đó đến một kế hoạch dài hạn đáng tin cậy có thể hữu ích trong nhiều ứng dụng thực tế."

Cô hợp tác trong bài báo với Yongchao Chen, một sinh viên tốt nghiệp tại Phòng thí nghiệm Hệ thống Thông tin và Quyết định (LIDS) của MIT; Chuchu Fan, một phó giáo sư tại AeroAstro và là nhà nghiên cứu chính trong LIDS; và Yang Zhang, một nhà khoa học nghiên cứu tại Phòng thí nghiệm Trí tuệ Nhân tạo MIT-IBM Watson. Bài báo sẽ được trình bày tại Hội nghị Quốc tế về Biểu diễn Học tập.

Giải quyết các tác vụ thị giác

Trong vài năm qua, Fan và các đồng nghiệp của cô đã nghiên cứu việc sử dụng các mô hình AI tạo sinh để thực hiện các suy luận và lập kế hoạch phức tạp, thường sử dụng các mô hình ngôn ngữ lớn (LLM) để xử lý các đầu vào văn bản.

Nhiều vấn đề lập kế hoạch trong thế giới thực, như lắp ráp robot và lái xe tự động, có các đầu vào thị giác mà một LLM không thể xử lý tốt một mình. Các nhà nghiên cứu đã tìm cách mở rộng sang lĩnh vực thị giác bằng cách sử dụng các mô hình ngôn ngữ thị giác (VLM), các hệ thống AI mạnh mẽ có thể xử lý hình ảnh và văn bản.

Nhưng VLM gặp khó khăn trong việc hiểu các mối quan hệ không gian giữa các đối tượng trong một cảnh và thường không thể suy luận chính xác qua nhiều bước. Điều này gây khó khăn cho việc sử dụng VLM để lập kế hoạch tầm xa.

Mặt khác, các nhà khoa học đã phát triển các trình lập kế hoạch chính thức mạnh mẽ, có thể tạo ra các kế hoạch dài hạn hiệu quả cho các tình huống phức tạp. Tuy nhiên, các hệ thống phần mềm này không thể xử lý các đầu vào thị giác và yêu cầu kiến thức chuyên môn để mã hóa một vấn đề thành ngôn ngữ mà trình giải có thể hiểu được.

Fan và nhóm của cô đã xây dựng một hệ thống lập kế hoạch tự động kết hợp những ưu điểm tốt nhất của cả hai phương pháp. Hệ thống này, được gọi là lập kế hoạch chính thức được hướng dẫn bởi VLM (VLMFP), sử dụng hai VLM chuyên dụng làm việc cùng nhau để biến các vấn đề lập kế hoạch thị giác thành các tệp sẵn sàng sử dụng cho phần mềm lập kế hoạch chính thức.

Các nhà nghiên cứu trước tiên đã cẩn thận đào tạo một mô hình nhỏ mà họ gọi là SimVLM để chuyên mô tả kịch bản trong một hình ảnh bằng ngôn ngữ tự nhiên và mô phỏng một chuỗi các hành động trong kịch bản đó. Sau đó, một mô hình lớn hơn nhiều, mà họ gọi là GenVLM, sử dụng mô tả từ SimVLM để tạo ra một tập hợp các tệp ban đầu bằng một ngôn ngữ lập kế hoạch chính thức được gọi là Ngôn ngữ Định nghĩa Miền Lập kế hoạch (PDDL).

Các tệp đã sẵn sàng để được đưa vào một trình giải PDDL cổ điển, trình giải này sẽ tính toán một kế hoạch từng bước để giải quyết nhiệm vụ. GenVLM so sánh kết quả của trình giải với kết quả của trình mô phỏng và lặp lại tinh chỉnh các tệp PDDL.

"Trình tạo và trình mô phỏng làm việc cùng nhau để có thể đạt được kết quả chính xác giống nhau, đó là một mô phỏng hành động đạt được mục tiêu," Hao nói.

Vì GenVLM là một mô hình AI tạo sinh lớn, nó đã thấy nhiều ví dụ về PDDL trong quá trình đào tạo và học cách ngôn ngữ chính thức này có thể giải quyết một loạt các vấn đề. Kiến thức hiện có này cho phép mô hình tạo ra các tệp PDDL chính xác.

Một phương pháp linh hoạt

VLMFP tạo ra hai tệp PDDL riêng biệt. Đầu tiên là một tệp miền xác định môi trường, các hành động hợp lệ và các quy tắc miền. Nó cũng tạo ra một tệp vấn đề xác định các trạng thái ban đầu và mục tiêu của một vấn đề cụ thể đang được xem xét.

"Một ưu điểm của PDDL là tệp miền giống nhau cho tất cả các trường hợp trong môi trường đó. Điều này làm cho khung của chúng tôi trở nên tốt trong việc khái quát hóa các trường hợp chưa từng thấy trong cùng một miền," Hao giải thích.

Để cho phép hệ thống khái quát hóa hiệu quả, các nhà nghiên cứu cần thiết kế cẩn thận vừa đủ dữ liệu đào tạo cho SimVLM để mô hình học cách hiểu vấn đề và mục tiêu mà không ghi nhớ các mẫu trong kịch bản. Khi được kiểm tra, SimVLM đã mô tả thành công kịch bản, mô phỏng các hành động và phát hiện xem mục tiêu đã đạt được hay chưa trong khoảng 85% thí nghiệm.

Nhìn chung, khung VLMFP đạt được tỷ lệ thành công khoảng 60

Phương pháp cải tiến để lên kế hoạch cho các tác vụ trực quan phức tạp

Tóm tắt nhanh

Điểm chính

Một phương pháp tốt hơn để lập kế hoạch cho các tác vụ thị giác phức tạp

Giải quyết các tác vụ thị giác

Một phương pháp linh hoạt

Góc nhìn từ cộng đồng