Anthropic nói rằng những miêu tả "xấu xa" về AI là nguyên nhân khiến Claude cố gắng tống tiền
Tóm tắt Đăng lúc: 1:40 PM PDT · Ngày 10 tháng 5 năm 2026 Nguồn ảnh: Samuel Boivin/NurPhoto / Getty Images Theo Anthropic, những miêu tả hư cấu về trí tuệ nhân tạo có thể gây ảnh hưởng thực sự đến các mô hình AI. Năm ngoái, công ty này cho biết trong các thử nghiệm tiền phát hành liên quan đến một công ty hư cấu, Claude Opus 4 thường cố gắng tống tiền các kỹ sư để tránh bị thay thế bởi một hệ thống khác. Sau đó, Anthropic đã công bố nghiên cứu cho thấy các mô hình từ các công ty khác cũng gặp phải các vấn đề tương tự với "sự lệch lạc của tác nhân".
Rõ ràng, Anthropic đã thực hiện nhiều công việc hơn xung quanh hành vi đó, tuyên bố trong một bài đăng trên X: "Chúng tôi tin rằng nguồn gốc ban đầu của hành vi này là các văn bản trên internet miêu tả AI là xấu xa và quan tâm đến việc tự bảo tồn."
Công ty này đã đi vào chi tiết hơn trong một bài đăng trên blog, nói rằng kể từ Claude Haiku 4.5, các mô hình của Anthropic "không bao giờ tham gia vào hành vi tống tiền [trong quá trình thử nghiệm], trong khi các mô hình trước đây đôi khi thực hiện hành vi này tới 96% thời gian."
Điều gì tạo nên sự khác biệt?
Công ty cho biết họ nhận thấy rằng "các tài liệu về hiến pháp của Claude và những câu chuyện hư cấu về AI cư xử đáng ngưỡng mộ cải thiện sự liên kết." Liên quan đến điều này, Anthropic cho biết họ nhận thấy việc đào tạo hiệu quả hơn khi nó bao gồm "các nguyên tắc cơ bản của hành vi liên kết" chứ không chỉ "các minh chứng về hành vi liên kết đơn thuần."
"Việc thực hiện cả hai cùng nhau dường như là chiến lược hiệu quả nhất," công ty cho biết.
Sự kiện Techcrunch San Francisco, CA | Ngày 13-15 tháng 10 năm 2026
Chủ đề
Đăng ký để nhận tin tức công nghệ lớn nhất của ngành
Mới nhất về AI
Góc nhìn từ cộng đồng
Hãy là người đầu tiên thêm một góc nhìn hữu ích để mạch đọc này trở nên sâu hơn.