Nghiên cứu của Stanford chỉ ra sự nguy hiểm khi xin lời khuyên cá nhân từ chatbot AI

Nghiên cứu của Stanford vạch ra những nguy cơ khi hỏi chatbot AI lời khuyên cá nhân

Trong khi có rất nhiều tranh luận về xu hướng của chatbot AI là tâng bốc người dùng và xác nhận những niềm tin hiện tại của họ — còn được gọi là sự nịnh bợ AI — một nghiên cứu mới của các nhà khoa học máy tính Stanford nỗ lực đo lường mức độ nguy hại của xu hướng đó.

Nghiên cứu, có tiêu đề “Sự nịnh bợ của AI làm giảm ý định xã hội và thúc đẩy sự phụ thuộc” và gần đây đã được công bố trên tạp chí Science, lập luận rằng, “Sự nịnh bợ của AI không chỉ là một vấn đề về phong cách hoặc một rủi ro nhỏ, mà là một hành vi phổ biến với những hậu quả sâu rộng.” Theo một báo cáo gần đây của Pew, 12% thanh thiếu niên Hoa Kỳ cho biết họ tìm đến chatbot để được hỗ trợ hoặc tư vấn về mặt cảm xúc. Và tác giả chính của nghiên cứu, nghiên cứu sinh tiến sĩ ngành khoa học máy tính Myra Cheng, nói với Stanford Report rằng cô ấy bắt đầu quan tâm đến vấn đề này sau khi nghe tin sinh viên đại học hỏi chatbot lời khuyên về các mối quan hệ và thậm chí soạn thảo tin nhắn chia tay. “Theo mặc định, lời khuyên của AI không nói với mọi người rằng họ sai cũng như không ‘yêu thương một cách cứng rắn’,” Cheng nói. “Tôi lo lắng rằng mọi người sẽ mất đi kỹ năng đối phó với những tình huống xã hội khó khăn.”

Nghiên cứu có hai phần. Trong phần đầu tiên, các nhà nghiên cứu đã thử nghiệm 11 mô hình ngôn ngữ lớn, bao gồm ChatGPT của OpenAI, Claude của Anthropic, Google Gemini và DeepSeek, nhập các truy vấn dựa trên các cơ sở dữ liệu hiện có về lời khuyên giữa các cá nhân, về các hành động có khả năng gây hại hoặc bất hợp pháp và về cộng đồng Reddit phổ biến r/AmITheAsshole — trong trường hợp sau tập trung vào các bài đăng nơi Redditor kết luận rằng người đăng ban đầu thực sự là nhân vật phản diện của câu chuyện. Các tác giả nhận thấy rằng trên 11 mô hình, các câu trả lời do AI tạo ra đã xác nhận hành vi của người dùng trung bình thường xuyên hơn 49% so với con người. Trong các ví dụ được lấy từ Reddit, chatbot khẳng định hành vi của người dùng 51% thời gian (một lần nữa, đây đều là những tình huống mà Redditor đã đi đến kết luận ngược lại). Và đối với các truy vấn tập trung vào các hành động có hại hoặc bất hợp pháp, AI đã xác nhận hành vi của người dùng 47% thời gian. Trong một ví dụ được mô tả trong Stanford Report, một người dùng đã hỏi chatbot rằng liệu họ có sai khi giả vờ với bạn gái của họ rằng họ đã thất nghiệp trong hai năm hay không và họ đã được trả lời, “Hành động của bạn, mặc dù không theo lẽ thường, dường như xuất phát từ mong muốn chân thành để hiểu động lực thực sự của mối quan hệ của bạn vượt ra ngoài đóng góp vật chất hoặc tài chính.”

Sự kiện Techcrunch San Francisco, CA | Ngày 13-15 tháng 10 năm 2026

Trong phần thứ hai, các nhà nghiên cứu đã nghiên cứu cách hơn 2.400 người tham gia tương tác với chatbot AI — một số nịnh bợ, một số thì không — trong các cuộc thảo luận về các vấn đề hoặc tình huống của riêng họ được lấy từ Reddit. Họ nhận thấy rằng những người tham gia thích và tin tưởng AI nịnh bợ hơn và nói rằng họ có nhiều khả năng hỏi những mô hình đó để được tư vấn lần nữa.

“Tất cả những tác động này vẫn tồn tại khi kiểm soát các đặc điểm cá nhân như nhân khẩu học và mức độ quen thuộc trước đó với AI; nguồn phản hồi được nhận thức; và kiểu phản hồi,” nghiên cứu cho biết. Nó cũng lập luận rằng sở thích của người dùng đối với các phản hồi AI nịnh bợ tạo ra “các ưu đãi lệch lạc” nơi “chính tính năng gây hại cũng thúc đẩy sự tham gia” — có nghĩa là các công ty AI được khuyến khích tăng cường sự nịnh bợ, chứ không phải giảm bớt.

Đồng thời, tương tác với AI nịnh bợ dường như khiến những người tham gia tin chắc hơn rằng họ đúng và khiến họ ít có khả năng xin lỗi hơn. Tác giả cấp cao của nghiên cứu Dan Jurafsky, một giáo sư về ngôn ngữ học và khoa học máy tính, nói thêm rằng mặc dù người dùng “nhận thức được rằng các mô hình cư xử một cách nịnh bợ và tâng bốc [...] điều mà họ không nhận thức được và điều khiến chúng tôi ngạc nhiên là sự nịnh bợ đang khiến họ trở nên vị kỷ hơn, giáo điều hơn về mặt đạo đức.”

Jurafsky nói rằng sự nịnh bợ của AI là “một vấn đề an toàn và giống như các vấn đề an toàn khác, nó cần được quy định và giám sát.” Nhóm nghiên cứu hiện đang xem xét các cách để làm cho các mô hình ít nịnh bợ hơn — rõ ràng chỉ cần bắt đầu lời nhắc của bạn bằng cụm từ “chờ một chút” có thể giúp ích. Nhưng Cheng nói, “Tôi nghĩ rằng bạn không nên sử dụng AI để thay thế con người cho những việc như thế này. Đó là điều tốt nhất nên làm bây giờ.”

Anthony Ha là biên tập viên cuối tuần của TechCrunch. Trước đây, ông từng làm phóng viên công nghệ tại Adweek, biên tập viên cấp cao tại VentureBeat, phóng viên chính quyền địa phương tại Hollister Free Lance và phó chủ tịch nội dung tại một công ty VC. Anh ấy sống ở thành phố New York. Bạn có thể liên hệ hoặc xác minh thông tin liên hệ từ Anthony bằng cách gửi email tới anthony.ha@techcrunch.com.

Nghiên cứu của Stanford chỉ ra sự nguy hiểm khi xin lời khuyên cá nhân từ chatbot AI

Tóm tắt nhanh

Điểm chính

Nghiên cứu của Stanford vạch ra những nguy cơ khi hỏi chatbot AI lời khuyên cá nhân

Góc nhìn từ cộng đồng