Người trong cuộc Facebook xây dựng kiểm duyệt nội dung cho kỷ nguyên AI

Cựu nhân viên Facebook xây dựng hệ thống kiểm duyệt nội dung cho kỷ nguyên AI

Khi Brett Levenson rời Apple vào năm 2019 để dẫn dắt bộ phận liêm chính kinh doanh tại Facebook, gã khổng lồ truyền thông xã hội đang chìm sâu vào khủng hoảng Cambridge Analytica. Thời điểm đó, ông nghĩ rằng mình có thể đơn giản giải quyết vấn đề kiểm duyệt nội dung của Facebook bằng công nghệ tốt hơn. Tuy nhiên, ông nhanh chóng nhận ra vấn đề phức tạp hơn nhiều so với công nghệ. Ông cho biết, các nhân viên kiểm duyệt được yêu cầu học thuộc lòng một tài liệu chính sách dài 40 trang đã được dịch máy sang ngôn ngữ của họ. Sau đó, họ chỉ có khoảng 30 giây cho mỗi nội dung bị gắn cờ để quyết định không chỉ liệu nội dung đó có vi phạm quy tắc hay không, mà còn phải làm gì với nó: chặn nó, cấm người dùng, hạn chế lan truyền. Theo Levenson, những quyết định nhanh chóng đó chỉ "chính xác hơn 50% một chút". Levenson nói với TechCrunch: “Nó giống như tung đồng xu để xem liệu các nhân viên kiểm duyệt có thể xử lý chính sách một cách chính xác hay không, và điều này xảy ra nhiều ngày sau khi tác hại đã xảy ra”. Cách tiếp cận phản ứng chậm trễ như vậy là không bền vững trong một thế giới đầy những đối thủ cạnh tranh nhanh nhạy và được tài trợ tốt. Sự trỗi dậy của chatbot AI chỉ làm trầm trọng thêm vấn đề, vì những thất bại trong kiểm duyệt nội dung đã dẫn đến một loạt các sự cố lớn, chẳng hạn như chatbot cung cấp hướng dẫn tự gây tổn thương cho thanh thiếu niên hoặc hình ảnh do AI tạo ra trốn tránh các bộ lọc an toàn.

Sự thất vọng của Levenson đã dẫn đến ý tưởng "chính sách dưới dạng mã" - một cách để biến các tài liệu chính sách tĩnh thành logic có thể thực thi, có thể cập nhật và gắn chặt với việc thực thi. Sự hiểu biết sâu sắc đó đã dẫn đến việc thành lập Moonbounce, công ty vừa thông báo đã huy động được 12 triệu đô la tài trợ vào thứ Sáu, TechCrunch đã độc quyền đưa tin. Vòng gọi vốn được đồng dẫn dắt bởi Amplify Partners và StepStone Group. Moonbounce hợp tác với các công ty để cung cấp một lớp bảo mật bổ sung ở bất cứ nơi nào nội dung được tạo ra, cho dù bởi người dùng hay bởi AI. Công ty đã đào tạo mô hình ngôn ngữ lớn của riêng mình để xem xét các tài liệu chính sách của khách hàng, đánh giá nội dung tại thời điểm chạy, cung cấp phản hồi trong 300 mili giây hoặc ít hơn và hành động. Tùy thuộc vào sở thích của khách hàng, hành động đó có thể là hệ thống Moonbounce làm chậm quá trình phân phối trong khi nội dung chờ đánh giá thủ công sau đó, hoặc nó có thể chặn nội dung có rủi ro cao ngay lập tức.

Hiện tại, Moonbounce phục vụ ba lĩnh vực chính: Các nền tảng xử lý nội dung do người dùng tạo như ứng dụng hẹn hò; Các công ty AI xây dựng nhân vật hoặc bạn đồng hành; và các trình tạo hình ảnh AI.

Sự kiện Techcrunch San Francisco, CA | 13-15 tháng 10 năm 2026

Levenson cho biết Moonbounce đang hỗ trợ hơn 40 triệu lượt đánh giá hàng ngày và phục vụ hơn 100 triệu người dùng hoạt động hàng ngày trên nền tảng. Khách hàng bao gồm công ty khởi nghiệp AI companion Channel AI, công ty tạo hình ảnh và video Civitai, và các nền tảng nhập vai nhân vật Dippy AI và Moescape.

Levenson nói với TechCrunch: “An toàn thực sự có thể là một lợi ích sản phẩm”. “Trước đây chưa từng như vậy vì nó luôn là một thứ xảy ra sau này, không phải là thứ bạn thực sự có thể xây dựng vào sản phẩm của mình. Và chúng tôi thấy khách hàng của mình đang tìm ra những cách thực sự thú vị và sáng tạo để sử dụng công nghệ của chúng tôi để biến sự an toàn thành một yếu tố khác biệt và là một phần trong câu chuyện sản phẩm của họ.”

Gần đây, người đứng đầu bộ phận tin cậy và an toàn của Tinder đã giải thích cách nền tảng hẹn hò này sử dụng các loại dịch vụ được hỗ trợ bởi LLM này để đạt được mức cải thiện gấp 10 lần về độ chính xác của việc phát hiện. Lenny Pruss, đối tác chung tại Amplify Partners, cho biết trong một tuyên bố: “Kiểm duyệt nội dung luôn là một vấn đề gây khó khăn cho các nền tảng trực tuyến lớn, nhưng giờ đây, với LLM là trung tâm của mọi ứng dụng, thách thức này thậm chí còn khó khăn hơn”. “Chúng tôi đã đầu tư vào Moonbounce vì chúng tôi hình dung một thế giới nơi các biện pháp bảo vệ khách quan, theo thời gian thực trở thành xương sống cho phép mọi ứng dụng được trung gian hóa bởi AI.”

Các công ty AI đang phải đối mặt với áp lực pháp lý và uy tín ngày càng tăng sau khi chatbot bị cáo buộc đẩy thanh thiếu niên và người dùng dễ bị tổn thương đến tự tử và các trình tạo hình ảnh như Grok của xAI đã được sử dụng để tạo ra hình ảnh khỏa thân không được đồng ý. Rõ ràng, các biện pháp bảo vệ an toàn nội bộ đang thất bại và nó đang trở thành một câu hỏi về trách nhiệm pháp lý. Levenson cho biết các công ty AI ngày càng tìm kiếm sự trợ giúp bên ngoài để củng cố cơ sở hạ tầng an toàn.

Levenson nói: “Chúng tôi là một bên thứ ba nằm giữa người dùng và chatbot, vì vậy hệ thống của chúng tôi không bị ngập trong bối cảnh như chính cuộc trò chuyện”. “Bản thân chatbot có thể phải nhớ hàng chục nghìn mã thông báo đã xuất hiện trước đó… Chúng tôi chỉ lo lắng về việc thực thi các quy tắc tại thời điểm chạy.”

Levenson điều hành công ty 12 người cùng với đồng nghiệp cũ của Apple, Ash Bhardwaj, người trước đây đã xây dựng cơ sở hạ tầng đám mây và AI quy mô lớn trên các sản phẩm cốt lõi của nhà sản xuất iPhone. Trọng tâm tiếp theo của họ là một khả năng được gọi là "điều hướng lặp đi lặp lại", được phát triển để đáp ứng các trường hợp như vụ tự tử năm 2024 của một cậu bé 14 tuổi ở Florida, người đã bị ám ảnh bởi một chatbot của Character AI. Thay vì từ chối thẳng thừng khi các chủ đề gây hại nảy sinh, hệ thống sẽ chặn cuộc trò chuyện và chuyển hướng nó, sửa đổi lời nhắc theo thời gian thực để thúc đẩy chatbot hướng tới một phản hồi hỗ trợ tích cực hơn.

Người trong cuộc Facebook xây dựng kiểm duyệt nội dung cho kỷ nguyên AI

Tóm tắt nhanh

Điểm chính

Cựu nhân viên Facebook xây dựng hệ thống kiểm duyệt nội dung cho kỷ nguyên AI

Góc nhìn từ cộng đồng