Kho lưu trữ nghiên cứu ArXiv sẽ cấm tác giả một năm nếu để AI làm toàn bộ công việc
ArXiv, một kho lưu trữ mở được sử dụng rộng rãi cho các nghiên cứu tiền xuất bản, đang có những hành động mạnh mẽ hơn để ngăn chặn việc sử dụng cẩu thả các mô hình ngôn ngữ lớn (LLM) trong các bài báo khoa học. Mặc dù các bài báo được đăng tải lên trang web trước khi được bình duyệt, arXiv (phát âm là "archive") đã trở thành một trong những cách chính để nghiên cứu lưu hành trong các lĩnh vực như khoa học máy tính và toán học, và bản thân trang web đã trở thành một nguồn dữ liệu về xu hướng trong nghiên cứu khoa học. ArXiv đã thực hiện các bước để chống lại số lượng ngày càng tăng của các bài báo do AI tạo ra chất lượng thấp, ví dụ như yêu cầu người đăng bài lần đầu phải được một tác giả có uy tín xác nhận. Và sau hơn 20 năm được Cornell lưu trữ, tổ chức này đang trở thành một tổ chức phi lợi nhuận độc lập, điều này sẽ cho phép họ huy động thêm tiền để giải quyết các vấn đề như sự cẩu thả của AI.
Trong động thái mới nhất của mình, Thomas Dietterich — chủ tịch bộ phận khoa học máy tính của arXiv — đã đăng hôm thứ Năm rằng "nếu một bài nộp chứa bằng chứng không thể chối cãi rằng các tác giả đã không kiểm tra kết quả do LLM tạo ra, điều này có nghĩa là chúng ta không thể tin bất cứ điều gì trong bài báo." Bằng chứng không thể chối cãi đó có thể bao gồm những thứ như "tài liệu tham khảo ảo giác" và các nhận xét đến hoặc từ LLM, Dietterich nói. Nếu bằng chứng như vậy được tìm thấy, các tác giả của một bài báo sẽ phải đối mặt với "lệnh cấm 1 năm khỏi arXiv, sau đó là yêu cầu các bài nộp arXiv tiếp theo phải được chấp nhận bởi một địa điểm bình duyệt có uy tín trước."
Lưu ý rằng đây không phải là lệnh cấm hoàn toàn đối với việc sử dụng LLM, mà là sự nhấn mạnh rằng, như Dietterich đã nói, các tác giả phải chịu "hoàn toàn trách nhiệm" về nội dung, "bất kể nội dung được tạo ra như thế nào." Vì vậy, nếu các nhà nghiên cứu sao chép và dán "ngôn ngữ không phù hợp, nội dung đạo văn, nội dung thiên vị, lỗi, sai sót, tài liệu tham khảo không chính xác hoặc nội dung gây hiểu lầm" trực tiếp từ LLM, thì họ vẫn phải chịu trách nhiệm về nó.
Dietterich nói với 404 Media rằng đây sẽ là một quy tắc "một lần duy nhất", nhưng người điều hành phải gắn cờ vấn đề và chủ tịch bộ phận phải xác nhận bằng chứng trước khi áp dụng hình phạt. Các tác giả cũng sẽ có thể kháng cáo quyết định này.
Nghiên cứu được bình duyệt gần đây đã phát hiện ra rằng các trích dẫn bịa đặt đang gia tăng trong nghiên cứu y sinh, có thể là do LLM — mặc dù công bằng mà nói, các nhà khoa học không phải là những người duy nhất bị bắt sử dụng các trích dẫn do AI tạo ra.
Khi bạn mua hàng thông qua các liên kết trong bài viết của chúng tôi, chúng tôi có thể kiếm được một khoản hoa hồng nhỏ. Điều này không ảnh hưởng đến sự độc lập biên tập của chúng tôi.
Anthony Ha là biên tập viên cuối tuần của TechCrunch. Trước đây, ông từng là phóng viên công nghệ tại Adweek, biên tập viên cấp cao tại VentureBeat, phóng viên chính quyền địa phương tại Hollister Free Lance và phó chủ tịch nội dung tại một công ty VC. Ông sống ở thành phố New York. Bạn có thể liên hệ hoặc xác minh thông tin từ Anthony bằng cách gửi email đến anthony.ha@techcrunch.com.
View Bio
Góc nhìn từ cộng đồng
Hãy là người đầu tiên thêm một góc nhìn hữu ích để mạch đọc này trở nên sâu hơn.