Google ra mắt TurboQuant, thuật toán nén bộ nhớ AI không mất dữ liệu

Google ra mắt TurboQuant, thuật toán nén bộ nhớ AI không mất dữ liệu — và vâng, internet đang gọi nó là 'Pied Piper'

Nếu các nhà nghiên cứu AI của Google có khiếu hài hước, họ đã gọi TurboQuant, thuật toán nén bộ nhớ AI siêu hiệu quả vừa được công bố hôm thứ Ba, là “Pied Piper” — hoặc ít nhất đó là những gì internet nghĩ. Trò đùa này ám chỉ đến startup hư cấu Pied Piper, tâm điểm của loạt phim truyền hình “Silicon Valley” của HBO chiếu từ năm 2014 đến 2019. Bộ phim theo chân những người sáng lập startup khi họ điều hướng hệ sinh thái công nghệ, đối mặt với những thách thức như cạnh tranh từ các công ty lớn hơn, gây quỹ, các vấn đề về công nghệ và sản phẩm, và thậm chí (khiến chúng ta rất thích thú) gây ấn tượng với các giám khảo tại một phiên bản hư cấu của TechCrunch Disrupt. Công nghệ đột phá của Pied Piper trên chương trình truyền hình là một thuật toán nén giúp giảm đáng kể kích thước tệp với khả năng nén gần như không mất dữ liệu. TurboQuant mới của Google Research cũng hướng đến việc nén cực độ mà không làm giảm chất lượng, nhưng được áp dụng cho một nút thắt cổ chai cốt lõi trong các hệ thống AI. Do đó, có sự so sánh.

Google Research mô tả công nghệ này là một phương pháp mới để thu nhỏ bộ nhớ làm việc của AI mà không ảnh hưởng đến hiệu suất. Phương pháp nén, sử dụng một dạng lượng tử hóa vector để xóa các nút thắt cổ chai bộ nhớ cache trong quá trình xử lý AI, về cơ bản sẽ cho phép AI ghi nhớ nhiều thông tin hơn trong khi chiếm ít dung lượng hơn và duy trì độ chính xác, theo các nhà nghiên cứu. Họ có kế hoạch trình bày những phát hiện của mình tại hội nghị ICLR 2026 vào tháng tới, cùng với hai phương pháp đang giúp quá trình nén này trở nên khả thi: phương pháp lượng tử hóa PolarQuant và phương pháp đào tạo và tối ưu hóa có tên QJL.

Việc hiểu được các phép toán liên quan ở đây là điều mà các nhà nghiên cứu và nhà khoa học máy tính có thể làm được, nhưng kết quả đang khiến toàn bộ ngành công nghệ cảm thấy phấn khích. Nếu được triển khai thành công trong thế giới thực, TurboQuant có thể giúp việc chạy AI trở nên rẻ hơn bằng cách giảm "bộ nhớ làm việc" thời gian chạy của nó — được gọi là bộ nhớ cache KV — "ít nhất 6 lần". Một số người, như Giám đốc điều hành Cloudflare Matthew Prince, thậm chí còn gọi đây là khoảnh khắc DeepSeek của Google — một tham chiếu đến những cải tiến hiệu quả do mô hình AI của Trung Quốc mang lại, mô hình này được đào tạo với chi phí chỉ bằng một phần nhỏ so với các đối thủ trên các chip tệ hơn, đồng thời vẫn cạnh tranh về kết quả.

Tuy nhiên, điều đáng chú ý là TurboQuant vẫn chưa được triển khai rộng rãi; hiện tại nó vẫn là một đột phá trong phòng thí nghiệm. Điều đó khiến việc so sánh với một thứ như DeepSeek, hoặc thậm chí là Pied Piper hư cấu, trở nên khó khăn hơn. Trên TV, công nghệ của Pied Piper sẽ thay đổi hoàn toàn các quy tắc của điện toán. Trong khi đó, TurboQuant có thể dẫn đến những cải tiến về hiệu quả và các hệ thống yêu cầu ít bộ nhớ hơn trong quá trình suy luận. Nhưng nó sẽ không nhất thiết giải quyết tình trạng thiếu RAM rộng hơn do AI gây ra, vì nó chỉ nhắm mục tiêu vào bộ nhớ suy luận, không phải đào tạo — mà quá trình đào tạo này tiếp tục đòi hỏi lượng RAM khổng lồ.

Sarah đã làm phóng viên cho TechCrunch từ tháng 8 năm 2011. Cô gia nhập công ty sau khi đã làm việc hơn ba năm tại ReadWriteWeb. Trước khi làm phóng viên, Sarah đã làm việc trong lĩnh vực CNTT ở một số ngành, bao gồm ngân hàng, bán lẻ và phần mềm. Bạn có thể liên hệ hoặc xác minh thông tin từ Sarah bằng cách gửi email đến sarahp@techcrunch.com hoặc qua tin nhắn được mã hóa tại sarahperez.01 trên Signal.

Google ra mắt TurboQuant, thuật toán nén bộ nhớ AI không mất dữ liệu

Tóm tắt nhanh

Điểm chính

Google ra mắt TurboQuant, thuật toán nén bộ nhớ AI không mất dữ liệu — và vâng, internet đang gọi nó là 'Pied Piper'

Góc nhìn từ cộng đồng