OpenAI ra mắt các tính năng trí tuệ giọng nói mới trong API của mình
OpenAI cho biết hôm thứ Năm rằng API của họ giờ đây sẽ bao gồm một số tính năng trí tuệ giọng nói mới, được thiết kế để giúp các nhà phát triển tạo ra các ứng dụng có thể nói chuyện, phiên âm và dịch các cuộc trò chuyện với người dùng. Mô hình GPT‑Realtime‑2 mới của công ty là một mô hình giọng nói khác, được xây dựng để tạo ra một mô phỏng giọng nói chân thực có thể trò chuyện với người dùng. Tuy nhiên, không giống như phiên bản tiền nhiệm của nó (GPT-Realtime-1.5), phiên bản này được xây dựng với khả năng suy luận cấp GPT‑5, mà OpenAI cho biết được tạo ra để xử lý các yêu cầu phức tạp hơn từ người dùng. Công ty cũng đang ra mắt GPT‑Realtime‑Translate, như tên gọi của nó, được thiết kế để cung cấp các dịch vụ dịch thuật theo thời gian thực "bắt kịp" với người dùng trong cuộc trò chuyện. Tính năng này bao gồm hơn 70 ngôn ngữ đầu vào (tức là các ngôn ngữ mà nó có thể hiểu) và 13 ngôn ngữ đầu ra (các ngôn ngữ mà nó chuyển tiếp cho người nói). Cuối cùng, công ty cũng đã ra mắt một khả năng phiên âm mới, GPT-Realtime-Whisper, cung cấp cho người dùng khả năng chuyển giọng nói thành văn bản trực tiếp, được ghi lại khi các tương tác xảy ra.
"Cùng nhau, các mô hình mà chúng tôi đang ra mắt chuyển âm thanh thời gian thực từ phản hồi đơn giản sang các giao diện giọng nói thực sự có thể thực hiện công việc: lắng nghe, suy luận, dịch, phiên âm và hành động khi một cuộc trò chuyện diễn ra," công ty cho biết.
Những bản cập nhật này sẽ tốt cho ai? Các công ty muốn mở rộng khả năng dịch vụ khách hàng là một mục tiêu rõ ràng. Tuy nhiên, OpenAI cũng lưu ý rằng các tính năng mới của họ sẽ hỗ trợ một loạt các lĩnh vực, bao gồm giáo dục, truyền thông, sự kiện và nền tảng sáng tạo, cùng những lĩnh vực khác. Hữu ích như những công cụ này có vẻ từ góc độ doanh nghiệp, cũng có vẻ hợp lý rằng chúng có thể bị lạm dụng. Công ty cho biết họ đã xây dựng các biện pháp bảo vệ để ngăn chặn các tính năng mới của mình bị lạm dụng để tạo thư rác, gian lận hoặc các hình thức lạm dụng trực tuyến khác. Các trình kích hoạt nhất định đã được nhúng vào hệ thống để "các cuộc trò chuyện có thể bị dừng lại nếu chúng bị phát hiện vi phạm các nguyên tắc về nội dung gây hại của chúng tôi," OpenAI cho biết.
Sự kiện Techcrunch San Francisco, CA | 13-15 tháng 10 năm 2026
Tất cả các mô hình giọng nói mới đều được bao gồm trong Realtime API của OpenAI. Translate và Whisper được tính phí theo phút, trong khi GPT-Realtime-2 được tính phí theo mức tiêu thụ token. Khi bạn mua hàng thông qua các liên kết trong bài viết của chúng tôi, chúng tôi có thể kiếm được một khoản hoa hồng nhỏ. Điều này không ảnh hưởng đến tính độc lập biên tập của chúng tôi.
Lucas là một nhà văn cấp cao tại TechCrunch, nơi anh ấy đưa tin về trí tuệ nhân tạo, công nghệ tiêu dùng và các công ty khởi nghiệp. Trước đây, anh ấy đã đưa tin về AI và an ninh mạng tại Gizmodo. Bạn có thể liên hệ với Lucas bằng cách gửi email đến lucas.ropek@techcrunch.com. Xem tiểu sử
Góc nhìn từ cộng đồng
Hãy là người đầu tiên thêm một góc nhìn hữu ích để mạch đọc này trở nên sâu hơn.