Cohere ra mắt mô hình giọng nói mã nguồn mở dành riêng cho phiên âm

Cohere ra mắt mô hình giọng nói mã nguồn mở chuyên dụng cho việc phiên âm

Công ty AI doanh nghiệp Cohere hôm thứ Năm đã ra mắt mô hình giọng nói đầu tiên của mình: Transcribe là một mô hình nhận dạng giọng nói tự động mã nguồn mở, có thể được sử dụng cho các tác vụ như ghi chú và phân tích giọng nói. Tương đối nhẹ, chỉ với 2 tỷ tham số, mô hình này được thiết kế để sử dụng với GPU cấp độ tiêu dùng cho những người muốn tự lưu trữ. Hiện tại, nó hỗ trợ 14 ngôn ngữ: tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Ý, tiếng Tây Ban Nha, tiếng Bồ Đào Nha, tiếng Hy Lạp, tiếng Hà Lan, tiếng Ba Lan, tiếng Trung Quốc, tiếng Nhật Bản, tiếng Hàn Quốc, tiếng Việt và tiếng Ả Rập. Cohere cho biết Transcribe đánh bại các mô hình như Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 và Qwen3-ASR-1.7B Speech trên bảng xếp hạng Hugging Face Open ASR, đạt tỷ lệ lỗi từ (WER) trung bình là 5,42, thấp hơn bất kỳ mô hình nào khác trên tiêu chuẩn. Công ty tuyên bố Transcribe có tỷ lệ thắng trung bình là 61% so với các mô hình khác khi các nhà đánh giá con người đánh giá bản phiên âm của nó về độ chính xác, tính mạch lạc và khả năng sử dụng. Tuy nhiên, mô hình này tụt hậu so với các đối thủ khi phải phiên âm tiếng Bồ Đào Nha, tiếng Đức và tiếng Tây Ban Nha. Cohere cho biết Transcribe có thể xử lý 525 phút âm thanh trong một phút, đây là con số cao so với loại mô hình của nó. Công ty đang lên kế hoạch tích hợp Transcribe vào nền tảng điều phối tác nhân doanh nghiệp của mình, North, và cung cấp mô hình này thông qua API của mình miễn phí. Mô hình này cũng sẽ có sẵn trên Model Valut, nền tảng suy luận được quản lý của Cohere. Các mô hình nhận dạng giọng nói ngày càng trở nên phổ biến khi nhu cầu tăng lên đối với các ứng dụng ghi chú và đọc chính tả như Granola và Wispr Flow.

Sự kiện Techcrunch San Francisco, CA | 13-15 tháng 10 năm 2026

Đầu năm nay, Cohere được cho là đã nói với các nhà đầu tư rằng họ đang tạo ra doanh thu định kỳ hàng năm là 240 triệu đô la vào năm 2025 và Giám đốc điều hành của họ, Aidan Gomez, đã được trích dẫn nói rằng công ty khởi nghiệp có thể IPO "sớm".

Ivan phụ trách các phát triển công nghệ tiêu dùng toàn cầu tại TechCrunch. Anh ấy sống ở Ấn Độ và trước đây đã làm việc tại các ấn phẩm bao gồm Huffington Post và The Next Web. Bạn có thể liên hệ hoặc xác minh các liên hệ từ Ivan bằng cách gửi email đến im@ivanmehta.com hoặc qua tin nhắn được mã hóa tại ivan.42 trên Signal. Xem Tiểu sử

Cohere ra mắt mô hình giọng nói mã nguồn mở dành riêng cho phiên âm

Tóm tắt nhanh

Điểm chính

Cohere ra mắt mô hình giọng nói mã nguồn mở chuyên dụng cho việc phiên âm

Góc nhìn từ cộng đồng