Bài công khaiNguồn: techcrunch.com1 phút đọc

Cohere ra mắt mô hình giọng nói mã nguồn mở dành riêng cho phiên âm

Công ty AI Cohere đã giới thiệu Transcribe, một mô hình nhận dạng giọng nói tự động mã nguồn mở, nhẹ và có thể tự lưu trữ. Mô hình này hỗ trợ 14 ngôn ngữ và vượt trội so với các mô hình khác trong các bài kiểm tra về tỷ lệ lỗi từ.

Tín hiệu0đánh giá có chiều sâu
Thảo luận0bình luận dưới bài
Chủ đề3nhánh tri thức liên quan
Nguồn gốctechcrunch.comhttps://techcrunch.com/2026/03/26/cohere-launches-an-open-source-voice-model-specifically-for-transcription/

Tóm tắt nhanh

Công ty AI Cohere đã giới thiệu Transcribe, một mô hình nhận dạng giọng nói tự động mã nguồn mở, nhẹ và có thể tự lưu trữ. Mô hình này hỗ trợ 14 ngôn ngữ và vượt trội so với các mô hình khác trong các bài kiểm tra về tỷ lệ lỗi từ.

Điểm chính

  • Cohere ra mắt mô hình giọng nói mã nguồn mở Transcribe để phiên âm.
  • Transcribe hỗ trợ 14 ngôn ngữ và có thể chạy trên GPU tiêu dùng.
  • Mô hình đạt điểm WER (tỷ lệ lỗi từ) tốt hơn so với các mô hình khác trên bảng xếp hạng Hugging Face.

Cohere ra mắt mô hình giọng nói mã nguồn mở chuyên dụng cho việc phiên âm

Công ty AI doanh nghiệp Cohere hôm thứ Năm đã ra mắt mô hình giọng nói đầu tiên của mình: Transcribe là một mô hình nhận dạng giọng nói tự động mã nguồn mở, có thể được sử dụng cho các tác vụ như ghi chú và phân tích giọng nói. Tương đối nhẹ, chỉ với 2 tỷ tham số, mô hình này được thiết kế để sử dụng với GPU cấp độ tiêu dùng cho những người muốn tự lưu trữ. Hiện tại, nó hỗ trợ 14 ngôn ngữ: tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Ý, tiếng Tây Ban Nha, tiếng Bồ Đào Nha, tiếng Hy Lạp, tiếng Hà Lan, tiếng Ba Lan, tiếng Trung Quốc, tiếng Nhật Bản, tiếng Hàn Quốc, tiếng Việt và tiếng Ả Rập. Cohere cho biết Transcribe đánh bại các mô hình như Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 và Qwen3-ASR-1.7B Speech trên bảng xếp hạng Hugging Face Open ASR, đạt tỷ lệ lỗi từ (WER) trung bình là 5,42, thấp hơn bất kỳ mô hình nào khác trên tiêu chuẩn. Công ty tuyên bố Transcribe có tỷ lệ thắng trung bình là 61% so với các mô hình khác khi các nhà đánh giá con người đánh giá bản phiên âm của nó về độ chính xác, tính mạch lạc và khả năng sử dụng. Tuy nhiên, mô hình này tụt hậu so với các đối thủ khi phải phiên âm tiếng Bồ Đào Nha, tiếng Đức và tiếng Tây Ban Nha. Cohere cho biết Transcribe có thể xử lý 525 phút âm thanh trong một phút, đây là con số cao so với loại mô hình của nó. Công ty đang lên kế hoạch tích hợp Transcribe vào nền tảng điều phối tác nhân doanh nghiệp của mình, North, và cung cấp mô hình này thông qua API của mình miễn phí. Mô hình này cũng sẽ có sẵn trên Model Valut, nền tảng suy luận được quản lý của Cohere. Các mô hình nhận dạng giọng nói ngày càng trở nên phổ biến khi nhu cầu tăng lên đối với các ứng dụng ghi chú và đọc chính tả như Granola và Wispr Flow.

Sự kiện Techcrunch San Francisco, CA | 13-15 tháng 10 năm 2026

Đầu năm nay, Cohere được cho là đã nói với các nhà đầu tư rằng họ đang tạo ra doanh thu định kỳ hàng năm là 240 triệu đô la vào năm 2025 và Giám đốc điều hành của họ, Aidan Gomez, đã được trích dẫn nói rằng công ty khởi nghiệp có thể IPO "sớm".

Ivan phụ trách các phát triển công nghệ tiêu dùng toàn cầu tại TechCrunch. Anh ấy sống ở Ấn Độ và trước đây đã làm việc tại các ấn phẩm bao gồm Huffington Post và The Next Web. Bạn có thể liên hệ hoặc xác minh các liên hệ từ Ivan bằng cách gửi email đến im@ivanmehta.com hoặc qua tin nhắn được mã hóa tại ivan.42 trên Signal. Xem Tiểu sử

aistartuptechnology

Discussion

Góc nhìn từ cộng đồng

0 bình luận
Chưa có bình luận nào.

Hãy là người đầu tiên thêm một góc nhìn hữu ích để mạch đọc này trở nên sâu hơn.