Mistral phát hành mô hình mã nguồn mở mới cho tạo giọng nói

Mistral ra mắt mô hình mã nguồn mở mới cho việc tạo giọng nói

Công ty AI của Pháp, Mistral, đã ra mắt một mô hình chuyển văn bản thành giọng nói (text-to-speech) mã nguồn mở mới vào thứ Năm, có thể được sử dụng bởi các trợ lý AI giọng nói hoặc trong các trường hợp sử dụng doanh nghiệp như hỗ trợ khách hàng. Mô hình này, cho phép các doanh nghiệp xây dựng các đại diện giọng nói cho hoạt động bán hàng và tương tác với khách hàng, đưa Mistral vào cạnh tranh trực tiếp với các công ty như ElevenLabs, Deepgram và OpenAI.

Mô hình mới, có tên Voxtral TTS, hỗ trợ chín ngôn ngữ, bao gồm tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Hà Lan, tiếng Bồ Đào Nha, tiếng Ý, tiếng Hindi và tiếng Ả Rập. “Khách hàng của chúng tôi đã yêu cầu một mô hình giọng nói. Vì vậy, chúng tôi đã xây dựng một mô hình giọng nói kích thước nhỏ có thể phù hợp với đồng hồ thông minh, điện thoại thông minh, máy tính xách tay hoặc các thiết bị biên khác. Chi phí của nó chỉ bằng một phần nhỏ so với bất kỳ sản phẩm nào khác trên thị trường, nhưng nó mang lại hiệu suất vượt trội,” Pierre Stock, phó chủ tịch hoạt động khoa học tại Mistral AI, nói với TechCrunch trong một cuộc phỏng vấn qua điện thoại.

Mistral cho biết mô hình mới có thể điều chỉnh một giọng nói tùy chỉnh với một mẫu nhỏ hơn năm giây, đồng thời nắm bắt các đặc điểm như giọng điệu tinh tế, ngữ điệu, âm sắc và các bất thường trong dòng chảy của giọng nói. Mô hình, dựa trên Ministral 3B, có thể chuyển đổi giữa các ngôn ngữ một cách dễ dàng mà không làm mất các đặc điểm của giọng nói, điều này hữu ích cho các trường hợp sử dụng như lồng tiếng hoặc dịch thuật thời gian thực. Stock cho biết công ty muốn mô hình này nghe giống con người chứ không phải robot. Mô hình đã được xây dựng để có hiệu suất thời gian thực, theo công ty.

Nó có thời gian đến âm thanh đầu tiên (TTFA) — một thước đo về thời điểm mô hình bắt đầu 'nói' sau khi nhận được đầu vào — là 90ms cho một mẫu 10 giây gồm 500 ký tự. Mô hình cũng có hệ số thời gian thực (RTF) là 6x, có nghĩa là nó có thể hiển thị một đoạn clip 10 giây trong khoảng 1,6 giây.

Đầu năm nay, Mistral đã ra mắt một cặp mô hình phiên âm, một cho xử lý hàng loạt lớn và một cho các trường hợp sử dụng thời gian thực với độ trễ thấp. Với mô hình giọng nói mới, công ty có khả năng hướng đến việc cung cấp một bộ sản phẩm giọng nói đầy đủ cho các doanh nghiệp. “Chúng tôi dự định có một nền tảng đầu cuối có thể xử lý các luồng đầu vào đa phương thức, bao gồm âm thanh, văn bản và hình ảnh, cũng như đầu ra. Lợi ích chính của điều đó là bạn có được nhiều thông tin hơn với một hệ thống đại diện đầu cuối hỗ trợ âm thanh làm đầu vào hoặc đầu ra,” Stock nói.

Mistral định vị rằng mã nguồn mở và khả năng tùy chỉnh của mình sẽ giúp các doanh nghiệp áp dụng các mô hình giọng nói của mình so với các đối thủ cạnh tranh, vì họ có thể điều chỉnh nó theo cách họ muốn.

Ivan phụ trách các phát triển công nghệ tiêu dùng toàn cầu tại TechCrunch. Anh ấy sống ở Ấn Độ và trước đây đã làm việc tại các ấn phẩm bao gồm Huffington Post và The Next Web. Bạn có thể liên hệ hoặc xác minh phạm vi tiếp cận từ Ivan bằng cách gửi email đến im@ivanmehta.com hoặc qua tin nhắn được mã hóa tại ivan.42 trên Signal.

Mistral phát hành mô hình mã nguồn mở mới cho tạo giọng nói

Tóm tắt nhanh

Điểm chính

Mistral ra mắt mô hình mã nguồn mở mới cho việc tạo giọng nói

Góc nhìn từ cộng đồng