Bài công khaiNguồn: techcrunch.com1 phút đọc

Bảng xếp hạng 'không thể gian lận', được tài trợ bởi các công ty mà nó xếp hạng

Bài viết này giới thiệu về Arena, một nền tảng đánh giá các mô hình AI hàng đầu, đã nhanh chóng trở thành chuẩn mực quan trọng trong ngành. Arena thu hút sự chú ý của các công ty lớn như OpenAI và Google, đồng thời đang mở rộng phạm vi đánh giá sang các lĩnh vực như coding và các tác vụ thực tế.

Tín hiệu0đánh giá có chiều sâu
Thảo luận0bình luận dưới bài
Chủ đề3nhánh tri thức liên quan
Nguồn gốctechcrunch.comhttps://techcrunch.com/video/the-leaderboard-you-cant-game-funded-by-the-companies-it-ranks/

Tóm tắt nhanh

Bài viết này giới thiệu về Arena, một nền tảng đánh giá các mô hình AI hàng đầu, đã nhanh chóng trở thành chuẩn mực quan trọng trong ngành. Arena thu hút sự chú ý của các công ty lớn như OpenAI và Google, đồng thời đang mở rộng phạm vi đánh giá sang các lĩnh vực như coding và các tác vụ thực tế.

Điểm chính

  • Arena trở thành bảng xếp hạng công khai hàng đầu cho các LLM tiên tiến.
  • Nền tảng này ảnh hưởng đến việc tài trợ, ra mắt sản phẩm và các chu kỳ PR trong lĩnh vực AI.
  • Arena đang mở rộng sang đánh giá các tác nhân, coding và các tác vụ thực tế.

Bảng xếp hạng "không thể gian lận" được tài trợ bởi chính các công ty mà nó xếp hạng

Đang tải trình phát… Các mô hình trí tuệ nhân tạo đang tăng lên nhanh chóng và sự cạnh tranh rất gay gắt. Với rất nhiều đối thủ cạnh tranh trong lĩnh vực này, mô hình nào sẽ là tốt nhất — và ai sẽ quyết định điều đó? Arena, trước đây là LM Arena, đã nổi lên như một bảng xếp hạng công khai *de facto* cho các LLM (mô hình ngôn ngữ lớn) tiên phong, ảnh hưởng đến nguồn tài trợ, các đợt ra mắt và chu kỳ PR. Chỉ trong bảy tháng, startup này đã đi từ một dự án nghiên cứu tiến sĩ tại UC Berkeley đến định giá 1,7 tỷ đô la. Theo dõi khi người dẫn chương trình Equity, Rebecca Bellan, trò chuyện với đồng sáng lập Arena, Anastasios Angelopoulos và Wei-Lin Chiang, về cách nền tảng của họ trở thành bảng xếp hạng được ưa chuộng cho các mô hình AI tiên phong, và cách họ đang cố gắng xây dựng một chuẩn mực trung lập ngay cả khi các công ty như OpenAI, Google và Anthropic hỗ trợ dự án. Họ phân tích cách Arena hoạt động và tại sao nó khó bị gian lận hơn các chuẩn mực tĩnh, "tính trung lập về cấu trúc" thực sự có nghĩa là gì, tại sao Claude hiện đang đứng đầu bảng xếp hạng của các chuyên gia trong các trường hợp sử dụng pháp lý và y tế, và cách công ty đang mở rộng ra ngoài trò chuyện để đánh giá các tác nhân, mã hóa và các tác vụ thực tế với một sản phẩm doanh nghiệp mới. Đăng ký Equity trên YouTube, Apple Podcasts, Overcast, Spotify và tất cả các kênh podcast. Bạn cũng có thể theo dõi Equity trên X và Threads, tại @EquityPod.

Chủ đề

Theresa Loconsolo là nhà sản xuất âm thanh tại TechCrunch, tập trung vào Equity, podcast hàng đầu của mạng lưới. Trước khi gia nhập TechCrunch vào năm 2022, cô là một trong 2 nhà sản xuất tại một tập đoàn bốn đài, nơi cô viết, ghi âm, lồng tiếng và chỉnh sửa nội dung, đồng thời thiết kế các buổi biểu diễn trực tiếp và phỏng vấn từ các khách mời như lovelytheband. Theresa sống ở New Jersey và có bằng cử nhân Truyền thông của Đại học Monmouth. Bạn có thể liên hệ hoặc xác minh thông tin từ Theresa bằng cách gửi email tới theresa.loconsolo@techcrunch.com.

Xem Tiểu Sử

Đăng ký nhận tin tức công nghệ lớn nhất trong ngành

aistartuptechnology

Discussion

Góc nhìn từ cộng đồng

0 bình luận
Chưa có bình luận nào.

Hãy là người đầu tiên thêm một góc nhìn hữu ích để mạch đọc này trở nên sâu hơn.