Ngành công nghiệp AI ám ảnh với Chatbot Arena, nhưng có thể không phải là tiêu chuẩn tốt nhất
Số Tech execs như Elon Musk đã ca ngợi hiệu suất của các mô hình AI của công ty trên một tiêu chuẩn cụ thể: Chatbot Arena.
Chatbot Arena, được duy trì bởi một tổ chức phi lợi nhuận được biết đến với tên gọi LMSYS, đã trở thành một sự ám ảnh của ngành công nghiệp. Bài đăng về cập nhật xuất hiện trên bảng xếp hạng mô hình thu hút hàng trăm lượt xem và chia sẻ trên Reddit và X, và tài khoản chính thức LMSYS X có hơn 54.000 người theo dõi. Triệu người đã truy cập trang web của tổ chức trong năm qua.
Tuy nhiên, vẫn còn một số câu hỏi đằng sau về khả năng của Chatbot Arena trong việc cho chúng ta biết mô hình này thực sự "tốt" như thế nào.
Tìm kiếm một tiêu chuẩn mới
Trước khi chúng ta đào sâu vào, hãy dành chút thời gian để hiểu rõ về LMSYS là gì và làm thế nào nó trở thành phổ biến như vậy.
Tổ chức phi lợi nhuận chỉ ra đường vào tháng Tư năm ngoái với một dự án do sinh viên và giảng viên của trường Carnegie Mellon, SkyLab của UC Berkeley và đại học UC San Diego đứng ra. Một số thành viên sáng lập hiện đang làm việc tại Google DeepMind, xAI của Musk và Nvidia; hiện nay, LMSYS chủ yếu do các nhà nghiên cứu liên kết với SkyLab điều hành.
LMSYS không đặt ra mục tiêu tạo ra một bảng xếp hạng mô hình lan truyền. Nhiệm vụ sáng lập của nhóm là làm cho các mô hình (cụ thể là mô hình sinh tạo á la ChatGPT của OpenAI) trở nên dễ tiếp cận hơn bằng cách phát triển và chia sẻ mã nguồn. Nhưng ngay sau khi thành lập LMSYS, các nhà nghiên cứu của nó, không hài lòng với tình trạng đánh giá về AI hiện tại, nhận thấy giá trị trong việc tạo ra một công cụ kiểm tra riêng của họ.
“Các tiêu chuẩn hiện tại không đủ để đáp ứng nhu cầu của các mô hình tiên tiến, đặc biệt là trong việc đánh giá sở thích của người sử dụng,” các nhà nghiên cứu viết trong một bài báo kỹ thuật được công bố vào tháng Ba. “Do đó, có nhu cầu cấp thiết cho một nền tảng đánh giá trực tuyến, dựa trên sở thích của con người để có thể phản ánh chính xác hơn việc sử dụng trong thế giới thực.”
Thật vậy, như chúng tôi đã viết trước đây, các tiêu chuẩn phổ biến được sử dụng ngày nay không làm tốt việc nắm bắt cách mà người thông thường tương tác với các mô hình. Nhiều kỹ năng mà các tiêu chuẩn này kiểm tra — giải các vấn đề toán học cấp tiến tiến với nhiều người dùng chẳng hạn — sẽ hiếm khi có ý nghĩa với đa số người sử dụng, ví dụ như Claude.
Người sáng lập LMSYS cũng cảm thấy như vậy, và họ đã tạo ra một phương án thay thế: Chatbot Arena, một bảng xếp hạng do cộng đồng đánh giá thiết kế để nắm bắt các khía cạnh “tinh tế” của các mô hình và hiệu suất của họ trên các nhiệm vụ thế giới thực, mở.
Chatbot Arena cho phép bất kỳ ai trên web đặt câu hỏi (hoặc các câu hỏi) cho hai mô hình ngẫu nhiên được chọn, không rõ danh tính. Sau khi người dùng đồng ý với các điều khoản sử dụng cho phép dữ liệu của họ được sử dụng cho nghiên cứu sau này của LMSYS, các mô hình và các dự án liên quan, họ có thể bỏ phiếu cho câu trả lời ưa thích của họ từ hai mô hình đấu (họ cũng có thể tuyên bố quảng cáo hoặc nói 'cả hai đều tồi'), sau đó danh tính của các mô hình được tiết lộ.
Dòng chảy này tạo ra “một loạt các” câu hỏi mà một người dùng điển hình có thể hỏi về bất kỳ mô hình tạo sinh nào, các nhà nghiên cứu viết trong bài báo tháng Ba. “Với dữ liệu này, chúng tôi sử dụng một bộ công cụ thống kê mạnh mẽ [...] để ước lượng xếp hạng qua các mô hình một cách đáng tin cậy và hiệu quả mẫu.”
Kể từ khi Chatbot Arena ra mắt, LMSYS đã thêm hàng chục mô hình mở vào công cụ kiểm tra của mình và hợp tác với các trường đại học như Đại học Nhân-made Mohamed bin Zayed (MBZUAI), cũng như các công ty như OpenAI, Google, Anthropic, Microsoft, Meta, Mistral và Hugging Face để họ cung cấp các mô hình của họ cho kiểm tra. Chatbot Arena hiện có hơn 100 mô hình, bao gồm các mô hình đa ngữ cảnh (mô hình có thể hiểu dữ liệu ngoài văn bản) như GPT-4o của OpenAI và Claude 3.5 Sonnet của Anthropic.
Qua mười triệu câu hỏi và cặp câu trả lời đã được nộp và đánh giá theo cách này, tạo ra một nguồn dữ liệu xếp hạng lớn.
Thiên vị và thiếu minh bạch
Trong bài báo tháng Ba, những người sáng lập LMSYS cho rằng các câu hỏi do người dùng góp ý trong Chatbot Arena “đa dạng đủ để đánh giá cho một loạt các trường hợp sử dụng AI. “Bởi giá trị duy nhất của nó và sự thông thoáng, Chatbot Arena đã trở thành một trong những bảng xếp hạng mô hình được tham khảo nhiều nhất,” họ viết.
Nhưng kết quả này thực sự thông tin đến đâu? Đó là vấn đề cần thảo luận.
Yuchen Lin, một nhà nghiên cứu tại Viện AI Allen không lợi nhuận, cho biết rằng LMSYS chưa hoàn toàn minh bạch về khả năng, kiến thức và kỹ năng của mô hình mà họ đang đánh giá trên Chatbot Arena. Vào tháng Ba, LMSYS đã phát hành một tập dữ liệu, LMSYS-Chat-1M, chứa một triệu cuộc trò chuyện giữa người dùng và 25 mô hình trên Chatbot Arena. Nhưng vì vậy chưa cập nhật lại tập dữ liệu từ đó.
“Việc đánh giá không thể tái tạo, và dữ liệu lần cuối cung cấp bởi LMSYS khiến việc nghiên cứu về giới hạn của các mô hình trở nên khó khăn,” Lin nói.
Đến mức mà LMSYS đã mô tả cách tiếp cận kiểm tra của mình, các nhà nghiên cứu cho biết trong bài báo tháng Ba rằng họ sử dụng “thuật toán lấy mẫu hiệu quả” để đưa các mô hình vào cuộc chiến với nhau “một cách giúp gia tốc xương chỉ mục xếp hạng trong khi vẫn giữ tính hợp lý thống kê.” Họ viết rằng LMSYS thu thập khoảng 8.000 phiếu bầu cho mỗi mô hình trước khi cập nhật lại bảng xếp hạng của Chatbot Arena, và ngưỡng này thường được đạt sau một vài ngày.
Nhưng Lin cho rằng việc bỏ phiếu không tính đến khả năng của người dùng — hoặc không khả năng — để phát hiện những ảo giác từ mô hình, cũng như sự khác biệt trong sở thích của họ, làm cho việc bỏ phiếu của họ không đáng tin cậy. Ví dụ, một số người dùng có thể thích câu trả lời dài hơn, được định dạng theo cú pháp, trong khi người khác có thể thích các câu trả lời ngắn gọn hơn.
“Dữ liệu sở thích của con người được thu thập không tính đến những thiên lệch tinh subtil không,” Lin nói. “Trong khi việc xử lý sau có thể giảm thiểu một số thiên lệch này, dữ liệu sở thích của con người thô vẫn đầy nhiễu."
Mike Cook, một học giả nghiên cứu tại Đại học Queen Mary London chuyên về AI và thiết kế trò chơi, đồng ý với đánh giá của Lin. “Bạn có thể chạy Chatbot Arena vào năm 1998 và vẫn nói về việc thay đổi xếp hạng đổ sập hoặc về các chatbot của các ông lớn, nhưng chúng sẽ tệ," ông bổ sung, lưu ý rằng trong khi Chatbot Arena được xem như một thử nghiệm tỷ lệ, nó tương đương với một xếp hạng tương đối của các mô hình.
Thiên lệch khó khăn hơn đang đè chế Chatbot Arena là sự hiện diện hiện tại của cơ sở người dùng của nó.
Vì tiêu chuẩn này trở nên phổ biến gần như hoàn toàn thông qua truyền miệng trong các vòng tròn công nghệ và AI, không có lẽ nó đã thu hút một cộng đồng người dùng rất đa dạng, Lin nói. Làm mạnh lẽ cho lý thuyết của mình, các câu hỏi hàng đầu trong tập dữ liệu LMSYS-Chat-1M về lập trình, công cụ AI, lỗi phần mềm và sửa lỗi, và thiết kế ứng dụng — không phải là những điều mà bạn mong đợi người không kỹ thuật hỏi về đó.
“Phân phối dữ liệu kiểm tra có thể không chính xác phản ánh người dùng con người thực sự của thị trường mục tiêu,” Lin nói. “Hơn nữa, quy trình đánh giá của nền tảng phần lớn không thể kiểm soát, phụ thuộc chủ yếu vào việc xử lý sau để gán nhãn cho mỗi truy vấn với các nhãn điều hướng khác nhau, sau đó được sử dụng để phát triển xếp hạng cụ thể cho từng nhiệm vụ. Phương pháp này thiếu tính hệ thống cơ học, tạo ra sự khó khăn trong việc đánh giá các câu hỏi liên quan đến lý do phức tạp mục nhân chỉ dựa trên sở thích của con người.”
Cook chỉ ra rằng vì người dùng Chatbot Arena tự chọn — họ quan tâm đến việc kiểm tra các mô hình trong quá trình — họ có thể ít quan tâm hơn đến việc kiểm tra hoặc đưa các mô hình đến giới hạn của họ.
“Đó không phải là cách tốt để thực hiện một nghiên cứu nó