Lập luận AI làm tăng chi phí đánh giá hiệu năng AI

22m7Vj3nhDGSJFK7cKtp.webp

-Các phòng thí nghiệm AI như OpenAI tuyên bố mô hình AI “lập luận” có khả năng vượt trội trong một số lĩnh vực cụ thể như vật lý.

-Theo dữ liệu từ Artificial Analysis, chi phí đánh giá mô hình o1 của OpenAI trên 7 bộ đánh giá phổ biến là 2.767,05 USD.

Đánh giá Claude 3.7 Sonnet của Anthropic tốn 1.485,35 USD, trong khi o3-mini-high của OpenAI tốn 344,59 USD.

-Trung bình, các mô hình lập luận tốn kém hơn để đánh giá. Artificial Analysis đã chi khoảng 5.200 USD để đánh giá 12 mô hình lập luận, gần gấp đôi chi phí đánh giá hơn 80 mô hình không lập luận (2.400 USD).

Nguyên nhân chính khiến mô hình lập luận đắt đỏ là chúng tạo ra nhiều token hơn. Mô hình o1 của OpenAI tạo ra hơn 44 triệu token trong quá trình đánh giá, gấp 8 lần GPT-4o.

Các bộ đánh giá hiện đại thường chứa các câu hỏi phức tạp, nhiều bước, đòi hỏi mô hình tạo nhiều token hơn.

-Chi phí cho mỗi token của các mô hình tốt nhất cũng tăng theo thời gian. Claude 3 Opus có giá 75 USD/triệu token đầu ra, trong khi GPT-4.5 và o1-pro có giá lần lượt là 150 USD và 600 USD/triệu token đầu ra.

-Nhiều phòng thí nghiệm AI cung cấp quyền truy cập miễn phí hoặc được trợ cấp cho các tổ chức đánh giá, nhưng điều này có thể ảnh hưởng đến tính khách quan của kết quả.

-Các chuyên gia lo ngại về khả năng tái tạo kết quả và tính khoa học của các đánh giá khi chi phí quá cao đối với nhiều nhà nghiên cứu độc lập.

📌 Mô hình AI lập luận đang tạo ra thách thức lớn về chi phí đánh giá, với mức giá lên tới 2.767 USD cho một lần kiểm tra. Xu hướng này gây lo ngại về khả năng tái tạo kết quả và tính khoa học của các đánh giá AI trong tương lai.

techcrunch.com

The rise of AI ‘reasoning’ models is making benchmarking more expensive | TechCrunch

The rise of AI ‘reasoning’ models is making benchmarking more expensive, data from Artificial Analysis shows. techcrunch.comtechcrunch.com
Nguồn: Songai.vn​ 

Nguồn: https://vnreview.vn/threads/mo-hinh-ai-lap-luan-dang-khien-viec-danh-gia-hieu-nang-ai-tro-nen-dat-do-hon.59159/

Bài viết liên quan

About Tùng Lâm 13992 Articles
Xin chào, mình là Tùng Lâm hiện đang làm Marketer tại Web Đánh Giá, chịu trách nhiệm trong việc phát triển các bài viết trên trang web này. Mình thích chia sẻ những kiến thức công nghệ và đam mê trải nghiệm những sản phẩm mới. Cám ơn các bạn đã đọc, theo dõi mình ở những trang mạng xã hội khác nhé!

Be the first to comment

Leave a Reply

Your email address will not be published.


*