Deep Reseach làm nổ tung thế giới với kỳ thi AI khó nhất, vượt xa ChatGPT o3-mini và DeepSeek

Kỳ thi AI khó nhất thế giới, Humanity’s Last Exam , đã được triển khai cách đây chưa đầy hai tuần và chúng tôi đã chứng kiến sự gia tăng đáng kể về độ chính xác, với ChatGPT o3-mini và hiện tại là Deep Reasoning của OpenAI đứng đầu bảng xếp hạng.

Tiêu chuẩn AI do các chuyên gia trên khắp thế giới tạo ra chứa một số vấn đề và câu hỏi lý luận khó nhất mà con người từng biết đến – khó đến nỗi khi tôi viết về Kỳ thi cuối cùng của loài người trong bài viết được liên kết ở trên, tôi thậm chí còn không hiểu nổi một câu hỏi, chứ đừng nói đến việc trả lời.

Vào thời điểm viết bài viết cuối cùng, hiện tượng thế giới DeepSeek R1 đã đứng đầu bảng xếp hạng với điểm chính xác 9,4% khi chỉ đánh giá trên văn bản (không phải đa phương thức). Hiện tại, o3-mini của OpenAI , được ra mắt vào đầu tuần này, đã đạt điểm chính xác 10,5% ở cài đặt o3-mini và độ chính xác 13% ở cài đặt o3-mini-high, thông minh hơn nhưng mất nhiều thời gian hơn để tạo ra câu trả lời.

Tuy nhiên, ấn tượng hơn là điểm chuẩn của tác nhân AI mới Deep Research của OpenAI, với công cụ mới đạt 26,6%, tăng 183% về độ chính xác của kết quả trong vòng chưa đầy 10 ngày. Bây giờ, điều đáng chú ý là Deep Research có khả năng tìm kiếm khiến việc so sánh trở nên hơi không công bằng, vì các mô hình AI khác không có. Khả năng tìm kiếm trên web hữu ích cho một bài kiểm tra như Bài kiểm tra cuối cùng của Nhân loại, vì nó bao gồm một số câu hỏi dựa trên kiến thức chung.
Nói như vậy, độ chính xác của kết quả do các mô hình lấy kết quả Bài kiểm tra cuối cùng của Nhân loại đang được cải thiện đều đặn, và điều đó khiến bạn tự hỏi chúng ta sẽ phải đợi bao lâu để thấy một mô hình AI tiến gần đến việc hoàn thành chuẩn mực. Thực tế là AI sẽ không thể tiến gần đến bất kỳ lúc nào sớm, nhưng tôi không cược là không.
Tốt hơn, nhưng 26,6% không bao giờ giúp tôi đạt được bất kỳ kỳ thi SAT nào
OpenAI Deep Research là một công cụ vô cùng ấn tượng và tôi đã bị choáng ngợp bởi những ví dụ mà OpenAI đã giới thiệu khi công bố tác nhân AI. Deep Research có thể hoạt động như một nhà phân tích cá nhân của bạn, dành thời gian để tiến hành nghiên cứu chuyên sâu và đưa ra các báo cáo và câu trả lời mà nếu không thì con người sẽ mất hàng giờ để hoàn thành.

Mặc dù số điểm 26,6% trong kỳ thi Humanity’s Last Exam thực sự ấn tượng, đặc biệt khi xét đến chặng đường mà bảng xếp hạng chuẩn mực này đã tiến xa chỉ sau vài tuần, nhưng xét về mặt tuyệt đối thì đây vẫn là số điểm thấp – không ai có thể khẳng định mình đã vượt qua bài kiểm tra nếu đạt dưới 50% trong thế giới thực.
Bài kiểm tra cuối cùng của loài người là một chuẩn mực tuyệt vời và sẽ chứng minh được giá trị vô giá khi các mô hình AI phát triển, cho phép chúng ta đánh giá được chúng đã tiến xa đến mức nào. Chúng ta sẽ phải đợi bao lâu để thấy AI vượt qua mốc 50%? Và mô hình nào sẽ là mô hình đầu tiên làm được điều đó?
Nguồn: Tech Radar

Nguồn: https://vnreview.vn/threads/deep-reseach-pha-vo-ky-luc-ve-ky-thi-ai-kho-nhat-the-gioi-bo-xa-chatgpt-o3-mini-va-deepseek.53747/