
- Nghiên cứu giới thiệu phương pháp mới có tên Multi-round Thinking, cho phép mô hình ngôn ngữ lớn (LLM) suy nghĩ nhiều vòng tại thời điểm suy luận, nhằm cải thiện khả năng lập luận mà không cần huấn luyện lại.
- Cách hoạt động: Sau khi LLM đưa ra câu trả lời ban đầu, mô hình được cung cấp lại prompt ban đầu kèm câu trả lời đó và được yêu cầu trả lời lại, loại bỏ các bước suy luận trung gian. Điều này mô phỏng hành vi con người khi suy nghĩ lại và sửa lỗi sai ban đầu.
- Hiệu quả được chứng minh trên nhiều mô hình như QwQ-32B, DeepSeek-R1, và các mô hình tự huấn luyện. Dữ liệu thử nghiệm được lấy từ các benchmark: AIME 2024 (toán nâng cao), MATH-500, GPQA-Diamond (hỏi đáp khó), và LiveCodeBench (lập trình).
- Kết quả thử nghiệm:
- QwQ-32B: Tăng độ chính xác từ 80,3% (vòng 1) lên 83,1% (vòng 4) trên AIME 2024.
- DeepSeek-R1: Tăng từ 79,7% lên 82,0% sau vòng 2.
- AM-Distill-Qwen-32B (mô hình tự huấn luyện): Tăng từ 72,8% lên 76,7% trên AIME.
- Các bộ dữ liệu khác như MATH-500 duy trì mức cao ~97% qua các vòng.
- Phân tích độ dài câu trả lời cho thấy: độ dài giảm dần qua mỗi vòng, từ trung bình 10.097,4 token (vòng 1) còn 6.549,5 token (vòng 4), thể hiện sự súc tích và tự tin hơn trong câu trả lời.
- Nghiên cứu về tần suất từ ngữ chỉ sự không chắc chắn (“but”, “wait”, “maybe”) và quyết đoán (“therefore”) chỉ ra: tần suất từ do dự giảm mạnh ở vòng 2, ví dụ:
- “but”: từ 68,3 còn 44,8
- “wait”: từ 67,9 còn 51,0
- “maybe”: từ 23,7 còn 15,8 => Mô hình ít do dự, diễn đạt rõ ràng hơn.
- Phân tích theo nhóm câu trả lời (đúng → đúng, sai → đúng, sai → sai, đúng → sai) cho thấy: mô hình có xu hướng quyết đoán hơn kể cả khi trả lời sai liên tiếp.
- Một thử nghiệm sơ bộ với Supervised Fine-tuning (SFT) để huấn luyện mô hình dựa trên phản hồi nhiều vòng không giúp cải thiện kết quả ngay lập tức nhưng mở ra hướng nghiên cứu mới để tối ưu hóa dữ liệu huấn luyện.
- Mô hình AM-32B sau SFT vẫn đạt cải tiến nhỏ: AIME tăng từ 72,8% lên 75,9%, nhưng LiveCodeBench giảm nhẹ.
- Nghiên cứu kết luận rằng Multi-round Thinking là một chiến lược hiệu quả, đơn giản và thực tế để cải thiện lập luận của LLM mà không cần thêm chi phí đào tạo — đặc biệt hữu ích trong các tình huống cần suy luận phức tạp như toán học và lập trình.
Phương pháp Multi-round Thinking giúp LLM cải thiện hiệu suất suy luận rõ rệt, ví dụ mô hình QwQ-32B tăng từ 80,3% lên 83,1% trên AIME 2024 chỉ sau 4 vòng suy nghĩ. Đồng thời, mô hình trở nên tự tin, súc tích hơn khi giảm đáng kể độ dài phản hồi và từ ngữ do dự. Dù huấn luyện thêm (SFT) chưa cho kết quả nổi bật, chiến lược này mở ra tiềm năng lớn để nâng cao hiệu quả của LLM trong các ứng dụng thực tiễn.
Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking
Recent advances in large language models (LLMs), such as OpenAI-o1 and DeepSeek-R1, have demonstrated the effectiveness of test-time scaling, where extended reasoning processes substantially enhance model performance. Despite this, current models are constrained by limitations in handling long… arxiv.org
Nguồn: Songai.vn
Be the first to comment