快手Kwaipilot开源“AutoThink”大模型，深度思考不再“过度”-精选手游网

近日，快手Kwaipilot团队宣布了一项技术突破，他们开源了一款名为KwaiCoder-AutoThink-preview的自动思考大模型。这款模型是团队针对当前深度思考大模型普遍存在的“过度思考”问题，进行深入研究后取得的成果。

为了解决这一问题，Kwaipilot团队提出了一种创新的自动思考模型训练范式，并基于传统的强化学习算法GRPO，进一步研发了带有过程监督的强化学习方法Step-SRPO。这一新方法旨在提升模型在复杂任务中的表现，使其能够更加智能地应对各种挑战。

KwaiCoder-AutoThink-preview模型的最大特点在于，它融合了“思考”与“非思考”两种能力，被形象地称为“DeepSeek-V3 & R1 合体”。这款模型能够根据问题的难易程度，自动切换思考形态，从而在不同类型的任务中展现出卓越的性能。在多个评测榜单上，这款模型在“思考”和“非思考”模式下均取得了显著的性能提升，特别是在代码和数学类任务上，自动思考模式下的模型得分提高了近20分。

值得注意的是，即使在未开启思考模式的情况下，这款模型也展现出了不俗的性能。这得益于其更优的推理形态，使得模型在部分榜单中的性能有了小幅度的提升。这一发现无疑为深度学习领域带来了新的启示，也展示了Kwaipilot团队在技术研发方面的深厚实力。

据快手技术团队介绍，他们将继续基于preview版本模型进行研发，进一步增强其推理能力和支持更完善的思考中工具使用能力。同时，他们也承诺将全部技术细节和训练方法开源，为深度学习领域的研究者提供更多的参考和借鉴。这一举措无疑将推动深度学习技术的进一步发展，为人工智能领域的创新注入新的活力。

快手Kwaipilot开源“AutoThink”大模型，深度思考不再“过度”

点击排行榜

近期热点

本类最新