美团发布并开源高效推理模型LongCat-Flash-Thinking

9月22日,美团LongCat团队正式发布全新高效推理模型LongCat-Flash-Thinking。此前的9月1日,美团曾发布首个大模型LongCat-Flash-Chat。官方称,在保持了LongCat-Flash-Chat极致速度的同时,此次全新发布的LongCat-Flash-Thinking更强大、更专业。

综合评分显示,LongCat-Flash-Thinking在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。

具体来看,在通用推理能力方面,LongCat-Flash-Thinking在ARC-AGI基准测试中以50.3分超越OpenAIo3、Gemini2.5Pro等顶尖闭源模型。在HMMT和AIME相关基准测试中,超越OpenAIo3,和Qwen3-235B-A22B-Thinking等领水平相当。

在LiveCodeBench上,LongCat-Flash-Thinking以79.4分超越参与评估的开源模型,并与闭源模型GPT-5表现相当。在OJBench基准测试中也以40.7的得分接近Gemini2.5-Pro的水平。

智能体能力方面,LongCat-Flash-Thinking在τ2-Bench上以74.0分刷新开源SOTA成绩,并在包括SWE-Bench、BFCLV3和VitaBench等基准测试中展现出竞争力。

同时,LongCat-Flash-Thinking还扩展了形式化定理证明能力,被认为是国内首个同时具备「深度思考+工具调用」与「非形式化+形式化」推理能力相结合的大语言模型。

目前,LongCat-Flash-Thinking已在HuggingFace、Github全面开源,并在官网可体验。

值得一提的是,此前有媒体爆料称,LongCat-Flash最大的亮点是其训练并非在英伟达GPU上完成,而是在国产加速卡上进行。但由于一些原因,真正的硬件厂商具体名字不方便透露。对此,官方未公开回应。