首页 > 科学

美团发布并开源高效推理模型LongCat-Flash-Thinking

9月22日，美团LongCat团队正式发布全新高效推理模型LongCat-Flash-Thinking。此前的9月1日，美团曾发布首个大模型LongCat-Flash-Chat。官方称，在保持了LongCat-Flash-Chat极致速度的同时，此次全新发布的LongCat-Flash-Thinking更强大、更专业。

综合评分显示，LongCat-Flash-Thinking在逻辑、数学、代码、智能体等多个领域的推理任务中，达到了全球开源模型的先进水平（SOTA），部分任务性能接近闭源模型GPT5-Thinking。

具体来看，在通用推理能力方面，LongCat-Flash-Thinking在ARC-AGI基准测试中以50.3分超越OpenAIo3、Gemini2.5Pro等顶尖闭源模型。在HMMT和AIME相关基准测试中，超越OpenAIo3，和Qwen3-235B-A22B-Thinking等领水平相当。

在LiveCodeBench上，LongCat-Flash-Thinking以79.4分超越参与评估的开源模型，并与闭源模型GPT-5表现相当。在OJBench基准测试中也以40.7的得分接近Gemini2.5-Pro的水平。

智能体能力方面，LongCat-Flash-Thinking在τ2-Bench上以74.0分刷新开源SOTA成绩，并在包括SWE-Bench、BFCLV3和VitaBench等基准测试中展现出竞争力。

同时，LongCat-Flash-Thinking还扩展了形式化定理证明能力，被认为是国内首个同时具备「深度思考+工具调用」与「非形式化+形式化」推理能力相结合的大语言模型。

目前，LongCat-Flash-Thinking已在HuggingFace、Github全面开源，并在官网可体验。

值得一提的是，此前有媒体爆料称，LongCat-Flash最大的亮点是其训练并非在英伟达GPU上完成，而是在国产加速卡上进行。但由于一些原因，真正的硬件厂商具体名字不方便透露。对此，官方未公开回应。