今天,美团 LongCat 团队正式发布全新高效推理模型 LongCat-Flash-Thinking。在保持了 LongCat-Flash-Chat 极致速度的同时,全新发布的 LongCat-Flash-Thinking 更强大、更专业。综合评估显示,LongCat-Flash-Thinking 在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的最先进水平(SOTA)。
同时,LongCat-Flash-Thinking 不仅增强了智能体自主调用工具的能力,还扩展了形式化定理证明能力,成为国内首个同时具备‘深度思考+工具调用’与‘非形式化+形式化’推理能力相结合的大语言模型。我们发现,尤其在超高复杂度的任务(如数学、代码、智能体任务)处理上, LongCat-Flash-Thinking 具备更显著的优势。
目前, 该模型已在HuggingFace、Github全面开源:
领域并行强化学习训练方法
(Domain-Parallel RL Training)
为了解决强化学习领域混合训练的稳定性问题,我们设计了一种领域并行方案,将STEM、代码和智能体任务的优化过程解耦。这一方法采用了多领域并行训练再融合的先进策略,实现模型能力的均衡提升,综合性能达到帕累托最优(Pareto-Optimal)。
异步弹性共卡系统
(Dynamic ORchestration for Asynchronous rollout -- DORA)
我们的异步弹性共卡系统(DORA)是整个训练的基石。该系统通过弹性共卡调度(Elastic Colocation)与多版本异步流水线(Multi-Version Asynchronous Pipeline)设计,在实现相较于同步RL训练框架三倍提速的同时,确保了每条样本的策略一致性。同时,系统进一步实现了高效的 KV 缓存复用,能够支撑万卡规模集群的稳定运行。
智能体推理框架
(Agentic Reasoning Framework)
为进一步提升模型的智能体推理能力,我们提出了创新性的“双路径推理框架”。该框架能够自主筛选最优查询样本,并通过自动化流程将智能体推理与工具使用相结合,使模型能够智能识别并调用外部工具(如代码执行器、API等),从而高效解决复杂任务。基于AIME25实测数据,LongCat-Flash-Thinking在该框架下展现出更高效的智能体工具调用(Agentic Tool Use)能力,在确保90%准确率的前提下,相较于不使用工具调用节省了64.5%的Tokens(从19653到6965),显著优化了推理过程的资源利用率。
形式化推理框架
(Formal Reasoning Framework)
为了克服当前开源通用大型语言模型在形式化证明任务中的不足,我们针对形式化推理设计了一套全新的基于专家迭代框架的数据合成方法,该流程利用集成了 Lean4 服务器的专家迭代框架,生成经过严格验证的证明过程,从而系统性提升模型的形式化推理能力。这一创新方法系统性地增强了模型的形式化推理能力,提高了其在学术和工程应用中的可靠性。
LongCat-Flash-Thinking在多项权威评测中刷新纪录,在各类推理任务中均展现出持续领先的性能:
前往 https://longcat.ai/ (点击阅读原文),立即体验 LongCat-Flash-Thinking 的深度思考功能:
受损股民可至商天信息网股民维权平台登记该公司维权:关注@商天信息网证券、微信关注商天信息网券商基金、百度搜索商天信息网股民维权、访问商天信息网财经客户端、商天信息网财经首页都能找到我们! 按照申万行业...
【导读】美联储戴利表示:利率将维持不变,但今年仍可能降息。 大家周末好,简单看一则关于美联储的消息。 旧金山联邦储备银行行长玛丽·戴利表示,由于通胀风险上升,美联储可能需要比预期更长时间维持利率不变,...
会议现场 全力推动实现大中小各类企业融通发展 徐金宝在致辞时指出,中小企业作为国民经济的生力军,正在通过数字化、绿色化、智能化发展,重塑传统生产方式和产业形态,为新质生产力的培育注入源源不断的动能。...
本文针对中考语文试卷的特点,深入剖析了试卷讲评课的有效策略,旨在帮助教师提高试卷讲评课的质量,助力学生提升语文成绩。 一、试卷分析的重要性 在中考语文试卷讲评课中,要对试卷进行深入分析。这包括...
【环球网报道】据美国消费者新闻与商业频道(CNBC)、《日本时报》等媒体报道,英伟达首席执行官黄仁勋在13日播出的美国有线电视新闻网(CNN)采访中表示,美国政府无需担心中国军方会使用英伟达的芯片提高...
热点栏目 客户端 申万宏源发布研报称,预计速腾聚创(02498)2025-2027年营业收入为26.2/36.6/47.0亿元归母净利润为-2.38/1.06/3.20亿元。由于公司尚未盈利,该行采...