LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!

花花2025-09-23科普教程100

_LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!_LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!

今天,美团 LongCat 团队正式发布全新高效推理模型 LongCat-Flash-Thinking。在保持了 LongCat-Flash-Chat 极致速度的同时,全新发布的 LongCat-Flash-Thinking 更强大、更专业。综合评估显示,LongCat-Flash-Thinking 在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的最先进水平(SOTA)。

同时,LongCat-Flash-Thinking 不仅增强了智能体自主调用工具的能力,还扩展了形式化定理证明能力,成为国内首个同时具备‘深度思考+工具调用’与‘非形式化+形式化’推理能力相结合的大语言模型。我们发现,尤其在超高复杂度的任务(如数学、代码、智能体任务)处理上, LongCat-Flash-Thinking 具备更显著的优势。

目前, 该模型已在HuggingFace、Github全面开源:

LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!__LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!

领域并行强化学习训练方法

(Domain-Parallel  RL Training)

为了解决强化学习领域混合训练的稳定性问题,我们设计了一种领域并行方案,将STEM、代码和智能体任务的优化过程解耦。这一方法采用了多领域并行训练再融合的先进策略,实现模型能力的均衡提升,综合性能达到帕累托最优(Pareto-Optimal)。

LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!__LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!

异步弹性共卡系统

(Dynamic ORchestration for Asynchronous rollout -- DORA)

我们的异步弹性共卡系统(DORA)是整个训练的基石。该系统通过弹性共卡调度(Elastic Colocation)与多版本异步流水线(Multi-Version Asynchronous Pipeline)设计,在实现相较于同步RL训练框架三倍提速的同时,确保了每条样本的策略一致性。同时,系统进一步实现了高效的 KV 缓存复用,能够支撑万卡规模集群的稳定运行。

智能体推理框架

(Agentic Reasoning Framework)

为进一步提升模型的智能体推理能力,我们提出了创新性的“双路径推理框架”。该框架能够自主筛选最优查询样本,并通过自动化流程将智能体推理与工具使用相结合,使模型能够智能识别并调用外部工具(如代码执行器、API等),从而高效解决复杂任务。基于AIME25实测数据,LongCat-Flash-Thinking在该框架下展现出更高效的智能体工具调用(Agentic Tool Use)能力,在确保90%准确率的前提下,相较于不使用工具调用节省了64.5%的Tokens(从19653到6965),显著优化了推理过程的资源利用率。

形式化推理框架

(Formal Reasoning Framework)

为了克服当前开源通用大型语言模型在形式化证明任务中的不足,我们针对形式化推理设计了一套全新的基于专家迭代框架的数据合成方法,该流程利用集成了 Lean4 服务器的专家迭代框架,生成经过严格验证的证明过程,从而系统性提升模型的形式化推理能力。这一创新方法系统性地增强了模型的形式化推理能力,提高了其在学术和工程应用中的可靠性。

LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!_LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!_

LongCat-Flash-Thinking在多项权威评测中刷新纪录,在各类推理任务中均展现出持续领先的性能:

LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!__LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!

前往 https://longcat.ai/ (点击阅读原文),立即体验 LongCat-Flash-Thinking 的深度思考功能:

LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!_LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!_

相关文章

特朗普关税冲击美国货运量,评级机构下调美国港口展望至“负面”

特朗普关税冲击美国货运量,评级机构下调美国港口展望至“负面”

穆迪预测2025年,美国货运量的降幅将在7%-12%之间。 对于美国港口而言,这恐怕不是个好兆头:近期穆迪在最新研报中将美国港口2025年的展望从“稳定下调至“负面”。 该机构预测,在当前的全球贸易趋...

初中生试卷评语解析与建议

初中生试卷评语解析与建议

在批改初中生试卷的过程中,老师通常会给出一些具有指导性和鼓励性的评语,以帮助学生了解自己的学习情况并不断进步。以下是一些典型的初中生试卷评语示例: 一、表扬学生的优点 1. 你的字迹工整,卷面...

饿了么生意贷逾期了一天

饿了么生意贷逾期了一天

饿了么生意贷逾期了一天,会怎么样?详细解答来了!大家好,今天我们聊聊一个很实际也很重要的话题——“饿了么生意贷逾期了一天会怎样?”相信不少朋友都用过饿了么生意贷,尤其是做餐饮外卖生意的老板们,饿了么...

黑猫投诉2025年315特别策划收官

黑猫投诉2025年315特别策划收官

2025年政府工作报告将“大力提振消费,全方位扩大国内需求”列为全年经济工作的首要任务。在此背景下,优化消费环境、强化消费者权益保护不仅是保障民生福祉的重要举措,更是激发市场活力、促进经济高质量发展的...

创投月报 | 3月投资事件数同环比双增:康桥资本设百亿医疗健康并购基金 智谱AI一个月内三轮融资超18亿

创投月报 | 3月投资事件数同环比双增:康桥资本设百亿医疗健康并购基金 智谱AI一个月内三轮融资超18亿

据中国基金业协会数据显示,2025年3月新增登记的私募股权、创业投资基金管理人共19家,同比、环比分别激增111.1%、216.7%,创下近12个月内新高;月内已注销私募股权、创业投资基金管理人共75...

中东局势紧张叠加美元避险需求上升,美元兑加元连续三日上涨

中东局势紧张叠加美元避险需求上升,美元兑加元连续三日上涨

汇通财经APP讯——USD/CAD自周一触及1.3540的八个月低点后强势反弹,目前在1.3710一线运行,逼近1.3715附近的20日指数移动均线。市场避险情绪升温提振美元指数(DXY)上行至99....