智源研究院:原生多模态世界模型Emu3发布, 实现视频、图像、文本大一统

花花2024-10-23日常分享399

10月23日下午消息,智源研究院近日宣布原生多模态世界模型Emu3发布。该模型实现了视频、图像、文本三种模态的统一理解与生成。据悉,Emu3只基于下一个token预测,无需扩散模型或组合式方法,便能把图像、文本和视频编码为一个离散空间,在多模态混合序列上从头开始联合训练一个Transformer,展现了其在大规模训练和推理上的潜力。

  在图像生成、视觉语言理解、视频生成任务中,Emu3的表现超过了 SDXL 、LLaVA-1.6、OpenSora等知名开源模型。在图像生成任务中,人类评估得分Emu3高于SD-1.5与SDXL;在视觉语言理解任务中,12 项基准测试的平均得分,Emu3领先于LlaVA-1.6与LlaVA-1.5;在视频生成任务中,VBench基准测试得分,Emu3优于OpenSora 1.2。

  下一token预测被认为是通往AGI的可能路径,但这种范式在语言以外的多模态任务中没有被证明。此前,多模态生成任务仍然由扩散模型(例如 Stable Diffusion)所主导,而多模态理解任务则由组合式的方法(例如 CLIP视觉编码器与LLM结合)所主导。智源研究院院长王仲远表示:“Emu3证明了下一个token预测能在多模态任务中有高性能的表现,这为构建多模态AGI提供了广阔的技术前景。Emu3有机会将基础设施建设收敛到一条技术路线上,为大规模的多模态训练和推理提供基础,这一简单的架构设计将利于产业化。未来,多模态世界模型将促进机器人大脑、自动驾驶、多模态对话和推理等场景应用。”

  目前,智源研究院已将Emu3的关键技术和模型开源至国际技术社区。相关技术从业者表示:“对于研究人员来说,Emu3意味着出现了一个新的机会,可以通过统一的架构探索多模态,无需将复杂的扩散模型与大语言模型相结合。这种方法类似于transformer在视觉相关任务中的变革性影响。”

相关文章

捷赛董事长顾丽丽:让每一位女性在忙碌的生活节奏中享受烹饪乐趣

捷赛董事长顾丽丽:让每一位女性在忙碌的生活节奏中享受烹饪乐趣

专题:2024中国品牌节女性论坛   “2024中国品牌节女性论坛”于5月25日-26日在北京举办。捷赛董事长顾丽丽出席并演讲。 &em...

沙特大动作!将投资19000亿元助力清洁能源!有9家中国公司入围沙特储能电池项目预选

沙特大动作!将投资19000亿元助力清洁能源!有9家中国公司入围沙特储能电池项目预选

  新能源赛道传来大消息。   据券商中国1月4日消息,沙特能源部下属的沙特电力采购公司近日公布了沙特第一组电池储...

矿业巨头市值飙升4000亿元,高毅邓晓峰“蹭”了30亿元“油水”

矿业巨头市值飙升4000亿元,高毅邓晓峰“蹭”了30亿元“油水”

  日前,百亿私募们的调仓路径曝光。   私募排排网数据显示,截至3月27日,目前一共有16家百亿私募旗下产品出现...

收费3万元起,数百学生封闭管理,武汉多家教培机构涉嫌无证办学,教育局工作人员:别交钱,有多项安全隐患

收费3万元起,数百学生封闭管理,武汉多家教培机构涉嫌无证办学,教育局工作人员:别交钱,有多项安全隐患

  2024年12月底,有艺考生家长反映,带着艺考的孩子准备在武汉进行文化课培训,发现多家培训机构动辄收费数万元,却没有办学许可,而且几百名孩子集中在一起吃住、学习。“没想到...