当业界还在争论多模态 AI 能否真正落地,美团已悄然甩出一张
LongCat-Flash-Omni 的惊艳之处,在于其对复杂跨模态任务的精准掌控。实测显示,面对 「描述一个小球在六边形空间内的运动轨迹」 这类融合物理逻辑与空间推理的问题,模型不仅能准确建模,还能用自然语言清晰解释动力学过程。在语音识别方面,即便在高噪声环境下,它仍能精准提取语义; 面对模糊图像或短视频片段,也能快速定位关键信息并生成结构化回答。
这一切得益于其创新的端到端统一架构。不同于传统多模态模型将各模态分支独立处理再拼接,LongCat 采用深度融合设计,让文本、音频、视觉数据在统一表征空间中对齐与推理。训练过程中,团队采用渐进式多模态注入策略——先夯实语言基础,再逐步引入图像、语音、视频数据,使模型在保持语言能力的同时,稳步提升跨模态泛化性能。
更令人意外的是其
目前,该模型已在美团旗下平台免费开放,开发者可通过 HuggingFace 获取权重,普通用户则可直接在应用内试用。这一举动不仅彰显美团在 AI 底层技术上的自信,也释放出推动国产多模态生态发展的明确信号。
在 AI 竞争从 「单模态精度」 转向 「多模态协同」 的关键节点,LongCat-Flash-Omni 的出现,既是对技术边界的突破,也是对应用场景的重新定义。当外卖平台都能训练出比肩国际巨头的多模态大模型,中国 AI 的下半场,或许才刚刚开始。










