LeCun 新提案:用 CV 思路重塑语言模型,性能大幅提升!

在当今的领域,YannLeCun 提出的 JEPA(联合嵌入预测架构) 正在重新定义() 的训练方式。这位诺贝尔奖得主不是在批评现有的 LLM,而是亲自出手进行改造。传统的 LLM 训练方法主要依赖于输入空间中的重构与生成,如预测下一个单词,这种方法在视觉领域已被证明存在局限性。

LeCun 和他的团队认为,可以借鉴计算机视觉 (CV) 领域的先进技术来提升语言模型的表现。JEPA 的核心思想是通过在抽象表征空间中预测缺失的特征,以高效地学习世界知识。MetaAI 团队已经在图像和视频处理上成功应用了 JEPA,而现在,他们希望将这一理念扩展到语言模型领域。

为了填补这个空白,研究人员 HaiHuang、YannLeCun 和 RandallBalestriero 共同提出了 LLM-JEPA。这一新模型将文本和代码视为同一概念的不同视角,首次成功将 JEPA 的自监督学习架构应用于 LLM。通过结合 JEPA 在嵌入空间学习的优势,LLM-JEPA 不仅保留了 LLM 强大的生成能力,还在性能和鲁棒性上实现了双丰收。

实验证明,LLM-JEPA 在多个主流模型 (如 Llama3、OpenELM、Gemma2 等) 和多样化的数据集 (如 GSM8K、Spider 等) 上表现出色,显著超越了传统 LLM 训练目标。此外,它在防止过拟合方面显示出了强大的鲁棒性,为语言模型的未来发展提供了新的方向。

尽管目前的研究主要集中在微调阶段,但初步的预训练结果显示出巨大的潜力。团队计划在未来的工作中进一步探索 LLM-JEPA 在预训练过程中的应用,期待为语言模型的性能提升注入新的动力。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

​微软在 Teams 中引入 AI 助手,提升工作效率

2025-9-20 1:23:29

AI 资讯

​上海成立量子人工智能联合体

2025-9-23 1:20:42

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索