LeCun 新提案：用 CV 思路重塑语言模型，性能大幅提升！

AI 资讯
25 年 9 月 23 日
编辑

小强

在当今的人工智能领域，YannLeCun 提出的 JEPA（联合嵌入预测架构）正在重新定义大语言模型(LLM) 的训练方式。这位诺贝尔奖得主不是在批评现有的 LLM，而是亲自出手进行改造。传统的 LLM 训练方法主要依赖于输入空间中的重构与生成，如预测下一个单词，这种方法在视觉领域已被证明存在局限性。

LeCun 和他的团队认为，可以借鉴计算机视觉（CV）领域的先进技术来提升语言模型的表现。JEPA 的核心思想是通过在抽象表征空间中预测缺失的特征，以高效地学习世界知识。MetaAI 团队已经在图像和视频处理上成功应用了 JEPA，而现在，他们希望将这一理念扩展到语言模型领域。

为了填补这个空白，研究人员 HaiHuang、YannLeCun 和 RandallBalestriero 共同提出了 LLM-JEPA。这一新模型将文本和代码视为同一概念的不同视角，首次成功将 JEPA 的自监督学习架构应用于 LLM。通过结合 JEPA 在嵌入空间学习的优势，LLM-JEPA 不仅保留了 LLM 强大的生成能力，还在性能和鲁棒性上实现了双丰收。

实验证明，LLM-JEPA 在多个主流模型（如 Llama3、OpenELM、Gemma2 等）和多样化的数据集 (如 GSM8K、Spider 等) 上表现出色，显著超越了传统 LLM 训练目标。此外，它在防止过拟合方面显示出了强大的鲁棒性，为语言模型的未来发展提供了新的方向。

尽管目前的研究主要集中在微调阶段，但初步的预训练结果显示出巨大的潜力。团队计划在未来的工作中进一步探索 LLM-JEPA 在预训练过程中的应用，期待为语言模型的性能提升注入新的动力。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

LeCun 新提案：用 CV 思路重塑语言模型，性能大幅提升！

微软在 Teams 中引入 AI 助手，提升工作效率

上海成立量子人工智能联合体

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

​微软在 Teams 中引入 AI 助手，提升工作效率

​上海成立量子人工智能联合体

戴盟机器人完成亿元天使++轮融资，高分辨率触觉技术引领具身智能新突破

​Midjourney 推出新功能，标准订阅用户可生成高清视频

欧洲 AI 独角兽发布"苍蝇脑"模型！94M 参数实现离线智能对话

苹果 Xcode 即将原生集成 Claude，开发者编程体验将迎来重大升级

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

微软在 Teams 中引入 AI 助手，提升工作效率

上海成立量子人工智能联合体

Midjourney 推出新功能，标准订阅用户可生成高清视频