LeCun 这次不是批评 LLM,而是亲自改造。

当前 LLM 的训练(包括预训练、微调和评估)主要依赖于在「输入空间」进行重构与生成,例如预测下一个词。
而在 CV 领域,基于「嵌入空间」的训练目标,如联合嵌入预测架构(JEPA),已被证明远优于在输入空间操作的同类方法。

JEPA 的核心概念最早由 Yann LeCun 及其团队提出,旨在通过在抽象表征空间中预测未来或缺失的特征来高效学习世界知识。随后,Meta AI 团队提出了具体实现,包括 I-JEPA(用于图像、自监督学习、CVPR 2023)和 V-JEPA(用于视频),验证了 JEPA 在视觉表征学习中的有效性。
这就启发了一个新思路:语言模型的训练,能否从视觉领域获得一些启发?
此前,由于设计上的挑战,适用于语言任务的 JEPA 风格模型一直未能出现。主要原因是 LLM 的能力主要通过其生成文本来评判,这是一种输入空间的操作,使得非重构的 JEPA 思想难以直接应用。
为填补这一空白,Hai Huang、Yann LeCun 及 Randall Balestriero 提出了LLM-JEPA。这项工作基于 JEPA 理念,首次将这种高效的自监督学习架构成功地从视觉领域扩展到了 LLM。
该工作通过将(文本、代码)等数据对视为同一概念的多种视图,成功地将 JEPA 目标应用于 LLM,作为标准「文本→代码」等生成任务的有效补充。这既保留了 LLM 强大的生成能力,又引入了 JEPA 在嵌入空间学习高质量表征的优势。
