解锁任意步数文生图，港大&Adobe全新Self-E框架学会自我评估

尽管扩散模型（Diffusion Model）与流匹配（Flow Matching）已经把文本到图像生成（Text-to-Image, T2I）推向了更高的视觉质量与可控性，但他们通常在推理时需要数十步网络迭代，限制了其对于一些需要低延迟，Real-Time 的应用。

为了把推理步数降下来，现有路线通常依赖知识蒸馏（Distillation）：先训练一个多步教师模型，再把能力迁移到少步学生模型。但这条路的代价同样明显 —— 既依赖预训练教师，又引入了额外的训练开销，并在「从零训练（from scratch）」与「极少步高质量」之间留下了长期空白。

近日，香港大学（The University of Hong Kong）与 Adobe Research 联合发布 Self-E（Self-Evaluating Model）：一种无需预训练教师蒸馏、从零开始训练的任意步数文生图框架。其目标非常直接：让同一个模型在极少步数也能生成语义清晰、结构稳定的图像，同时在 50 步等常规设置下保持顶级质量，并且随着步数增加呈现单调提升。

论文标题：Self-Evaluation Unlocks Any-Step Text-to-Image Generation
项目主页：https://xinyu-andy.github.io/SelfE-project/
论文 PDF：https://www.arxiv.org/pdf/2512.22374

解锁任意步数文生图，港大&Adobe全新Self-E框架学会自我评估

引言：从「轨迹匹配」到「落点评估」

扩散 / 流匹配范式本质上是在学习一张「局部向量场」：给定噪声状态，预测下一步该往哪里走。这个监督信号在「小步、密集积分」时非常有效，但一旦尝试「大步跳跃」，误差会被轨迹曲率放大，生成往往滑向平均解、语义漂移或结构坍塌。

Self-E 的切入点是一个根本上的范式改变：我们能否不再执着于「每一步走得对不对」，而是把训练重心转向「落点好不好」？也就是把目标从「轨迹匹配（trajectory matching）」转变为「落点评估（destination/landing evaluation）」。

换句话说，传统 Diffusion Model 训练强调「在起点对齐局部方向」；Self-E 强调「在落点评估结果并给出纠偏方向」。监督位置的改变，带来了训练信号性质的改变：从静态监督变成动态反馈。

解锁任意步数文生图，港大&amp;Adobe全新Self-E框架学会自我评估

财经数据更多>>

解锁任意步数文生图，港大&Adobe全新Self-E框架学会自我评估