最近,国内具身智能的开源 VLM 登顶了行业之巅。2025 年以来,具身智能的行业研发力似乎也迎来了井喷式爆发。
11 月 13 日,北京人形机器人创新中心正式开源了具身智能 VLM 模型 ——Pelican-VL 1.0,根据介绍,该模型覆盖 7B、72B 参数规模,被称为 “最大规模的开源具身多模态大脑模型”。
官方资料显示,其核心优势在于深度整合海量数据与自适应学习机制:并在由 1000+ A800 GPU 组成的集群上训练,单次检查点训练耗费超过 50,000 A800 GPU - 小时;团队从原始数据中蒸馏出包含数亿 token 的高质量元数据以做训练基石。在基线基础上性能提升 20.3%,超过同级别开源模型 10.6%。根据测试,其平均性能超越 GPT-5 和 Google gemini 等闭源系列模型,成为了目前最强具身性能的开源多模态大模型 。
图片
DPPO 造就 “VLM 快速高效提升”
简单来说,Pelican-VL 就像一名刻苦钻研的学生:每次训练循环都会 “看视频 — 自主练习 — 发现错误 — 纠正提升”,这得益于北京人形开创性的运用了 “刻意练习” DPPO(Deliberate Practice Policy Optimization)训练范式。