深圳卫视《科创最前沿》视启未来专访(完整全文)

2026 年 5 月 16 日,深圳卫视《科创最前沿》栏目走进视启未来,聚焦公司与百度智能云联合发布的面向世界模型的第一视角人手 3D 对齐数据引擎 EgoTwin,并与视启未来创始人兼 CEO 张磊、联合创始人刘伟深度对话,以下是完整的采访内容。

EgoTwin引擎与具身智能.png

近一年来,全球科技力量在这场虚实交织的竞赛中迎来深刻的战略共振:图灵奖得主杨立昆离开任职 12 年的 Meta,创办 AMI Labs;“AI教母”李飞飞创立的 World Labs,于今年年初重磅推出 World API 接口,可将普通照片或视频一键转化为符合物理碰撞、可互动的 3D 空间;与此同时,中国各大创新团队不仅在世界模型基准测试 WorldArena 中频频登顶,在各垂直产业的落地探索也全面开花。

当下,在这条万众瞩目的世界模型赛道上,深圳初创企业视启未来强势突围。凭借优异的第一视角三维重建能力和高效数据扩充性能,该企业正式向具身智能的核心痛点发起冲击。

1.AI走向物理世界的瓶颈

“在过去几年的时间里面,AI 在数字世界里面取得了非常大的成功,这是标志性的。大家其实一直在期待 AI 能走到物理世界里面,因为走到物理世界的话,它的含义就是赋予 AI 一个物理形态的身体,让 AI 去完成以前只有人类能完成的一些工作,甚至能超过人类。”

张磊话锋一转:“但我们从研究的视角来看,它也碰到了非常大的瓶颈。在数字世界里面,我们很容易获取整个互联网的数据。但是在物理世界,我们基本上很难找到这个量级上相当的数据。因为数据的受限,使得这类大模型的能力也碰到了瓶颈。”

2.寻找“数据饥渴”的破局之道

互联网上的图文数据浩如烟海,大模型可轻松学会聊天,但物理世界的经验却无法凭空生成。就像人类轻易就能学会的叠衣服、擦桌子,对机器人而言,都需要极其高昂的底层交互成本。由于缺乏足够的“动手经验”,机器人大脑正面临严重的“数据饥渴”,这也迫使科研人员寻找釜底抽薪的破局之道。

张磊介绍:“我们在过去的几年时间里,一直做了很多基础性工作,包括开放环境中的物体理解、人体姿态动作理解,这些都是与世界模型高度相关的关键核心技术。”他补充道:“我们注意到国外学者杨立昆在深度学习中提出的隐式空间模型,结合行业痛点,我们意识到打造世界模型的基本条件已具备。因此,作为一支创新科研团队,我们开始加速打造这一方向的算法,希望用我们的工作为整个行业作出本质贡献。”

3.让模型真实了解物理规律

放眼全球,具身智能的军备竞赛已进入白热化。从世界模型概念的持续升温,到生成式人工智能的突飞猛进,如何让模型真正推演现实物理规律,成为破局的关键。

张磊表示:“我们想打造的世界模型,实际上是为了解决机器人与物理环境高效交互的问题。更深层次来说,我们希望打通强化学习从物理交互经验中学习的范式。”他进一步解释:“以前,比如语言模型,我们都是在打造 next token prediction(下一次词元预测),而我们打造的世界模型是 next state prediction(下一个状态预测)。虽然只有一个词的差别,但它背后的技术有着天壤之别。”

4.世界模型的核心要素 

如果说传统的语言模型是在字里行间预测下一个词,那么世界模型就是在预测下一秒世界会发生什么变化。它不再停留于虚拟数字世界的一问一答,而是在重构并推演现实世界的物理逻辑。

张磊详细阐述:“为了达到这个目的,我们主张世界模型应具备三个要素,也就是以物体为中心(Object-Centric)、动作对齐(Action Aligned)和因果驱动(Causality-Driven)。以物体为中心是希望其表征具备物体理解能力,让模型从海量数据中学会背后的因果规律;动作对齐非常重要,它能让我们更高效地将人手数据与机械臂操作数据对齐,从而更充分地利用人手数据,帮助机器人更好地学会与环境交互,这也是最近行业内越来越关注的热点。”

张磊强调:“第三个因果驱动,实际上是世界模型的本质特性。因为世界模型要学习因果规律,也就是动作实施后,世界状态会发生怎样的变化。只有具备因果关系的世界模型,才能更有效地与强化学习结合,提升机器人与环境交互的智能水平。”

5.视启未来的技术优势 

让机器人先认出“物体”,再看懂“动作”,最后理解两者的“因果关系”。比如手掌只有向下压住把手,紧闭的房门才会打开。这条赛道如今备受瞩目,但各家主张的技术路线不尽相同,这对团队的行业洞察力提出了极高要求。

张磊自豪地说:“在 2022 年,我们团队研发的 DINO 模型,首次将基于 Transformer 的物体检测模型做到了视觉领域性能最优,几乎影响了后续所有视觉领域物体检测的相关研究工作。”他补充道:“国外斯坦福大学李飞飞教授的团队,以及国内阿里、地瓜机器人等众多企业,都在使用我们的视觉技术。比如,看到一个人在视频中做跳舞、打拳等各类动作,我们仅通过纯视觉方法,就能还原出视频中人物的 3D 建模。”

谈及团队愿景,张磊表示:“我们的长期愿景,是打造一个通用模型,为各类机器人企业提供算法验证、收集与迭代改进的支持。”

6.EgoTwin:愿景落地的关键一步

再宏大的技术愿景,最终都要落到实处。这一次,连接理想与现实的桥梁,便是视启未来全新发布的数字引擎 EgoTwin。它能将人类习以为常的第一视角画面,转化为机器人可直接吸收的数字养分。

张磊解释:“我们在打造世界模型的过程中,强调要对齐人手与机器人这类差异较大的本体操作。EgoTwin 这个对接引擎,实际上解决了行业核心问题:在机器人数据收集时,最自然的操作就是人手,每个人用人手正常开展活动,能否只要用摄像头拍下来,就将其转化为机器人可用的数据?”

他感慨道:“这是整个行业都非常关注的问题,两年前大家还觉得这不太可能,而今年,已有很多团队朝着这个方向努力。我们希望这个数据引擎能尽快向行业开放能力输出,帮助行业加速数据收集进程、降低数据收集难度。”

7.未来的商业化方向

要让技术真正在产业里落地生根,并非一蹴而就。从无形到有形,循序渐进的产业化路径,已成为一种必然选择。

刘伟介绍:“我们的落地场景,从世界模型本身来讲,具身智能肯定是最主要的方向。一方面,我们将通过数据为市面上国内外各类大模型、具身智能公司提供‘大脑’能力;另一方面,我们也会依托世界模型打造自有本体,通过‘模型+本体’的模式,服务制造业及其他各类产业,这是我们未来的产业布局方向。”

他进一步补充:“通过 EgoTwin 的发展,我们将先打造成数据引擎,与百度智能云等伙伴合作输出数据,服务当前各类具身智能企业,助力他们打造优质机器人;随后,我们将通过数据打磨与回流优化模型,研发自有本体,最终向其他机器人公司输出本体服务。”

深圳卫视采完整视频[点击此处]