深圳卫视《科创最前沿》视启未来专访（完整全文）

2026 年 5 月 16 日，深圳卫视《科创最前沿》栏目走进视启未来，聚焦公司与百度智能云联合发布的面向世界模型的第一视角人手 3D 对齐数据引擎 EgoTwin，并与视启未来创始人兼 CEO 张磊、联合创始人刘伟深度对话，以下是完整的采访内容。

EgoTwin引擎与具身智能.png

近一年来，全球科技力量在这场虚实交织的竞赛中迎来深刻的战略共振：图灵奖得主杨立昆离开任职 12 年的 Meta，创办 AMI Labs；“AI教母”李飞飞创立的 World Labs，于今年年初重磅推出 World API 接口，可将普通照片或视频一键转化为符合物理碰撞、可互动的 3D 空间；与此同时，中国各大创新团队不仅在世界模型基准测试 WorldArena 中频频登顶，在各垂直产业的落地探索也全面开花。

当下，在这条万众瞩目的世界模型赛道上，深圳初创企业视启未来强势突围。凭借优异的第一视角三维重建能力和高效数据扩充性能，该企业正式向具身智能的核心痛点发起冲击。

1.AI走向物理世界的瓶颈

“在过去几年的时间里面，AI 在数字世界里面取得了非常大的成功，这是标志性的。大家其实一直在期待 AI 能走到物理世界里面，因为走到物理世界的话，它的含义就是赋予 AI 一个物理形态的身体，让 AI 去完成以前只有人类能完成的一些工作，甚至能超过人类。”

张磊话锋一转：“但我们从研究的视角来看，它也碰到了非常大的瓶颈。在数字世界里面，我们很容易获取整个互联网的数据。但是在物理世界，我们基本上很难找到这个量级上相当的数据。因为数据的受限，使得这类大模型的能力也碰到了瓶颈。”

2.寻找“数据饥渴”的破局之道

互联网上的图文数据浩如烟海，大模型可轻松学会聊天，但物理世界的经验却无法凭空生成。就像人类轻易就能学会的叠衣服、擦桌子，对机器人而言，都需要极其高昂的底层交互成本。由于缺乏足够的“动手经验”，机器人大脑正面临严重的“数据饥渴”，这也迫使科研人员寻找釜底抽薪的破局之道。

张磊介绍：“我们在过去的几年时间里，一直做了很多基础性工作，包括开放环境中的物体理解、人体姿态动作理解，这些都是与世界模型高度相关的关键核心技术。”他补充道：“我们注意到国外学者杨立昆在深度学习中提出的隐式空间模型，结合行业痛点，我们意识到打造世界模型的基本条件已具备。因此，作为一支创新科研团队，我们开始加速打造这一方向的算法，希望用我们的工作为整个行业作出本质贡献。”

3.让模型真实了解物理规律

放眼全球，具身智能的军备竞赛已进入白热化。从世界模型概念的持续升温，到生成式人工智能的突飞猛进，如何让模型真正推演现实物理规律，成为破局的关键。

张磊表示：“我们想打造的世界模型，实际上是为了解决机器人与物理环境高效交互的问题。更深层次来说，我们希望打通强化学习从物理交互经验中学习的范式。”他进一步解释：“以前，比如语言模型，我们都是在打造 next token prediction（下一次词元预测），而我们打造的世界模型是 next state prediction（下一个状态预测）。虽然只有一个词的差别，但它背后的技术有着天壤之别。”

4.世界模型的核心要素

如果说传统的语言模型是在字里行间预测下一个词，那么世界模型就是在预测下一秒世界会发生什么变化。它不再停留于虚拟数字世界的一问一答，而是在重构并推演现实世界的物理逻辑。

张磊详细阐述：“为了达到这个目的，我们主张世界模型应具备三个要素，也就是以物体为中心（Object-Centric）、动作对齐（Action Aligned）和因果驱动（Causality-Driven）。以物体为中心是希望其表征具备物体理解能力，让模型从海量数据中学会背后的因果规律；动作对齐非常重要，它能让我们更高效地将人手数据与机械臂操作数据对齐，从而更充分地利用人手数据，帮助机器人更好地学会与环境交互，这也是最近行业内越来越关注的热点。”

张磊强调：“第三个因果驱动，实际上是世界模型的本质特性。因为世界模型要学习因果规律，也就是动作实施后，世界状态会发生怎样的变化。只有具备因果关系的世界模型，才能更有效地与强化学习结合，提升机器人与环境交互的智能水平。”

5.视启未来的技术优势

让机器人先认出“物体”，再看懂“动作”，最后理解两者的“因果关系”。比如手掌只有向下压住把手，紧闭的房门才会打开。这条赛道如今备受瞩目，但各家主张的技术路线不尽相同，这对团队的行业洞察力提出了极高要求。

张磊自豪地说：“在 2022 年，我们团队研发的 DINO 模型，首次将基于 Transformer 的物体检测模型做到了视觉领域性能最优，几乎影响了后续所有视觉领域物体检测的相关研究工作。”他补充道：“国外斯坦福大学李飞飞教授的团队，以及国内阿里、地瓜机器人等众多企业，都在使用我们的视觉技术。比如，看到一个人在视频中做跳舞、打拳等各类动作，我们仅通过纯视觉方法，就能还原出视频中人物的 3D 建模。”

谈及团队愿景，张磊表示：“我们的长期愿景，是打造一个通用模型，为各类机器人企业提供算法验证、收集与迭代改进的支持。”

6.EgoTwin：愿景落地的关键一步

再宏大的技术愿景，最终都要落到实处。这一次，连接理想与现实的桥梁，便是视启未来全新发布的数字引擎 EgoTwin。它能将人类习以为常的第一视角画面，转化为机器人可直接吸收的数字养分。

张磊解释：“我们在打造世界模型的过程中，强调要对齐人手与机器人这类差异较大的本体操作。EgoTwin 这个对接引擎，实际上解决了行业核心问题：在机器人数据收集时，最自然的操作就是人手，每个人用人手正常开展活动，能否只要用摄像头拍下来，就将其转化为机器人可用的数据？”

他感慨道：“这是整个行业都非常关注的问题，两年前大家还觉得这不太可能，而今年，已有很多团队朝着这个方向努力。我们希望这个数据引擎能尽快向行业开放能力输出，帮助行业加速数据收集进程、降低数据收集难度。”

7.未来的商业化方向

要让技术真正在产业里落地生根，并非一蹴而就。从无形到有形，循序渐进的产业化路径，已成为一种必然选择。

刘伟介绍：“我们的落地场景，从世界模型本身来讲，具身智能肯定是最主要的方向。一方面，我们将通过数据为市面上国内外各类大模型、具身智能公司提供‘大脑’能力；另一方面，我们也会依托世界模型打造自有本体，通过‘模型+本体’的模式，服务制造业及其他各类产业，这是我们未来的产业布局方向。”

他进一步补充：“通过 EgoTwin 的发展，我们将先打造成数据引擎，与百度智能云等伙伴合作输出数据，服务当前各类具身智能企业，助力他们打造优质机器人；随后，我们将通过数据打磨与回流优化模型，研发自有本体，最终向其他机器人公司输出本体服务。”

深圳卫视采完整视频：[点击此处]