2026年,被业界定义为具身智能数据元年。然而开年仅4个月,这个最被看好的AI赛道就迎来当头一棒——高质量数据总量仅约50万小时,而行业认为,要实现真正的智能涌现,至少需要1亿小时。供需之间200倍的缺口,让人形机器人集体陷入了前所未有的数据饥荒。
一、最强AI赛道,缺养料了
4月19日,北京亦庄人形机器人半马刷屏全网。天工Ultra夺冠、宇树H1摔倒被抬走——戏剧化的场面背后,一个更核心的危机浮出水面:机器人厂商有钱买硬件,却找不到足够的数据喂给AI。
据时代周报近日报道,多家人形机器人企业负责人证实,行业内数据已呈抢购状态。大型需求方甚至直接放话:有多少要多少。一位数据供应商透露,具身数据因采集难度大、标注成本高,在黑市上价格持续攀升,1小时真实场景下的人形机器人交互数据,可卖到数万元。

与之形成鲜明对比的是,大语言模型的数据获取成本极低——迪士尼动画、电子版苏东坡词集,随手一抓就是高质量语料。但机器人的数据必须来自真实物理世界:视觉、动作、力反馈、时序决策缺一不可,采集成本呈指数级增长。
二、为什么机器人数据比GPT语料还难搞?
乐聚机器人常务副总裁柯真东总结了数据采集的五大难点:成本高、效率低、格式乱、维度杂、标准缺。每一条都直击行业痛点。
据搜狐科技日前报道,采集1万小时高质量具身数据,软硬件投入就超过百万元,还不算场地改造费用。北京人形机器人创新中心具身天工事业部负责人蒋未来坦言,真实环境千差万别,一个变量没覆盖到,算法就可能失灵。
极佳视界联合创始人朱政更是道出残酷现实:公司每年在GPU算力上投入数千万人民币,训练模型用了数十万小时数据——但这些数据大部分来自实验室,一到真实家庭场景就水土不服。更棘手的是,物理AI的数据不像文本可以无限复制复用,每一条都必须由机器人在真实场景中跑出来。
三、宇树IPO数据撕开行业真相:七成收入靠科研

缺数据,根源在于缺场景落地。
宇树科技是近期人形机器人赛道的最大热门——2025年营收17.08亿元、净利润6亿元、毛利率60.27%,人形机器人出货量5500台全球第一,还冲刺科创板IPO拟募资42亿元。成绩单看似亮眼,但仔细看结构,问题来了:2025年前三季度,宇树人形机器人收入中,科研教育相关占比高达73.6%。
换句话说,行业标杆卖了这么多机器人,七成以上买家是高校和科研机构——真正走向工厂流水线、家庭场景、商业化落地的比例,少得可怜。
这与半马上暴露的问题高度吻合:宇树H1跑得够快、跑姿够帅,但遇到真实复杂地形——坡道、转弯、地砖缝隙——依然会摔跤。实验室数据训练出来的天才,出了实验室就成了学渣。
四、英伟达、智元各显神通,谁能先破局?
面对数据荒,全球玩家都在想办法。
英伟达率先出手,推出物理AI概念和配套数据工厂参考架构,核心逻辑是:用一套标准化流程,自动生成、评估、增强训练数据,把成本和周期降下来。物理AI是AI革命的下一个前沿,其成功关键在于生成海量数据的能力。英伟达高管直言。
国内企业的路径更务实。智元联合创始人彭志辉提出token流思路——让机器人在真实环境中持续运行,每时每刻的感知、推理、决策、控制,都自动沉淀为可训练的数据。这相当于让机器人边干活边学习,把工作过程本身变成数据采集过程。
另一个重要变量是标准化。国家标准委已推动成立具身智能领域首个国际标准《人形机器人数据集》,由我国专家担任召集人。标准统一后,不同厂商的数据可以互通共享,整个行业不再各自为战,有望从源头上缓解数据孤岛问题。
五、叠衣成功率不到50%,机器人离真有用还有多远?
缺数据的代价,最终体现在产品力上。
据新浪新闻日前报道,当前人形机器人在家庭场景中的表现依然堪忧:叠衣服成功率不足50%,远低于实用门槛。触觉传感器寿命约3万次循环,而家庭场景需要百万级;多模态数据融合效率低,机器人对老人跌倒这类细微人体动作的感知和判断,依然充满误判。
更现实的问题是成本。以工业级人形机器人对标,美国产品售价高达25万美元/台,特斯拉Optimus即便是白菜价也要10万美元左右——普通工厂和家庭根本无法负担。国产性价比高,但核心零部件依然依赖进口,软件算法差距短期难以弥补。
说到底,数据饥荒只是表象。更深层的问题是:人形机器人到底要解决什么问题?谁来买单?科研教育市场撑起了行业的高增长,但撑不起真正的商业化未来。工厂要的是效率,家庭要的是可靠——这两件事,目前的数据和算法都还没能很好回答。
你觉得,人形机器人距离真正走进普通人的生活,还需要几年?是技术问题,还是应用场景的问题?
觉得有收获,就点个赞、在看,顺便收藏一下——我们下期见。
