人形机器人落地应用难在哪:数据、硬件、算法均待提升
从实验室走向产业,当前人形机器人落地应用的最核心短板是数据严重不足。
5月29日,在2025张江具身智能开发者大会期间,一批具身智能企业探讨人形机器人产业落地困境时,不约而同提到了数据难题。数据采集难、适配难,真机数据远远不够,如何才能弥补具身智能的数据短板?

2025年5月29日,上海张江科学会堂,具身机器人达人秀表演吸引众多观众。澎湃新闻记者 朱伟辉 图
数据严重不足制约产业化落地
“如果没有数据,算法很难做。”智元机器人具身智能算法专家陈立梁表示,目前具身智能的操作等高质量真机数据“非常缺失”。去年年底,智元开源了上百万条真机数据,推动数据高质量化,希望形成采集、训练、测试、推理一体化的闭环数据路线。但陈立梁坦言,即便智元已经开源了这些数据,并且近一年中各大厂商和研究机构也在不断开源,然而目前可获得的数据还是远远不够。
光轮智能技术生态负责人甘宇飞介绍,大模型开发依赖的是二三十年里所有互联网数据,自动驾驶发展了十几年,积累了大量真实数据,但具身智能的兴起只有几年时间,积累的数据量远远无法支撑机器人的复杂行动。目前大语言模型的数据量是PB级规模,自动驾驶的数据量在百PB级规模。“自动驾驶本质上是一种特殊的具身智能,但具身智能不仅仅有驾驶场景,它还有诸如商超、居家、工厂、实验室等场景,每个场景单拎出来都需要自动驾驶这么大规模的数据,所以具身智能所需要的数据量相对于自动驾驶的百PB级又要更上一层。”
“必须用某种方式快速、低成本地弥补数据上的短板。”灵御智能CEO金戈认为,为了降低获取数据的成本,一方面要制造出相对低成本、高质量、高敏捷的本体,另一方面要将机器人更早投入到使用场景中,边使用边采集数据。
机器人的训练方式和传统机器学习不同,只有在真实物理环境中交互才能验证实际性能。仅仅通过观看以及文字模态的数据,具身智能是无法掌握像人类一样的行动技能的。
“今天的模型是否可以满足实用化需求?今天模型的成功率是否可以让机器人在现实场景中全自主工作?”金戈认为,现阶段来看仍有一定难度。他提出使用类似遥操作手段,让人类操作机器人,解决目前模型无法覆盖的部分,让机器人尽快投入使用,“就像自动驾驶汽车一样边开边收集数据,提升算法模型,降低人的参与比例,从而大幅降低数据采集成本,让机器人更快地从实验室进入产业。”
陈立梁则表示,算法层要找到更优的闭环迭代路线,“我们会投入强化学习,它可以在和真实世界的交互中学习,我们也会持续推进世界模型研究。”除了数据和算法上的闭环,陈立梁认为,还要探索测试闭环。迭代后的算法需要经历测试,但测试会造成损耗,测试成本也高,实现高效低成本的闭环评测已成为行业关注焦点。
机器人本体性能仍有提升空间
“通用机器人不光大脑要好,身体也要好。”智莱特具身智能科技有限公司CEO邓振华表示,具身智能机器人的算法层对硬件要求非常高,尤其是在实施的时效性和多模态的融合方面。“硬件如何有机结合多模态大模型,也是我们现在探讨的问题。”
邓振华表示,目前企业、高校、科研机构都在探索机器人软硬件的不同技术路线,但当前场景落地仍然不成熟,硬件成本、效率、工程化都面临挑战,机器人本体的散热、轻量化、负载、寿命、精度、运动控制路径等方面仍有较大提升空间,一些机器人进工厂时,由于负载能力不足,往往只能选择一些负载较轻的工位。他迫切希望机器人能落地防尘防爆、高温高湿等特殊场景,这对机器人硬件和算法提出了更高的要求。同时,机器人的小试、中试依托于原有产业遗留下来的工业设备,未来这些生产和测试设备也需要快速迭代升级。
当前,机器人软硬件行业标准也没有完全明确。甘宇飞表示,底层算力、模型训练、数据采集、通用场景搭建等方面都需要尽快制定标准。尤其是数据采集,相对于自动驾驶,具身智能的数据适配难度是陡增的。具身智能的本体有机械狗、机器人等不同形态,单就人形机器人而言,也有双足、轮式、双臂、单臂等形态。“每一种机器人之间的数据不一样,并且短期内可能主要是人形机器人,长期来看可能会针对一些特定任务做定制化,那时数据量又是很大的规模。”甘宇飞提到,目前机器人种类多样,每家每户都在采集数据,“但A公司采集的数据并不能给B公司用,B公司部署的模型也不能用在C公司的本体,这里面有非常多的浪费,所以要制定行业标准,提高资源利用效率。”
金戈认为,机器人有望在消费和商业场景快速落地,安全是核心问题。在模型可控性无法完全保证的情况下,强制性的安全标准是必要的。“针对机器人的保险机制应该出现,不管是机器人本体的受损,还是由于机器人操作不当造成的其他财物或身体损伤。”
无论是推动机器人在工业场景落地,还是进入居家场景,眼下算法层还需要更多创新。陈立梁表示,当前国内很多团队以跟随为主,“国外出了一个新的架构,国内就去跟随。其实目前具身智能还处于较早阶段,应该去探索更多新东西。”