前华为“天才少年”稚晖君(彭志辉)创立的智元机器人,于3月10日正式发布全球首个通用具身基座大模型GO-1,宣告机器人进入“看视频自学”时代。该模型基于ViLLA架构(Vision-Language-Latent-Action),融合多模态大模型与混合专家技术,可让机器人通过人类视频学习技能,并适配不同形态的硬件本体。

GO-1的ViLLA架构由两大模块构成:
视觉-语言理解层(VLM):解析视频中的场景、物体和人类动作意图;潜在动作生成层(MoE):通过混合专家模型生成适配机器人本体的操作指令。对比传统机器人开发:
传统模式
GO-1模式
需编写数千行代码
输入视频即可生成指令
单一任务定制化开发
同一模型适配擦窗、搬运等多任务
硬件更新需重新训练
模型自动适配新关节、传感器
该技术已应用于智元量产的1000台机器人(含双足、轮式等形态),未来将开放给第三方开发者。
三、行业震动:机器人公司“没有大模型就没有未来”?智元具身业务总裁姚卯青直言:“不做大模型的机器人公司没有未来”,GO-1的发布引发连锁反应:
制造业:家电巨头已采购500台GO-1机器人,用于柔性生产线改造,换线效率提升4倍 ;服务业:某连锁咖啡品牌测试显示,GO-1机器人通过观看100小时咖啡师视频,可独立完成拉花动作 ;家庭场景:模型正学习育儿、养老护理等技能,未来或替代部分家政服务。四、技术狂欢下的隐忧伦理风险:机器人通过犯罪类影视剧学习可能导致危险行为,需建立视频黑名单过滤机制 ;人类隐私数据在视频训练中的使用边界尚未明确 。技术天花板:复杂环境适应性不足(如湿滑地面行走易摔倒);当前模型仅支持217种任务,距离真正“通用”仍有差距。五、具身智能将如何改变生活?稚晖君在微博预告“明天还有惊喜”,业界推测可能是:
GO-1 Pro版本:支持百万级任务库,覆盖医疗手术等专业领域;家用机器人AgiBot:定价或低于3万元,主打育儿陪护功能 。
互动话题你会购买一台“看视频自学”的机器人吗? 欢迎在评论区分享你的态度!