三天前,稚晖君预告:半年期限到,周五见。短短一句,让业界沸腾。
今天他果然没让人失望。消失半年的野生钢铁侠一出场就放大招。
要让机器人帮我们做家务,该怎么办?
开篇稚晖君首次正式介绍「智元」含义。

智代表智慧,元象形成人,寓意双腿。英文名AGI+Bot,展现出不小的野心。
过去半年,ChatGPT带起LLM潮流,智元致力于打造像人一样灵活的机器人,终极目标是让智能机器人成为推动人类生产力发展的最强动力。
稚晖君提到一个常见的笑话:我们希望AI完成做饭、打扫、洗衣、倒垃圾等任务,但实际它们却在聊天、画画、写作、作曲、玩游戏……这差异令人哭笑不得。

如何让机器人真正服务于人类,帮我们做家务、挣钱,让我们有时间娱乐、创作诗歌和绘画?
这些复杂任务并非单纯硬件或软件问题,而是系统在软硬件与算法等多方面的综合协同问题。
稚晖君随后分享了团队在人形机器人本体与具身智能领域数月来的阶段性成果。




为何要制作人形机器人
每个研发人形机器人的团队,都会面临一个共同的问题:为何将机器人设计成人类的形态?
稚晖君认为,人形双足机器人是人类环境中最通用的终极形态,这是基于第一性原理得出的结论。
我们生活的物理世界,场景、设备、任务、工具都以人体形态为基准而设计。

机器人若具备类人身体结构与能力,便可自然融入人类生活和工作环境,无需改造即可协同作业,真正实现人机共融。
若机器人足够像人,便能实现人机交互、情感陪伴,甚至在危险环境中替代人类发挥巨大作用。

稚晖君当然也表示,对于特定结构化场景,其他形态机器人同样能创造实际价值。
然而,让机器人模仿人类行为,实现精细运动控制与协调,是全球性难题,需在机械设计、运动控制及感知反馈等方面取得技术突破。
莫拉维克悖论指出,机器人像棋手般思考相对简单,但具备一岁婴儿的感知运动能力却极为艰难。这揭示了人工智能在逻辑与物理间的发展差异。

智元若要攻克难关,还需在机器人硬件设计与算法积累上实现突破。
远征A1本体硬件全身拥有49+自由度,配置谐波一体关节、直线推杆、无刷行星伺服、空心杯电机等各类执行器,性能强劲。
这些执行器如同人类关节,决定了动作灵活性,对机器人而言亦然如此。

人形机器人最关键的是腿部关节装置,即电机。
智元已实现核心关节自主研发,推出PowerFlow关节电机。

一款灵活的机器人,其关节需具备体积小、重量轻、功率密度高、能量效率高及响应带宽大等特性。
这与传统轮式电机的要求有所不同。
核心关节是机器人实现规模量产与低成本制造的关键门槛之一。
经算法设计与参数正向分析,得出各关节所需力矩转数曲线。
在参数基础上,自主研发了PowerFlow关节电机,实现多项创新与优化。目前采用径向磁通外转子电机设计,未来还将推出轴向磁通版本。

为提升功率密度,关节模块在有限空间内创新集成液冷循环散热系统,实现高效冷却。
配备自研一体化矢量控制驱动器,可轻松实现超过350Nm的控制扭矩。
得益于水冷散热,可长时间维持扭矩输出。

此外,远征A1的膝盖并非像人类那样向前弯曲,而是采用了独特的反关节设计。
稚晖君表示,这款机器人的设计初衷是应用于各种实际任务场景。
目前机器人关节自由度有限,反关节设计能拓展活动空间,更利于完成工作任务。

灵巧手
智元旨在让机器人融入各类生产力场景,其关键核心部件之一便是「灵巧手」。
这款自主研发的灵巧手,具备12个主动自由度、5个被动自由度,所有驱动均内置。

为实现精密制造,团队在其指尖集成视觉传感器,可识别操作物的颜色、形状与材质。
此外,它能通过算法数据融合,实现类似触觉压力传感器的功能效果。
创新的指尖传感器视觉闭环设计,同时降低整机电机精度要求,实现末端视觉闭环控制。
除了上述元件,远征A1还配备了感知组件、算力系统和具身智能框架,实现全方位智能化。
这些部件高效组合,使其成为智慧卓越、肢体强劲的机器人开发平台。

除了硬件参数,团队在设计整机时还融入了模块化设计理念。
机器人不只有足式,还有轮式底盘,可自由搭配各种形态,未来或许会出现轮足结合的款式。
说到这里,稚晖君表示,知道大家非常关心哪吒的进展,接下来会展示相关视频。
除了上下身可组合,末端灵巧手也支持自主更换。
在特定情境中,它或许更适用于各类专业工具,如螺丝刀、电钻等。
每个核心部件均可独立或组合使用,合则为机器人,分则为众多AI机械工具。
这正体现了其通用性。

优秀的硬件平台为基础,关键在于核心运控算法的优化与提升。
历经半年研发,算法历经三版迭代:从初始的IQP,发展到CMPC与线性NMPC,如今已采用非线性NMPC,性能不断提升。
此外,当前基于各类学习方法开发的强化学习算法。
可以说,智元现已具备行业顶尖的算法研发实力。

同时,智元正在构建离线轨迹优化平台。
像波士顿动力的机器狗那样,能跳舞、跑酷等高难度动作,对智元而言也不算难题。
稚晖君称,不同于其他团队,我们希望在实现这些功能前,将机器人成本控制在20万以内,使其具备真正落地的可能。

要实现通用机器人的量产,关键仍在于突破最初的具身智能技术。
智元表示,硬件只是基础,关键在于机器人背后的AI大脑。
大语言模型技术的快速发展,让机器人自主感知环境、理解任务并完成动作编排等流程成为可能。
稚晖君认为,如今不仅需要ChatGPT,更需要WorkGPT。
大规模预训练的语图大模型,拥有语义理解、逻辑推理、图像识别及代码生成等强大能力,这已广为人知。
这些能力对在现实物理世界执行复杂任务的通用机器人至关重要。

那么,怎样借助多模态大模型的能力,实现对机器人精细动作的编排?这正是当前研究的热点方向。
这个视频之前一度非常火热。
团队完成了自然语言到机器人的端到端映射,支持用自然语言指挥机器人执行和调整任务。

智元认为,机器人与大模型结合的关键在于,语言和图像大模型在机器人应用中的最大价值在于:
首先,嵌入大模型,拥有庞大先验知识库与强大通识理解能力。
例如,指令机器人将桌上的垃圾丢入垃圾桶时,无需告知垃圾与垃圾桶的概念,因为GPT模型已通过预训练具备相关先验知识。
因此,大模型的 emergence 能使机器人将原有能力更好地扩展到更通用的场景中去。

第二点,大模型具备复杂语义多级推理能力,即所谓的「思维链」。
例如,视频右侧,要求机器人对方块执行一系列操作。

让其将蓝色方块置于红色方块之上,十分简单。若要放于红色方块之下,则复杂许多。
它要明白重力概念,懂得物体不会悬空飘浮,学会通过多步骤操作完成任务,这就是典型的多级推理思维链过程。
稚晖君认为,大模型时代来临,借助其通识与推理能力,我们看到了通往通用机器人的希望之光。
El Brain框架包括云端超脑、大脑、小脑和脑干,是机器人的核心架构。

大脑赋予AI逻辑推理与思考能力,支持机器人任务级和技能级调度,提升抽象思维水平。
以查看门口有无快递任务为例,规划路径,调度开门、关门、抓取与释放物体等具体动作来完成目标。
若端侧模型泛化不足,可结合云端超脑,实时提升复杂任务调度能力。
小脑负责生成运动控制指令。
就像人走路,大脑下达前进后退的宏观指令,小脑负责控制平衡与运动学动力学。
机器人小脑主要用于指令级控制,如设定上身姿态、调控指关节与头部运动等操作。
脑干主要解决基本运动控制能力的问题。
例如,所有电机的控制,包括电流环、速度环和位置环的调控。
在技能级模型层面,团队定义了一系列名为Meta Skill的语言操作。

Meta Skill 的发展犹如智能驾驶从 L1 进化到 L5,要实现全场景通用机器人,必然需要逐步推进,无法一蹴而就。
在语言操作库的限定范围内,机器人可自主推理决策,实现任务的端到端编排。
随着语言操作库扩展,机器可执行任务呈指数级增长。
在互动中持续成长,最终达成全场景任务的覆盖。
稚晖君认为,智元机器人既是 coolest 机器人,也是最实用的机器人。
团队从一开始就瞄准商用落地,主要聚焦工业制造领域,如3C、汽车制造等,快速推动产业化进程。
目前,已与国内相关行业的龙头企业完成对接。


生态环境建设涵盖基础设施与开发者激励两方面。
团队将为开发者提供机器人开发套件、HDK、SDK,以及基础预训练大模型、AgiROS仿生平台和低成本教育版硬件,支持开发者开展二次开发工作。
此外,将启动智元远征人才计划,招募优秀人才加入团队。

半年从无到有,初见成效。
稚晖君回顾了这半年来的心路历程。
二月底创立公司,完成项目立项与团队组建。
用半年时间完成从零到一的样机研发全过程。
稚晖君称,如此高效的研发速度,即便在整个机器人行业,也非常惊艳!

在这半年里,团队突破传统思维,跨越框架限制,尝试多项创新方案,每一步皆为全新探索。
这些图片记录了团队半年来的点滴历程。



发布会临近尾声,稚晖君分享了个人感言:人因梦想而伟大。

他期待有朝一日能实现科幻电影中那种智能化的机器人。
这些机器人不再是简单的自动设备,而是具备思考能力的智能伙伴,可以感知理解世界,与人类深度交流协作。

远征A1的发布,是智元追求卓越的开始,象征着在人工智能机器人领域的重要进展。
可借鉴的资料