引言
“算力霸主”英伟达(NVIDIA)创始人兼CEO黄仁勋在ITFWorld2023半导体大会上称,“具身智能”将引领下一波人工智能浪潮,引发了全球范围内对“具身智能”的关注。
具身智能的思想萌芽于人工智能诞生之初。1950年,图灵在其为人工智能奠基、提出图灵测试的经典论文《ComputingMachineryandIntelligence》的结尾展望了人工智能可能的两条发展道路[1]:“Wemayhopethatmachineswilleventuallycompetewithmeninallpurelyintellectualfields.Butwhicharethebestonestostartwith?Eventhisisadifficultdecision.Manypeoplethinkthataveryabstractactivity,liketheplayingofchesswouldbebest.Itcanalsobemaintainedthatitisbesttoprovidethemachinewiththebestsenseorgansthatmoneycanbuy,andthenteachittounderstandandspeakEnglish.Thisprocesscouldfollowthenormalteachingofachild.Thingswouldbepointedoutandnamed,etc[2].”他提出一条路径是聚焦抽象计算(比如下棋)所需的智能,另一条路则是为机器配备最好的传感器、使其可以与人类交流、像婴儿一样地进行学习。这两条道路便逐渐演变成了非具身和具身智能。
2023年5月份以来,学术界以李飞飞、姚期智、卢策吾、李德毅、郑南宁等专家学者为代表,相继发布“具身智能”相关的学术论文和演讲。产业界以谷歌、特斯拉、英伟达、META、阿里、小米等巨头公司为代表,积极跟进相关产品和技术布局。
以ChatGPT4为代表的各类大模型出现,人形机器人的再次走红,关于所谓的“具身智能”新进展井喷式涌现,在各领域中展现出的巨大吸引力,是否代表着人工智能的关键问题已经解决?现有的方法是否正确?我们需冷静下来,回归到最基础的定义和内涵上面,思考/厘清什么是“具身智能”?
一、现有具身智能的典型观点
当前,有以下几种关于“具身智能”的典型观点。
观点1:AI(大模型) 躯体(机器人)=具身智能?
“具身智能”是指能理解、推理、并与物理世界互动的智能系统。[3]
该观点认为“具身智能”是一种智能系统,具有理解、推理并与物理世界互动的功能。通常将大模型搭载在物理躯体(如机器人)上来实现,让大模型充当机器人的“大脑”,或者说给大模型“穿上机器人外衣”,将图像、文字等数据输入大模型进行联合训练,通过与世界交互的反馈结果,指导人为手工标注,以提高模型的泛化能力。
在LLM(大语言模型)、VLM(视觉-语言模型)、VNM(视觉导航模型)的加持下,人类用自然语言给机器人下达指令,可以看到语言指令对应任务的效果展示。但在执行精度要求较高的任务时,需依赖于人工参与校正,即通过人输入偏离的指令来校正机械臂,这说明该类“智能”系统对空间对象没有精细辨识能力,没有测量功能,不具备系统依据感测结果与基准信息的比较,也就无法做出自适应决策与规划的智能特性,即系统不具备一般问题求解和响应的能力。
相关资料展示出机器人智能系统“与物理世界的互动”,但互动过程显示,机器人感知对象所指“语义”是由人工标注实现的点云“视觉”信息集合,机器人大脑没有关于对象边界(虚-实交界)的有效度量信息,说明“它”没有理解物理对象,只是机械的执行人的语言指令做出一个动作进行响应。大模型是基于海量数据、在人类参与注入先验知识基础上训练出来的符号相关性网络(概率映射),无法实现物理世界中语义的“理解”。借用具身认知中“与环境交互”思想,简单的将大模型与机器人的结合来定义/理解具身智能是不能令人信服的。
观点2:人形机器人=具身智能?
“具身智能”是指身体并支持物理交互的智能体。[4]
人形机器人是具身通用人工智能最理想的身体形式。
该观点认为“具身智能”是指拥有身体的智能体,通常会让人误认为人形机器人就是“具身智能”(这个表述本身有语法错误)。马斯克推出的人形机器人Optimus(擎天柱)是典型代表,最新进展显示其可以拿捏物品、缓慢走路等,运动控制能力持续进化。Optimus(大概率)复用特斯拉FSD自动驾驶及神经网络学习技术,通过传感器(相机、激光雷达)收集数据,大规模数据集对模型训练实现识别,“智能”的实现路径与观点1中大模型路径一致,瓶颈均在于用数据训练“刷”出来的输出结果无法有效映射物理对象,在数据匮乏领域是无法应用的。
该观点着重强调“身体”,意在区别于符号主义主张智能是基于逻辑规则的符号操作运算,以及区别于连接主义主张智能是脑神经元构成的信息处理。人形机器人是未来泛通用机器人的最佳产品形态,但“具身智能”的主体形式不必要限制在外观上的“人形”,根据使用用途和场景的不同,可以有多种形态。仅有人的外观,没有实现智能本质突破的人形机器人没有灵魂。将具有身体的智能定义为“具身智能”是不正确的,也不能以身体的形式作为判断是否属于“具身智能”的依据。
观点3:卢策吾教授:“具身智能”是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。[1]
该观点认为具身智能拥有支持感知和运动的物理身体,可以进行主动式感知,也可以执行物理任务。[5]
该观点从具身性视角将智能体与环境融合在一起,强调“感知-行动回路”的重要性,即感受世界—对世界进行建模—进而采取行动—进行验证并调整模型的过程,关注身体与环境之间的互动在智能行为的产生和适应性提升中发挥的重要作用。
卢教授给出的“具身智能”的定义具有借鉴意义,但仍然将“具身智能”归结为一种智能系统。
二、“具身智能”是什么?
(1)认识论源头:“具身智能”是以具身认知为指导的人工智能,体现哲学一元认识论思想。
具身认知属于哲学和认知心理学的概念,是指人的认知和智力活动不是大脑的孤立计算,而是大脑、身体(通过感觉器官)及环境自适应交互作用的产物。
(2)生物智能的基础和渐进性:参考生物智能的本质,活体生物的细胞、器官或组织、单体生物均有不同层级智能,生物智能是“肉身”物质构造的机能。
活体生物的细胞本身是信息感知和处理器官,通过代谢过程实现物质、能量与信息的转换,完成生存、繁衍等一系列智能的表现,这构建了最低层次的智能(本能性的)。
进化到器官或组织的智能,高等动物的感觉器官(视觉、听觉、触觉等)发育的关键阶段需要自主肢体运动配合,形成具有部分认知功能的智能。
进化到更高级的人整体的智能,活动环境的扩大和复杂化,何为具身智能?对记忆和判断、决策的要求推动大脑的形成和进化,以神经系统为基础的认知功能形成。
从单细胞的智能→组织和器官的智能→高级物种整体的智能→群智能,是不断的重组和涌现的过程。进化的成果融合在遗传基因中,强化某些器官或系统,影响基因、遗传变异的来源,提高生物体生存能力。进化过程中基于少样本和低功耗,使得智力达到更高的高度,利于物种生存和亚系繁荣。
生物智能是“肉身”物质构造的机能,强调智能信息处理依赖物质构造,物质载体不可或缺。
(3)我们关于“具身智能”的定义
“具身智能”是指主体(机器)在自体、对象与环境等要素间相互作用(信息感知、转化和响应)的过程中建构符合各要素物理实存及其关系演化趋势的认知模型,达成问题解决或价值实现的人工智能方法。
具身智能是一种人工智能方法,强调智能主体在处理信息时要将关注的对象、环境以及自体均要纳入信息处理范围中。
具身智能的方法是分级的嵌套的,(类比于细胞)最基础层单元的自体物理构造与所需处理的智能任务的信息模型在数学上是同构的。例如细胞实现最低层级的智能是一个循环图、器官和组织的智能再到生物整体的智能都表现为循环分级嵌套模型。这种类似于分形理论的循环嵌套模型,将低层级的信息做压缩和抽象,这样高层级的智能循环不至于太复杂。
具身智能在认知与实践的矛盾运动中实现智能增长。智能增长是指在实践过程中整体模型的构建和优化,智能主体在感知到信息以后,经过决策、规划,要对外输出行为,这样才能够实现循环的闭环,从而在此过程中实现智能的增长。
(4)“具身智能”的任务和使命
作为一种人工智能方法,“具身智能”要解决其他方法、工具难以解决的问题,才能展现其存在价值和生命力。
1948年,维纳出版《人有人的用处》,提出“控制论”概念,1956年DARTMOUTH会议提出人工智能概念至今,人工智能科学先后发展出行为主义、符号主义、连接主义等不同的学派,用于发展“机器”智能,解决人类所关注的各种问题,取得巨大的成功。机器智能所具备的能力,应用于模拟低等生物智能、确定目标跟踪及机器自动控制、图片识认、语音识别与生成、机器翻译、视频转换以及某些专项问题的解决等方面,表现出惊艳的能力。但是,即使大模型、生成式人工智能、人形机器人掀起全球关注的今天,我们掌握的人工智能方法仍然处于弱人工智能阶段。通往高级的、与人类智能相当的人工智能方法路径是什么?这是我们关注“具身智能”的根本原因,也是“具身智能”的使命。因此,“具身智能”关键任务,在于借鉴具身认知的思想,使得机器在对象识别、工具使用、推理和规划、价值判断、语言使用等方面基本达到人类智能的水平。其中,让机器“理解”空间,实现“实物对象到信息端精细语义”的映射,是解决上述关键任务的最基础的工作。
(5)“具身智能”的关键要素
①重构映射:主体对物理实存进行镜像映射,在信息空间中基于重构映射内容的交互作用来决策和行动。
信息空间的镜像能力是“智能进行度量、评判”的基础。要对对象进行有效的认知,最好的方法就是在大脑里构建关于这个对象的逼真的模型和模型的演化,人类有效把握某个问题的关键也在于此。例如我们在现代战争中可以通过仿真模拟或沙盘模拟推演,在信息层有效映射不同要素和过程变化,使得战争指挥更有效、更高明。
重构映射中,最基础的是视觉信息的重构。基于视觉准确的感知和理解环境(包括对物体的理解、结构的理解、可操作性的理解),视觉感知与物理实存交互印证,这是具身智能实现的基础。
②认知过程的交互建构:认知是在大脑-身体-环境之间互动过程中建构或构造出来的,涌现概念并强化概念内涵,在行动中反思-反思中实践-实践中建构的螺旋上升过程。
我们的认知过程是大脑、身体、环境的互动中不断循环构造出来的,是动态的过程。例如战争中在无法摸清敌方兵力部署的情况下,采用炮火侦查的方式观察敌方反应。
③通道约束:认知受感知通道、信息[6]输出通道能力的约束。
感知通道的约束可以从两个例子来理解:一个是不同传感器下的观测结果不同,如人眼中的月亮以及使用望远镜看到的月亮是不同的;另一个是在距离过大或信息通道不够时,信息会退化,如近处的飞机可以看到详细构造,随着飞机越来越远,逐渐退化成一个点,直到消失。
信息输出通道包括动作的输出以及语言的输出,我们在认知形成过程中形成对对象世界改造的目的、计划和方式的信息,通达于实践,对世界加以改造[6]——改变物质存在的信息状态。
三、具身智能是智能科学发展的新范式
吴易明研究员在2021年学术报告[7]中提出:具身智能是智能科学发展的新范式,强调:
(1)具身智能是对已有人工智能技术路径(包括符号主义、行为主义、连接主义)的批判和提升,促进智能科学发展的升级与进步。
(2)基因[8]决定不同生物种属智能水平的高低,基因编码本质是数学性的,研究中引入现代数学成果是必要的。
生物的基因实际是一种数学编码,可以完成遗传信息的表达与传递,由基因、信息生物学决定的后天发育过程是可控的,也应该是可借助数学模型解释表征的——这需要更为抽象的现代数学工具。
(3)细胞级智能、低等生物、生物无意识行为和响应,大多服从控制论模型。
不论是生物、社会、包括物种的竞争某种意义上也服从控制论模型,“具身智能”不否定行为主义,是行为主义的延伸与提升。
(4)高级生物(动物)神经元后天发育中,自然物理规律扮演“监督”角色。
高等生物体发育出了大脑和神经系统,它的发育是与环境交互作用的结果,“学习”让生物体变得更聪明,行为变化会融入后代的基因中。生物主体基于问题求解而反作用于环境的基本循环,是高层次智能发生的必要基础。“具身智能”肯定连接主义的研究,连接主义在一定范围内是有作用的,如何划定其有效作用的范围,是科学家应该认真对待的课题,我们认为,其输入端信息空间和输出端信息空间在维度上的关系,大概是划定其有效性的关键因素。
(5)接近人类的通用人工智能,最基础的任务是实现对“物理实存对象空间及运动属性的认知模型建构”。
(6)“语言、符号、逻辑”是人类文明高级阶段的特有成果,是“人类”生物肌体映射物理世界成果的溢出和卸载,是构建高等级智能主体的基石,人类对其正确运用,依赖于有效解决哲学上的“指称”问题。
语言、符号和逻辑是人创造出来用于认识世界的工具,人实现了对对象空间属性的清晰辨识。识别实现了语义信息空间与实存对象之间的映射,是智能的基本问题。通用人工智能突破的关键点在于从技术上解决维特根斯坦提出的“指称”问题。
四、总结
“具身智能”的概念是从生物进化史、人类文明史、人的成长史的源头寻找灵感,探究智能的本质,厘清智能概念[9]的基础上凝练而成的。
概念辨析处于科学研究首要地位,为智能科学技术突破指引方向。“具身智能”是引领未来智能科学发展新的范式。其核心在于视觉智能底层技术架构的突破和应用,即解决唯一映射问题。“具身智能”强调重构映射,应用在智能机器人系统中时,视觉智能技术架构的突破使得机器人将现实的感知信息“各归其位”(数学语言到物理存在映射的唯一性),实现真正的拟人化信息处理,是机器人真正在非结构化环境中大规模落地应用的关键。这种架构最基础的成分是数学的,小样本的,而非“迷恋”大数据集、更高的算力、以及多模态等路径。
经过八年的艰苦努力,从理论研究到产品应用落地,这个过程诠释了“建构性”方法的运用,我们已经初步验证了“具身智能”方法的正确性,并且看见和感受到了“具身智能”带来突破的曙光,也看到更多的科学家涌入这个方向。我们只能依赖“人类的智能”以及人类文明的成果来研究智能的本质,“不识庐山真面目,只缘身在此山中”,这个缘由决定了研究工作必然充满艰辛,挑战诸多,但我们确信“具身智能”将开启机器智能的新阶段。
来源:具身智能机器人