3D空间计算是机器人的基本要素,是智能识别、自主决策、精确控制的基础。
本文引用地址:
3D空间计算的关键技术是“3D视觉+AI”。只有依靠AI的3D视觉和强大的算力,才可以支撑开发更智能、性价比更高的新一代机器人应用。
2024年4月,芯明副总裁周凡博士在上海“2024中国人形机器人生态大会”上,介绍了该公司在3D空间计算方面的技术及解决方案。
1 3D空间技术——人机交互的新起点
随着各种芯片、AI技术的成熟和落地,人机交互的方式也在发生变革,从过去PC时代到现在的移动时代,操控方式从键盘鼠标,到触摸屏、语音、手势识别等,这些看似小小的改变已为我们的生活方式带来了翻天覆地的变化。
现在我们正处于空间智能的时代——是对我们生活方式的又一场大变革的起点。因为3D空间计算能够实现真实物理世界和虚拟世界的融合,包括智能设备与真实世界之间的互动。
空间计算概念大概15~20年前就已经有了,专注人和机器的交互,通过机器操纵真实世界的标的物。
为了达到这个目的,芯明深耕3D空间计算技术。3D空间计算技术可用于很多行业,包括包含人形机器人/自主移动机器人在内的泛机器人、自动驾驶、智能制造以及人们的娱乐社交等,在未来几年会带来翻天覆地的变化。
2 3D空间计算的痛点及解决方案
3D空间计算的基础是机器视觉。因为机器人/人形机器人要能去理解真实的物理世界,就需要机器视觉。机器视觉技术已越来越成熟,但还有三个痛点:首先,2D视觉已经无法满足越来越复杂的终端需求,很多行业需要从2D升级到3D。其次,升级到3D以后,传统的做法是用性能较强的通用芯片或FPGA去运行软件化的3D算法。这种方法的优点是灵活性高,但也存在一些缺板:①延时、功耗、系统成本较大。②对于一些较高的性能需求,诸如低延时、高分辨率/高帧率,用常规的软件算法或FPGA很难实现。③随着很多应用对真实世界的感知越来越复杂,这些设备加在一起的价格比较昂贵。第三个痛点是适用于复杂场景的3D感知设备价格昂贵,传统的多传感器融合会大幅增加系统成本及复杂度。
因此行业的共识是:必须要完成2D到3D的技术升级,最好的方法是3D算法芯片化,因为只有从最底层的芯片去关注需求和进行创新,才能更好地去服务于应用和提高产品力。而且芯片的集成度要高,最好做成单芯片方案,把系统/机器人的需求全部在设计芯片时就开始进行考量,这样整体的解决方案才能有竞争力。
3 芯明的3D空间计算单芯片解决方案
● 芯片层面
芯明是专门做空间计算及人工智能芯片和产品设计的高科技企业,是全球少有的已大规模量产单芯片解决方案的公司,包括3D视觉感知、AI引擎、实时定位和建图的硬件引擎。
芯明的全球总部坐落于合肥,并在上海、以色列、北京和深圳设有子公司和分公司。在空间计算的专利方面,已经在美国和中国有专利保护墙,有超过110项专利。目前量产的芯片是12nm制程。
芯明在3D空间计算方面的核心竞争力是从客户的需求/终端应用场景出发,把需求带到芯片设计里。因此,芯明芯片的实时3D立体视觉感知能力很强,FHD(全高清,1080p)可以达到60帧,720p可以做到120帧。考虑到很多行业应用的需要,包括SLAM(同步定位和地图构建),芯明还做了芯片内建模块的支持方案,包括运动到显示的延时——异步时间扭曲延迟做到1 ms;而传统用 GPU进行训练去做的方案一般在20~30 ms。芯明芯片内部也自建了一个神经网络的引擎,目前量产的芯片算力可达到3.5TOPS,且功耗很低,最低可小于1 W,能够同时支持6路摄像头,这意味着从3D视觉感知角度,可以同时支持3个独立的深度流。
芯明已量产的芯片有:NU4000和NU4100,它们作为系统的协处理器,有较强的边缘计算能力,可以帮助大幅降低整个系统的成本和功耗。
NU4500是芯明即将推出的最新款芯片,预计今年年底会去做tape out。其核心算力及AI引擎将做大幅提升。对于很多应用,NU4500可以作为主控芯片来应用。
● 视觉模组
由于很多机器人客户很难直接使用芯片,为此,芯明推出了搭载其自研空间计算芯片的视觉模组,可覆盖不同的视觉范围,诸如长、中、短距离;适合不同的接口要求,诸如以太网、USB、GSM等。根据不同的应用,芯明的视觉模组可满足不同的防水防尘等级,诸如IP65、IP67等;也有不同的技术支持,可提供全套的解决方案,包括人形机器人的3D视觉感知系统、低空物流无人机、虚拟数字人(注:数字人也是真实世界和物理世界的一种转换),包括现在较为火爆的3D手持空间扫描仪、MR头显和养老终端/机器人等,芯明都能够提供端到端的全栈解决方案。
● 算法库
多年来,芯明也积累了众多算法库,它们都是基于真实的应用和解决方案,经过不断的迭代,形成可以复用的算法库,使客户可以比较快速地开发产品和推出他们的新应用。
4 人形机器人的解决方案
对于人形机器人,芯明的3D空间计算单芯片解决方案主要是从两个维度来赋能: ①帮助实现具身智能;②帮助实现更多的精细操作。
● 具身智能
对于具身智能,芯明的解决方案主要从两个方面来帮助人形机器人去更好地实现。
首先,芯明专注空间智能技术的创新和研发,能够提供高精度实时的空间计算,帮助机器人更好地去感知周围的真实世界。
在传统的语音、文本和图像等基本模态基础之上,芯明可以帮助加入3D点云的模态,从而用增强多模态的关键技术,帮助人形机器人提高智能水平和逻辑自洽,以提高机器人对物理世界的理解和判断,实现更好的认知和互动。
现在国内外研究表明,3D空间多模态大模型实现的难点是需要海量数据用作训练,对算力和训练数据要求非常高。例如,很多机器人,包括训练叠衣服、做饭、倒咖啡等,最缺乏的是一个可以用作训练的数据库。芯明拥有三维空间多模态大模型数据库,借助三维空间数据,大幅降低多模态大模型对训练数据的海量要求,大幅提高训练结果的准确度,帮助大模型的发展摆脱对算力和数据量的过度依赖,,帮助机器人针对特定应用来提高训练效果和准确度。
芯明能够提供不同的视觉子系统解决方案,例如有的安装在头部,可做前视和环视,其芯片和模组有很强的边缘计算能力,帧速率、分辨率很高,以帮助机器人在头部对周围的物理世界做3D感知和理解。
● 更精细的操作
为了帮助机器人做更精细的操作,芯明在机器人的手腕、指尖也有相应的解决方案。例如在指尖,可以提供一个定制化的超短基线的模组。芯明的空间计算技术已应用于牙科的口扫仪(牙医用来扫牙、做牙模等)。把该技术经过优化后,可应用到机器人的指尖,在帮助机器人做精细操作的同时,还能做很精确的物理距离识别和判断。
总之,针对机器人的头、手、腰和手腕,芯明有全套的视觉解决方案,帮助机器人实现更精确的操作。
5 结束语
在客户合作方面,芯明已经和国内众多人形机器人的头部企业和高校进行了深入合作。
从3D视觉系统和三维多模态大模型这两个维度,芯明可帮助机器人实现感知和识别,包括平稳的步态和精细操作。通过大模型帮助机器人更好地认识和理解真实的三维世界,去提高机器人的整体运动能力、操作能力,包括AI、类人的认知水平,助力人形机器人的发展。
转载请注明:可思数据 » “3D空间计算”助力机器人“慧眼识界”