广发机械团队:罗立波 刘芷君 代川 王珂
引言:我们上周发布了智能机器人系列报告二,提出了服务机器人产业化是基于场景应用的,研究服务机器人产业的框架也逐步明确:应用场景+核心技术+产业链整合就会形成完整的产业,最后才会推导出作为消费品的价格、成本、渠道、模式等变量。
这次我们从核心技术的角度出发,重点解决几个问题:(1)智能机器人在应用场景下有哪些核心技术环节和核心模块?(2)目前智能服务机器人核心技术环节的现状如何?未来发展趋势和技术路线是什么?(3)有哪些公司具有优秀的技术积累?如何把握技术变革和路线更迭带来的投资机会?
核心观点:
1. 多场景特征决定了多模态交互属性,服务机器人需突破三大核心技术模块
从技术的角度来看,服务机器人的多场景属性决定了其交互方式的多元化,智能型服务机器人涉及到语音、语义分析、情感分析、动作捕捉等多个维度的交互。我们认为,要达到人机融合的程度,需要突破三方面的核心技术模块,分别是环境感知模块、人机交互及识别模块、运动控制模块。
2. 感知模块:多传感融合是未来大趋势,低成本SLAM+激光雷达是核心
服务机器人要实现智能化的交互体验,首先要具备环境感知能力。感知方式中,采用多传感融合是大趋势,包括视觉识别、结构光、毫米波雷达、超声波、激光雷达等。考虑到家庭和公共场合的应用场景,未来低成本的激光雷达+SLAM方案是不错的选择。随着商业化加快,激光雷达也有望迈向低成本化。
3. 交互模块:语音识别已达到商用门槛,语义理解亟待提升
伴随计算能力的提升,自动语音识别(ASR)识别能力越来越强。目前不少企业的语音识别错误率已经达到了实用门槛。而在语义理解方面,词法和句法基本解决,语义目前仅是浅层处理,自然语言处理仍然困难重重,未来有望伴随深度学习算法得以突破。除了语音交互方式外,图像识别算法突破也将会对语音语义交互领域形成补充。
4. 运控模块:步态和非步态,不是替代而是共生
运动控制模块增强了服务机器人的移动和运动属性,目前家用服务机器人大多以电机控制为主。从产品属性看,有步态行走和万向轮为代表的非步态行走,我们认为二者互有优劣,存在场景差异,不存在替代关系,可以共存。舵机是运控领域里比较核心的部件,对价格敏感,目前国内已经有企业突破了服务机器人专用舵机技术。
5. 其他模块:AI智能芯片通用与专用并行,操作系统领域国产系统正在孕育
芯片是是机器人的大脑,包括通用芯片和专用芯片,对于机器人来说,通用芯片和专用芯片各有千秋,未来各司其职,涉及到深度神经网络,通用芯片中GPU和FPGA在解决复杂运算上优于传统CPU。操作系统方面,目前主要以ROS和安卓系统为主,TuringOS、iBot OS等国产系统也在不断突破和孕育。
6. 投资建议
我们建议从两个角度把握投资机会:(1)关注技术型平台公司,如AI芯片、OS、语音语义、感知等环节,重点公司包括地平线、图灵、寒武纪、智臻智能、云知声、科大讯飞、思岚科技等;(2)关注在细分领域做应用开发的企业,基于特定场景整合行业资源,重点关注的公司包括康力优蓝、科沃斯、优必选、未来伙伴等公司。上市公司建议关注巨星科技、康力电梯、慈星股份、机器人、科大讯飞(广发计算机覆盖)等。
7. 风险提示
服务机器人市场需求低于预期;行业过度竞争;核心技术突破低于预期。
一、服务机器人核心技术:多模态交互技术
1智能机器人三大核心技术模块:感知+交互+运控
整个服务机器人产业建立在三大核心技术模块:人机交互及识别模块、环境感知模块、运动控制模块。依托于三大模块,机器人有基础的硬件:电池模组、电源模组、主机、存储器、专用芯片等,还有操作系统:ROS、Linux、安卓等;由硬件和操作系统构成机器人整机,整合基础硬件、系统、算法、控制元件,形成满足一定行走能力和交互能力的机器人整机;在此基础上形成各种基础应用开发,基于机器人操作系统开发的控制类APP、管理员APP和各类应用程序App等;产生的数据将有群组服务、云服务、大数据服务等。
服务机器人的交互能力、感知能力、运动能力对应三大模块。交互模块包括语音识别、语义识别、语音合成、图像识别等,相当于人的大脑;感知模块借助于各种传感器、陀螺仪、激光雷达、相机、摄像头等,相当于人的眼、耳、鼻、皮肤等;运控模块包括舵机、电机、芯片等。
服务机器人的各个细分模块中,语音模块重要性和成熟度均最高,语义模块是目前突破重点,运控模块相对重要性最弱。服务机器人三大模块可以继续细分为语音模块、语义模块、图像模块、感知模块、运控模块、芯片模块。重要性排序依次为:语音模块、语义模块、芯片模块、图像模块、感知模块、运控模块。成熟度重要性排序依次为:语音模块、图像模块、运控模块、感知模块、语义模块、芯片模块。
从技术储备上来看,人工智能是核心。目前的技术储备方面,只有语音和OCR领域具备一定的成熟度。语音和OCR领域已发展接近20年,在某些特定场景和行业已经有了一些数据基础。其他的技术包括图像识别、语义分析都还在很早期的阶段。语音领域,也是目前已知的平台类企业最大的板块。
2服务机器人多场景特征,多模态交互融合是关键
从第一代以鼠标和键盘的交互方式为特点的PC互联网,到第二代以触屏、GPS等交互方式为特点的移动互联网,再到今天以多模态人机交互方式为特点的第三代互联网,服务机器人产业,底层的逻辑就是人机交互方式的发展和演变。
随着语音交互、视觉图像交互、动作交互、脑电波交互等多模态人机交互技术的逐步发展和成熟,这些第三代人机交互方式将会深层次地改变我们日常生活的应用场景;同时,一场第三代互联网的主流终端模式和服务内容入口的竞争也在同步进行。
什么是多模态交互?多模态融合了视觉、听觉、触觉、嗅觉等交互方式,其表达效率和表达的信息完整度要由于传统单一的交互模式。人机交互是服务机器人场景化不可或缺的环节。传统的交互模式中,大多是单一单向的交互方式。人机对话中,尤其是多轮人机对话,涉及到语音理解、语义分析、情感分析、动作捕捉等多个维度。
二、感知模块:多传感融合,SLAM+激光雷达是核心
1与视觉相比,激光雷达+SLAM的方案优势突出
多传感融合保证安全,技术难点在于激光雷达。激光雷达、毫米波雷达、3D摄像头等多种传感器在功能上的冗余,保证了服务机器人的安全性和正常使用。其中激光雷达是绕不开的核心。激光雷达的原理是:通过发射n条激光利用三角测距原理(低成本方案)或TOF(Time of Flight,高成本方案)来测量周围物体与自身的距离,获得精度较高的距离信息——点云数据。
激光雷达是传感器的一种,对于服务机器人如果要实现精确的服务,满足复杂场景下的用户需求,除了精准的定位,还需要结合定位信息对环境进行识别。作为入口,激光雷达是SLAM的重要入口。
SLAM(Simultaneous Localization And Mapping)的含义是即时定位与地图构建,指的是机器人在自身位置不确定的条件下,在完全未知环境中创建地图,同时利用地图进行自主定位和导航。SLAM问题可以描述为:机器人在未知环境中从一个未知位置开始移动,在移动过程中根据位置估计和传感器数据进行自身定位,同时建造增量式地图。
自主定位导航主要应用于商场导购、自动送餐、智能仓储、安全巡逻、病床看护、除尘清扫等。自主定位导航需要三大技术:
(1)实时定位。GPS没办法用,目前GPS只能实现到半米的精度,而且实时定位的更新频率很快,需要达到10次/秒的更新频率,目前的定位技术没办法满足。定位包括相对定位和绝对定位。相对定位主要依靠内部本体感受传感器如里程计、陀螺仪等,通过给定初始位姿,来测量相对于机器人初始位姿的距离和方向来确定当前机器人的位姿,也叫做航迹推测(DeadReckoning, DR);绝对定位主要采用主动或被动标识、地图匹配、GPS、或导航信标进行定位。位置的计算方法包括有三角测量法、三边测量法和模型匹配算法等;
(2)绘制地图。导航领域是有专人绘制的,但是在家庭里面,是不可能有人来绘制地图的,家庭的家居会实时变化,所以需要机器人能在没有人工干预的情况下画图;
(3)路径规划。导航仪的核心就是路径规划,机器人绘制的地图是任何一个方向都可以走的,机器人的路径规划还包括避障和直接控制行为,导航仪是由人来决定,机器人是用算法决定的,谷歌的无人驾驶汽车,主要的工作量都在导航算法上。
以扫地机器人为例:国际上有一个标准场地,80平米,没有导航模块的一般会在40多分钟,80%的清洁率。而装上公司的SLAM模块后,10分钟就达到了95%的覆盖率。如果把视野放到其他领域,必须要非常高效的移动到目的地,这是不可绕过的技术方案。做一个简单的对比:
(1)视觉定位。定位范围是0.1-2米,无法获得地图,需要配额外的传感器才能躲避障碍物,需要合理的光源才能适应环境;稳定性比较差;
(2)如果采用激光雷达的方式,定位精度可以控制在0.01-0.1米,并且可以获得精确的地图;支持自主躲避障碍,不会产生累计误差。
激光雷达在服务机器人上的应用刚刚开始。激光雷达优点是可以实时测量周围物体和障碍物的距离,且可以测量绝大部分物体,比如谷歌无人驾驶汽车、BigDog机器人都是用不同型号的激光雷达进行人体的定位;缺点是在大雨大雪等恶劣天气中使用效果会受到影响,而毫米波雷达精度不高、视场小,但测量距离远,可以达到200米,刚好弥补了激光雷达的短板。激光雷达是“机器之眼”,能够获得周边环境的点云数据模型,现在多用于在测量中有一定精度要求的领域,或需要测量自身与人体距离的智能装备,在测量与人的距离这一功能上尚无完美替代方案。在目前主流的前沿机器人身上已经装备了激光雷达模块,如Atlas和pepper等。
2多传感融合是服务机器人感知环境的大趋势
具备移动功能的智能装备,首先要实现感知自身位置与周边物体的需求。目前,绝大多数移动式智能装备都是使用激光雷达、摄像头、毫米波雷达、超声波传感器、GPS这五类传感器或其中某几个的组合来实现自主移动功能。这五种传感器各具特征,各自有所侧重,一般在复杂系统中组合使用。而激光雷达在测量与人的距离这一功能上独占一绝,尚无完美替代方案。
激光雷达:通过发射n条激光利用三角测距原理(低成本方案)或TOF(Time of Flight,高成本方案)来测量周围物体与自身的距离,获得精度较高的距离信息——点云数据。激光雷达按照激光束的数量可以分为1线、4线、8线、16线、32线、64线激光雷达,多个激光束排列在一个竖直的平面呈不同角度发射出去,经高速旋转或电子方式形成了对于空间的三维扫描,n线激光雷达就相当于一次性打出了n个平面,激光束的数量决定了三维空间的覆盖面和点云数据的密度。
激光雷达优点是可以实时测量周围物体和障碍物的距离,且可以测量绝大部分物体,比如谷歌无人驾驶汽车、BigDog机器人、Pepper都是用不同型号的激光雷达进行人体的定位;缺点是在大雨大雪等恶劣天气中使用效果会受到影响,比如谷歌无人驾驶汽车从未在大雨大雪等恶劣条件下测试。激光雷达是“机器之眼”,能够获得周边环境的点云数据模型,现在多用于在测量中有一定精度要求的领域,或需要测量自身与人体距离的智能装备,在测量与人的距离这一功能上尚无完美替代方案。
摄像头:获得观察画面,对每一帧画面进行算法处理,能够识别物体、判断位置。摄像头必须先识别再测距,如果无法识别则无法测距。其优点在于摄像头是目前唯一能够辨别物体的传感器。
但是摄像头同时具有3个缺点:缺点一是逆光或光影复杂的地方难以使用;缺点二在于依赖于算法,能否辨别物体完全依赖样本的训练,样本未覆盖的物体将无法辨别,比如Mobileye在中国道路上应用,识别超载运货车的成功率不超过80%;缺点三在于摄像头对于行人的识别具有不稳定性,如穿着吉祥物套装或着装颜色与背景相似的人或搬运东西的人极有可能无法识别。
毫米波雷达:发射1~10毫米的电磁波,根据反射波的时间差及强度等来测量距离,汽车毫米波雷达的频段主要在24Ghz和77Ghz。其优点在于性价比较高,在很多高档轿车里都有应用;缺点是行人的反射波容易被其他物体反射波埋没,难以分辨,无法识别行人,例如采用毫米波雷达和摄像头的感知系统实现自动驾驶的特斯拉,在行人较多的闹市区会自动锁定自动驾驶功能。因此,毫米波雷达在测距领域具有较高性价比,但是其无法探测行人是一个致命弱点,只能应用于自适应巡航系统等ADAS系统。
超声波传感器:发射振动频率高于声波的机械波,根据反射波测量距离。其优点在于探测物体范围极广,能够探测绝大部分物体,且有较高稳定性;缺点是一般只能探测10米以内的距离,无法进行远距离探测。因此,超声波雷达广泛应用于倒车雷达,在自动驾驶领域常常作为短距离雷达,应用如自动泊车辅助系统。
GPS:可以获得自身相对于全局的位置信息。其优点在于技术较为成熟,能够实现在全局视角的定位功能;缺点在于无法获得周围障碍物的位置信息。具备定位功能的GPS与前几个探障类传感器往往需要搭配使用。
通过对比分析这五类位置、物体感知传感器的特性以及优缺点,我们认为:这五类传感器各具特点,能够满足不同功能,需要相互搭配组合使用,但激光雷达在精度和探测人体的稳定性上独占一绝,其在感知系统中的重要位置难以被撼动和逾越。但是激光雷达也有其最大的缺陷,能判断障碍物,但是不能识别障碍物,因此也无法对障碍物进行理解。在机器人的感知领域,除了要探测到障碍物,还需要进行障碍物识别,因此,在整个过程中,还需要加载深度图像识别与其配合。共同完成对环境的感知。
3国内外服务机器人感知模块案例分析
波士顿动力致力于研究人工智能仿真,具有高机动性、灵活性和移动速度的先进机器人,公司于2014年被谷歌收购。该公司一个知名产品——BigDog机器人是一个可以走、跑、爬并搬运重物的越野机器人,其外形是根据狗的外形设计的,BigDog的四条腿可以吸收冲击以回收能量。BigDog机器人拥有超高的稳定性和协调性,能在路况糟糕的野外、山地流畅地行进,并且在受到诸如冲撞、脚踢等外力冲击时能够做出反应防止跌倒。
BigDog机器人的头部配置了一台德国西克提供的一线激光雷达,作用是在有人引领BigDog的时候,定位领路人产生转向信号并与领路人保持一定的距离。
波士顿动力Atlas机器人
波士顿动力在2016年2月公布了公司的最新产品人形机器人Atlas的视频,视频中Atlas进行了户外不平整道路的行走、自主定位并搬运盒子、自主稳定和自主站立等任务。虽然功能上还不够完美,但其超强的站立、行走、搬运重物后的协调稳定性基本上已经奠定了人形机器人的新高度。
关于Atlas的技术波士顿动力并没有给出官方资料,不能确定Atlas在野外的行走是远程操控还是自主避障,但是根据视频内容和各种网络媒体的解读,首先可以确定的是Atlas头部安装了激光雷达和立体视觉系统(多目摄像头),激光雷达可能和BigDog机器人一样用于跟随引路人,也可能用来自主避障,或是两者兼具;立体视觉系统用来识别二维码,也可能用来自主避障,或是两者兼具。
可编程仿人型机器人NAO
NAO是法国Aldebaran Robotics研发的人形机器人,国内优秀机器人公司优必选的Alpha系列从外形上与NAO颇为相似,优必选也和AR公司合作过,负责NAO的中文系统的开发。用AR公司自己的描述,“NAO是一个惹人喜爱、具有互动性的、能够个人定制的机器人伙伴”,NAO硬件功能齐备,背后还要强大的应用编程平台,能够根据不同的使用需求定制化机器人的特殊功能。最近热门的情感交互型机器人Pepper就是AR公司在NAO的基础上,与软银集团合作设计生产的。
相比于波士顿动力的机器人未来可能会应用于工业、军事领域,NAO机器人未来更多可能会应用在教育、娱乐领域,NAO头部的两个眼睛一个发射激光一个接收反射激光,组成激光雷达,此外额头和嘴分别安装了一个摄像头。
情感交互型机器人Pepper
日本软银和法国Aldebaran Robotics合作开发的情感交互型机器人Pepper,首发1000台1分钟之内就被日本消费者抢购一空。Pepper也配备了多种传感器以实现人机交互的功能:摄像头、红外传感器用来识别人面部表情特征判断使用者情感;位于双眼的固定式激光雷达(激光测距仪)用来在行进的过程中测量障碍物和使用者,并与使用者保持合适的距离;麦克风用来接受使用者的语音信息;触觉传感器用来感受使用者的接触等。
其他自主移动式智能装备
除无人驾驶汽车以及上述智能装备以外,激光雷达在多种移动式智能装备上也起着举足轻重的作用。如激光导航扫地机器人、激光导航AGV小车以及自主移动式手术工具平台等创新型自主移动式智能装备,都是建立在激光雷达测距建模的基础之上,实现了自主移动的功能。
其中,由于扫地机器人面向消费市场,相同品牌下的激光导航扫地机器人和无任何导航方式的随机碰撞式扫地机器人相比,价格一般贵出80%-150%,其普及过程与成本降低的进程高度相关。但路径规划式扫地机器人无论是从清洁效率或清洁质量上都比随机碰撞式扫地机器人高出很多,是未来扫地机器人发展的方向。激光导航技术与同属于路径规划类技术的GPS技术和视觉技术相比,激光导航技术在综合能力上还是略占上风。
4激光雷达迈向产业化,有望打破价格瓶颈
激光雷达的应用领域很广泛,未来所有的智能设备,一旦涉及环境感知,都需要利用激光雷达。目前国际上领先的生产激光雷达的厂商主要有Velodyne、Quanergy、Ibeo、西克(SICK)、北阳机电(Hokuyo)等。其中西克和北阳机电的激光雷达是二维激光雷达,主要用于工业领域和安全防护领域,其他三个厂商生产的激光雷达一般用于三维测距。Velodyne、Quanergy的激光雷达主要用于无人驾驶汽车,Ibeo的激光雷达受限于线型和精度,主要应用于ADAS系统。这三家激光雷达厂商都已经和一些无人驾驶汽车研究机构、车厂或Tier 1的汽车供应商建立了合作关系。Velodyne已经和福特建立了合作关系,并且谷歌无人车、百度无人车和一些高校的无人驾驶汽车研究团队都使用的Velodyne公司的产品;Quanergy已经和汽车电子系统TIER 1供应商德尔福展开合作;Ibeo也与汽车电子系统TIER 1供应商法雷奥有合作关系。
在国外,激光雷达已经成为民用领域的“宠儿”,但市场份额大多被诸如瑞士Leica、加拿大Optech、奥地利Riegl、美国Trimble等老牌测绘企业占据。
相比于国外企业已经具有相对成熟的成型产品,且已经和相关公司展开合作,国内公司在激光雷达的研发和生产上则只是刚刚起步。目前,国内研发生产激光雷达的公司主要有3家:华达科捷和欧镭激光(都是巨星科技子公司)、镭神智能、思岚科技、北醒光子。
激光雷达的下游应用领域核心是无人驾驶汽车、服务机器人、无人机和工业测绘领域等。从目前全球激光雷达企业的下游应用领域分布来看,居多的仍然是智能汽车和机器人领域,传统的测绘领域中,也有一批3D激光扫描仪的企业,转型向更具成长性的机器人和无人驾驶领域。
2016年有望迎来激光雷达的发展元年。按照目前的发展速度,激光雷达率先放量的领域是扫地机器人,核心原因在于扫地机器人的第一代产品已经非常成熟,拥有了核心的用户市场。随着2016年市场上核心厂商都开始加装激光雷达,扫地机器人领域的激光雷达需求有望率先爆发。其次为无人机、室内服务机器人、AR增强产品和无人驾驶汽车。根据我们草根了解的情况,目前国内扫地机器人领域主要的厂商,在新一代的产品中,都利用激光雷达的方式替换了传统的随机碰撞式扫地机器人。科沃斯、银星智能等国内品牌也都开始研发带自动导航系统的产品。
目前, 全世界仅有日本、德国等少数几个企业有能力生产激光雷达,但其价格都不低,百度、谷歌无人汽车采用的激光雷达,成本在2-8万美元,价格几乎与汽车本体相当,一般服务机器人很难承受如此昂贵的元器件。
影响激光雷达价格的主要有两大要素:线束数量和采购量。通常线束越高,激光雷达的价格越高。采购量越大,价格越低。Quanergy公司通过降低线束维度,逐步使用固态激光雷达,让成本降低到了250美元左右,国内企业思岚科技,可以在采购量超过1万台左右的量时,单线束的价格可以降低到1000元以内。随着终端用户的产品放量,激光雷达的产业化将会带动价格打破瓶颈区域。
三、交互模块:语音达商用门槛,语义理解亟待提升
1智能语音技术已经达到商用门槛
语音语义发展历经三阶段,规则阶段进展甚微,统计阶段第一次爆发,深度学习是第二次爆发。20世纪50年代到70年代,在语音识别领域由规则主导,瓶颈无法破除发展缓慢,IBM几百个词70%的识别度;20世纪70年代到20世纪末,发展迅速,统计与规则角力,并逐步解决语音识别、词性分析、句法分析问题;21世纪初,由于计算能力增强语音技术有了重大突破,2006年至今,深度学习继续在语音识别领域完善。
自动语音识别(ASR)从规则到统计再到深度学习,识别能力越来越强。自动语音识别技术(Automatic Speech Recognition)是一种将人的语音转换为文本的技术。由于语音信号的多样性和复杂性,语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别的总体过程是:语音输入,然后前处理得到数字信号,再进行声学特征的提取,进行模式匹配,处理后得到结果。技术流程是:先对静音切除,再进行声学特征提取,然后对其进行分帧,得到多维向量表达的若干帧,再把帧识别为状态(难点),每三个状态合组合为1个音素,再把因素组合为单词。
自动语音识别错误率目前已达到商用门槛。国际上公认衡量自动语音水平的参数为语音识别错误率(WER),人类的语音识别错误率为4%,目前商用语音系统的WER在15%左右,达到了实用门槛。国际上占据全球市场60%份额的第一大语音公司Nuance为包括苹果在内的财富100强公司的三分之二的公司提供语音技术服务,其WER在10%左右。Google依靠强大的深度学习,在2015年率先将WER降低至8%。国内语音实力最强的科大讯飞也达到了15%的使用门槛,针对会议演讲等场景达到5%以上的识别率,特别在针对中文部分方言也达到了实用门槛。
2语义理解仍需时日,静待深度学习算法突破
自然语言处理(NLP):词法和句法基本解决,语义目前仅是浅层处理。NLP分析技术大致分为三个层面:词法分析、句法分析和语义分析。
1)词法分析
词法分析包括分词、词性标注、命名实体识别和词义消歧。分词和词性标注好理解。命名实体识别的任务是识别句子中的人名、地名和机构名称等等命名实体。每一个命名实体都是由一个或多个词语构成的。词义消歧是要根据句子上下文语境来判断出每一个或某些词语的真实意思。
2)句法分析
句法分析是将输入句子从序列形式变成树状结构,从而可以捕捉到句子内部词语之间的搭配或者修饰关系,这一步是NLP中关键的一步。目前研究界存在两种主流的句法分析方法:短语结构句法体系,依存结构句法体系。其中依存关系句法体系现在已经成为研究句法分析的热点。依存语法表示形式简洁,易于理解和标注,其可以很容易的表示词语之间的语义关系,比如句子成分之间可以构成施事,受事,时间等关系。这种语义关系可以很方便的应用鱼语义分析和信息抽取等方面。依存关系还可以更高效的实现解码算法。句法分析得到的句法结构可以帮助上层的语义分析,以及一些应用,例如机器翻译、问答、文本挖掘、信息检索等。
3)语义分析
语义分析的最终目的是理解句子表达的真实语义。但是用什么形式来表示语义一直没有能够很好的解决。语义角色标注是比较成熟的浅层语义分析技术。给定句子中的一个谓词,语义角色标注的任务就是从句子中标注出这个谓词的施事、受事、时间、地点等参数。语义角色标注一般都在句法分析的基础上完成,句法结构对于语义角色标注的性能至关重要。
自然语言处理难点:词义消歧是瓶颈,中文相对英文更难。之一:切词,中英文自然语言处理都有一个先行环节,就是把输入的字符串分解成为词汇单位;之二:词类标注;之三:语法理论;之四:词义消歧。
自然语言处理未来的解决方式:深度学习。自然语言处理未来将依靠深度学习,具体在三个方面:词嵌入、基础模型、应用。这一部分的解决方式与图像识别类似,具体内容将在下面图像识别处继续说明。
3图像识别对语音语义交互领域形成补充
图像识别系统的过程分为五部分:图像输入、预处理、特征提取、分类和匹配。人类感觉信息中的80%都是视觉信息。图像识别是计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。识别过程包括图像预处理、图像分割、特征提取和判断匹配。简单来说,图像识别就是计算机如何像人一样读懂图片的内容。借助图像识别技术,我们不仅可以通过图片搜索更快的获取信息,还可以产生一种新的与外部世界交互的方式,甚至会让外部世界更加智能的运行。
图像识别的应用领域非常广泛。从工业视觉到人机交互,从视觉导航到虚拟现实,从安全领域到医学图像,从自动解释道遥感分析,这些在未来服务机器人身体上都是非常重要的功能。
印刷/手写字体OCR识别技术早已成熟,自然条件下OCR技术在十年前是难题。20世纪90年代,平板扫描仪对印刷体文本的识别率已经达到99%以上,谷歌还申请了图书扫描专利,除此之外手写字体的识别也被广泛用于邮件分类、支票分类、手写表格数字化等领域。但是在2004年300万像素的智能手机诞生后,人们发现手机拍摄的自然条件下的文字识别率大大降低,即使是印刷字体也只能达到60%-70%的识别率。
近年来自然条件下OCR识别率不断提高,微软取得突破性进展。经过技术不断突破,业界识别精度达到80%,召回率达到67%。在2014年8月斯德哥尔摩举办的国际模式识别大会(ICPR)上,微软亚洲研究院团队将自然条件下文字识别精度提升到92.12%,召回率提升至92.32%,基本达到商用门槛值。
图像识别准确率不断提高,但是仍无法满足商用要求。ImageNet图像分类大赛:以计算机视觉领域“奥林匹克竞赛”之称的ImageNet对象分类为基准。比赛设置:1000类图像分类问题,训练数据集126万张图像,验证集5万张,测试集10万张。2012,2013,2014均采用了该数据集。评价标准采用top-5错误率,即对一张图像预测5个类别,只要有一个和人工标注类别相同就算对,否则算错。近年来识别准确率不断提高,但仍在自然条件下表现不好,仍无法满足商用要求。
未来图像识别门槛值突破将依靠深度学习。图像识别技术并不完善,仍然面临许多困难。图像识别的问题,目前是学术界研究的热点,这类AI问题将从三个方面去着手解决:首先是计算能力,通过CPU、GPU、分布式架构等提高计算能力,然后是大数据,数据量越多,一般来说越有利于机器学习,还有算法,目前主流的算法是深度学习的CNN算法和RNN算法。
四、运控模块:步态与非步态,不是替代,而是共生
1液压已突破瓶颈,电机控制有待提升
服务机器人运动的控制,有液压控制和电机控制两种方式。Alphabet的子公司Boston Dynamics研发的Atlas是液压控制的典型代表,2016年2月,其利用3D打印技术将液压元件嵌入身体,通过液压控制采用力矩控制的算法,实现了雪地行走和摔倒爬起等动作,技术复杂但是非常成功。而本田公司的Asimo采用经典的ZMP算法,自2000年来第一次亮相至今,经过不断发展已经实现了基本的弯腰、握手、跳舞等功能,但是在控制精度和稳定性方面仍然有待提高。虽然如此,因为液压控制的体积大等原因,在军事应用方面前景较好,但是在家庭应用领域,电机控制将是主流。
步态行走侧重于精准控制,非步态行走主要是简单移动。从外观来看,服务机器人的行走方式有两种,步态和非步态。步态行走包括液压控制和电机控制,在电机控制中,在关节的位置处,有一种典型的舵机,因其精巧的体积和合适的扭矩非常适合用在服务机器人的关节处控制,同时舵机也是机器人硬件的主要成本之一,典型的带有舵机的机器人:国外是Nao机器人、Asimo机器人和Atlas等,国内典型是优必选;非步态行走主要是电机控制,结构较为简单,主要是在机器人底部装上万向轮,供其简单移动,一般的万向轮成本很低,只有几十元,非步态的典型机器人代表是:国外是Pepper,国内是康力优蓝。
2运控模块中,舵机是核心部件
舵机是步态服务机器人的核心部件,舵机对价格十分敏感。舵机也叫伺服电机,包含了电机、传感器和控制器,是一个简单而完整的伺服电机系统。最早用于船舶上实现其转向功能,由于可以通过程序连续控制其转角,可以得到比较精准的位置、速度或力矩输出,因而广泛用于机器人各类关节运动中。步态机器人自由度(关节数)众多,优必选Alpha1S有16个自由度,本田Asimo第三代有57个自由度,步态机器人对舵机价格十分敏感。
目前在服务机器人舵机领域,最流行的品牌是韩国Robotis的Dynamixel系列。舵机功率(角速度X扭矩)相同时,角速度与扭矩成反比。舵机的功率和舵机的尺寸比值可以理解为该舵机的功率密度,一般同样品牌的舵机,功率密度大的价格高。对于服务机器人舵机的核心参数扭矩更是如此,随扭矩增加,价格增长飞快。比如Dynamixel系列中,扭矩12 kg?cm的价格约400元,扭矩28 kg?cm价格约2000元, 扭矩106 kg?cm价格约4000元。
国外舵机价格昂贵,国内优必选公司突破技术壁垒降低成本。优必选开发的舵机内置MCU系统,自主改进PID算法,扭矩大,体积小,控制精度高,获得多项发明专利。6.5V时扭矩为8kg?cm,速度为0.238sec/60°,价格约20元,参数相似的舵机,特别是扭矩相似的国外产品,价格往往在优必选舵机的3倍以上。
五、其他模块:AI智能芯片与机器人操作系统
1AI智能芯片:通用与专用并行,各司其职
通用芯片向深度神经网络方向发展如火如荼。传统的CPU是计算机的核心,在图形处理和深度神经网络的计算上,GPU表现出更强的性能,而2015年Intel收购Altera的主要产品FPGA即现场可编程门阵列性能更加优异,中端FPGA能够实现375 GFLOPS的性能,功耗仅为10-20W,和CPU和GPU相比,FPGA在深度神经网络(DNN)预测系统中性能更加出色。DNN系统用于语言识别、图像搜索、OCR、面部识别、网页搜索以及自然语言处理等各种不同应用。相同功率时,在32线程下,FPGA的速度/功耗比约为CPU的42倍,约为GPU的25倍。
专用芯片以智能算法和仿生两条主线并行。专用芯片又称为“人工智能芯片”“神经网络芯片”等,目前专用芯片有两种思路:以智能算法为主线和以仿生为主线,两者的典型代表分别为寒武纪、IBM TureNorth。寒武纪1号的主频可以达到0.98GHz,处理速度相当于同等面积下CPU的100倍。即便与最先进的GPU相比, 寒武纪1号的人工神经网络处理速度也不落下风,而其面积和功耗远低于GPU的1/100。IBM在复杂性和使用性方面取得了突破。4096个内核,100万个 “神经元”、2.56亿个 “突触”集成在直径只有几厘米的方寸之间,能耗不到70毫瓦。
通用芯片和专用芯片各有千秋,未来将是并存局面。芯片是指内含集成电路的硅片,是机器人的大脑。芯片包括通用芯片和专用芯片,通用芯片不限使用领域,而专用芯片一般为专门为服务机器人定制。对于机器人来说,由于涉及到深度神经网络,故在计算量上将会更大,通用芯片中GPU和FPGA在解决这问题上优于传统CPU,扩展性和移植性较好,但是软件复杂度和开发周期较高;相比之下,专用芯片能实现更高的效率和更低的功耗,但是目前整体处于研发阶段,根据目前的资料,虽然其扩展性和软件移植性不如通用芯片,但是软件复杂度和开发周期优于通用芯片。两种芯片各有千秋,未来预计是并存局面。
2两大主流操作系统之外,国产系统正在孕育
全球机器人主流操作系统是安卓和ROS,两者均基于linux内核。安卓由Google公司开发,在商用领域有广泛应用,占据智能手机和平板电脑的绝大部分市场份额,在机器人上也有广泛应用。ROS诞生于斯坦福AI实验室,在学术和研究领域广受欢迎,目前的应用更偏向于在工业机器人领域和工业控制。除此之外,法国Aldebaran公司自主开发的NAOqi操作系统也较为知名,国产操作系统TuringOS、iBot OS等也在突破。
实现了手机的爆发后,安卓又被广泛用在不同设备上。鉴于安卓开源和定制化的特性,在手机上得到广泛应用后,在平板电脑、电子书、智能电视、智能机器人、智能眼镜、智能手表、智能耳机等领域,安卓不断的攻城略地,截至2015年底,安卓被用在24,093种不同的设备上,比上年增长了28%。
得益于广泛硬件市场,安卓生态圈应用数全球第一。据App Figures发布的报告显示,谷歌Play商店中的应用数超越了比苹果ios App store中的应用数,截至2014年底,谷歌Play拥有143万款应用,而苹果ios App Store仅有121万款应用。鉴于此,为吸引更多开发者,原本搭载基于ROS自己研发的NAOqi系统的Pepper机器人,也在自身操作系统上增加了Android系统层,供开发者开发应用。
ROS诞生于实验室,使用机器人类型快速增长。ROS系统诞生于2007年斯坦福人工智能实验室。当时是为了支持一个名STAIR项目,在项目之初,机器人平台集合了所有AI的方法,包括机器学习、视觉、导航、计划、推理、语音和语言处理。2008年到2013年,Willow Garage与超过20家研究机构的工程师一起合作开发ROS系统。2013年2月,ROS的管理工作转移到Open Source Robotics Foundation,2013年8月Willow Garage公司被它的创立者转为另一家创立者成立的公司Suitable Technologies的子公司,Willow Garage对PR2的支持工作随后交给了Clearpath Robotics。自从2010年至今,搭载ROS系统的机器人类型数从0起步至目前的106种。
ROS系统主要应用于智能机器人。截至目前,ROS应用在106种机器人上,以智能机器人为主,其中又以移动机器人和智能交互机器人为主,包括著名的Pepper和NAO。目前已经有很多机器人公司采用了ROS系统来开发一些应用于全新市场的产品,如ClearPath,Rethink,Unbounded,Neurala,Blue River等,最典型的就是Willow Garage的PR2机器人。
国产操作系统在孕育。Turing OS是中国首批人工智能级可商用的机器人操作系统之一,是具备情感和思维能力的机器人操作系统,商业应用前景广阔。Turing OS拥有情感、思维、自学习三大引擎,情感计算引擎已支持25种语言类情感识别,识别准确率达95.1%,而在情感表达方面,Turing OS支持468类情感语言表达,88套表情动作表达组合,120种声音语调,能够让机器人模拟人类80%的情感表达模式。据图灵机器人后台数据显示,在近一年时间内其与超过13万的合作伙伴和开发者达成长期合作,共享知识库达到15亿项,应用领域累计覆盖用户超过3亿人次,进而每天可收集和积累亿级的用户大数据,在中文语言处理方面处于领先地位。
六、投资建议与风险提示
投资建议:
我们建议从两个角度把握投资机会:(1)关注技术型平台公司,如AI芯片、OS、语音语义、感知等环节,重点公司包括地平线、图灵、寒武纪、智臻智能、云知声、科大讯飞、思岚科技等;(2)关注在细分领域做应用开发的企业,基于特定场景整合行业资源,重点关注的公司包括康力优蓝、科沃斯、优必选、未来伙伴等公司。上市公司建议关注巨星科技、康力电梯、慈星股份、永创智能、机器人、科大讯飞(广发计算机覆盖)等。
风险提示:
服务机器人市场需求低于预期;行业过度竞争;核心技术突破低于预期。
相关深度研究,欢迎点开链接
【广发机械】智能机器人系列报告一:从英伟达谈起,AI芯片创造新的智能世界
【广发机械】智能机器人系列报告二:智能的世界,正在发生的应用场景革命
广发机械(微信号:gfzqjxfx)---最前沿的基础研究、最深度的产业调研、最及时的公司跟踪,坚守价值挖掘,做值得信赖的卖方品牌!
【扫二维码,关注广发机械】
内容转载自公众号
广发机械
了解更多