智能语音即声音信息在人机间的交互模拟,为人工智能的核心技术之一,也是人工智能落地最早的技术之一。1980s至今智能语音经历三个阶段发展,2016年开始进入落地期,智能语音助手、智能音箱相继落地。
现在,智能语音的相关应用正向消费级和企业级两大方向爆发。其中消费级包括 智慧生活场景、 智能家居场景和智能驾驶场景,近期总的发展空间将达到3000亿元。
企业级应用包括智慧教育场景、智慧医疗场景和应用于电信/金融/电商等场景的智能呼叫/客服场景,值得一提的是,企业级场景近一年来收到疫情的加速催化,空间也即将达到千亿规模。
本期的智能内参,我们推荐华西证券的报告《智能语音赛道:风口已至,全面开花》, 从消费级、企业级两大分支还原智能语音的发展格局。
原标题:
《智能语音赛道:风口已至,全面开花》
作者:刘泽晶
智能语音是AI的重要入口,是AI三大核心基础技术之一( 机器视觉、智能语音和机器学习)。
智能语音在AI技术中占据重要地位,就市场份额而言,2019年智能语音占据我国AI22%的份额,仅次于已经实现大规模商用的机器视觉。
智能语音是人工智能行业重要细分市场
所以,什么是智能语音? 简单点说,智能语音即声音信息在人机间的交互。
人类大脑皮层每天处理的信息中,声音信息占20%,是沟通最重要的纽带。智能语音将声音转为文字供机器处理、在机器生成语言之后,用语音合成技术将文本语言转化为声波。
智能语音的实现流程 & 各环节模拟机制
智能语音的发展始于上世纪八十年代,迄今已经历了三个阶段:
1980s-2010为起步期:语音识别开始从孤立词识别系统向大量词汇连续语音识别系统发展;
2011-2015为变革期:微软DNN(深度神经网络)的出现使识别错误率第一次大幅降低,降幅约90%,技术与产品开始大发展;
2016至今为落地期:机器语音识别准确率第一次达到人类水平,约95%,智能语音技术进入落地期,智能语音助手、智能音箱相继落地。
但是,相比于机器视觉,智能语音的落地进程相对落后。机器视觉企业在全球AI企业中占比40%、在国内占比46%;是国内外AI企业最集中的领域。
主要有两方面原因,一方面其数据的体量、密度相对有限,另一方面其涉及的声学研究、模式识别研究、通用NLP研究及垂直场景的深度语义理解等还未完全成熟(尤其2016年以前),因此在交互体验、使用效果、场景优化等方面都仍有较大空间。
全球AI企业应用技术方向分布
中国AI企业应用技术方向分布
但随着智能语音技术逐渐成熟,未来几年市场将维持高速增长。
根据Gartner发布的2018年AI技术成熟度曲线,当前语音识别已经进入?实质生产高峰期,意味着语音识别技术已被广泛接受,规模化落地即将开始。此外,像自然语言处理、虚拟助理等相关智能语音技术历经淘洗之后即将落入,泡沫化低谷期,商业模式越来越成熟,也将进一步推动智能语音的落地。
根据ReportLinker的预测:到2024年全球智能语音市场规模将达到215亿美元,其中智慧医疗健康、智慧金融以及各类智能终端智能语音技术需求将成为主要的驱动因素。
智能语音市场按客户类型可分为消费级市场( 2C 或 2B2C )和企业级市场(2B)。
消费级应用, 立足于个人日常生活,主要包括了智慧生活、智能家居、智慧办公、智能驾驶等场景,本质上是智能语音技术(以语音助手为代表)对于各类终端的赋能,是AIoT大生态的重要构成。
具体产品包括了:智能手机、智能可穿戴、智能音箱、智能家电、翻译机、录音笔、转写TWS耳机、智能车载等。
专业级应用:服务于特定场景,如智慧医疗、智慧教育、智慧电信/金融/电商等。相较而言,专业级应用具有更高的垂直属性和know-how壁垒。
具体产品包括了智慧课堂、自动审阅、学习机(2C属性)、智慧客户/呼叫等。
智能语音领域的各类细分赛道
智能手机开创语音助手先河,引领消费级市场。消费级智能语音交互是大众接触智能语音最普遍的渠道,核心逻辑仍是消费级AIoT:,消费级AIoT市场规模就已达到1753亿元,在总AIoT市场中占比68%,空间极其广阔。
众多人工智能公司(硬件设备厂商 & 互联网厂商)均瞄准消费级智能交互终端,第一款典型的落地产品就是智能手机语音助手。
语音助手落地开启智能语音应用元年:2011年第一款手机语音助手Siri伴随iPhone 4S亮相,各大厂商纷纷入局。从2017年下半年开始通过开放语音生态系统进行产业内合作,语音助可穿戴、家居、车载等领域延伸。
智能手机中配置智能语音助手比例提升,预计2023年占比将达90%。根据Strategy Analytics数据,2018年全球销售的智能手机中就已经有47.7%配置了人工智能语音助手,占比将近一半。
当前,智能手机配置AI语音助手已成为整体性趋势,从已有用户的情况来看,智能语音助手用户使用助手频率占比最大的为每周3-4次,表明人们正日益倾向于使用智能语音助手。
基于这一趋势,Strategy Analytics预计,到2023年前,90%的智能手机都将会配置AI语音助手。
智能手机配置语音助手的比例
智能手机语音助手使用频率
智能可穿戴设备市场空间广阔,智能语音为其天然入口。智能可穿戴设备趋于小屏化、无屏化的特点决定了智能语音将成为其天然入口。伴随中国智能可穿戴设备行业在各垂直领域应用程度的加深,中国智能可穿戴设备行业将持续扩容。沙利文预测,2023年中国智能可穿戴设备行业的市场规模将达到913.7亿元。
中国智能可穿戴设备行业由上游的软硬件供应商、中游的智能可穿戴设备厂商及下游各应用领域构成。
预计2020年全球可穿戴设备出货量将达到3.96亿台,与2019年出货量3.459亿台相比增长14.5%。
展望未来,IDC预测,2024年全球可穿戴设备出货量将达到6.371亿台,五年内复合年增长率(CAGR)为12.4%。
据IDC发布的《中国可穿戴设备市场季度跟踪报告》显示,2020年中国可穿戴设备市场出货量第一季度、第二季度分别为1762万台(同比下降11.3%)和2658万台(同比增长4.1%),扭亏趋势明确,预期全年数据增速可观,不低于全球增速。
IDC:全球智能可穿戴产品出货量及预测值
IDC:中国智能可穿戴产品出货量
现阶段,搭载语音助手的设备产品主要为智能手机和智能可穿戴设备,同时也包括小部分智能家居产品、智能车载产品。就规模来看,2020年智能语音助手的市场规模已经达到241.1亿元;2021年规模将达到337.5亿元。
由于中国居民消费水平提升,消费主力群体代际变迁等因素,搭载语音助手的智能设备的消费量将会有所增长,推动中国语音助手市场规模进一步扩大。预计到2023年,中国语音助手市场规模将增长至570.3亿元。
中国智能语音助手市场规模(亿元)
另外一个智能语音落地场景是智能家居,智能家居的最终形态是实现全屋产品的智能化,为AIoT的关键场景,在灯光、空调、电视、窗帘、门窗、背景音乐、安防、监控控制以及可编程定时控制等方面均有应用。
2020年中国智能家居市场规模突破2400亿,2020年全球智能家居市场平均渗透率将超过60%。 未来三年将是智能家居行业快速发展的时期,行业并购及市场规模增长将诞生一批年销售额超过百亿的企业。
智能家居市场规模(亿元)
2020 智能家电平均渗透率超过60%
智能音箱为语音交互蓝图铺路,是智能家居入口。 早在2019年底,中国智能音箱累计出货量就已经超过7000万台,在我国城镇住房中渗透率达到20%,接近2012年智能手机的渗透程度。
2012-2019年智能手机/音箱出货情况
2012-2019年智能手机/音箱渗透情况
智能音箱当前市场规模已超百亿元, 未来三年中国智能音箱行业市场规模将保持稳定增长,2023年有望达到8712万台,即174.2亿元。
智能音箱行业市场规模及出货量
第三个落地场景是智慧办公,核心是翻译机。 根据华经情报网数据,我国翻译机价格主要分布在250-800元和2560-3310元两个区间,其占比均为38%。
出境旅游、教育刚需和经济全球化等因素持续驱动产业规模增长,自动语音识别、机器翻译、语音合成、图像识别等AI技术大幅提升翻译机性能加速产业发展。
2020年我国翻译机市场规模将有望达到27.7亿,并在2030年进一步扩张至56.2亿元。
翻译机价格分布
翻译机市场空间(亿元)
另一个潜在爆发场景是语音输入法。 输入法是智能语音技术在C端的重要落地场景,语音输入、智能纠错、语音翻译等功能开始成为标配;语音变声、语音斗图等针对年轻群体的创新功能也相继推出。
第四种智能语音落地场景是智能驾驶。 目前,特斯拉、造车新势力&传统整车厂、初创公司、科技巨头采用不同的方法和路径更新迭代自动驾驶的能力,体现出技术路径的分化,行业竞争格局正在发生新的变革。
未来伴随着科技的进一步发展,AI、人机&语音交互、5G C-V2X 车联网等技术的成熟,智能汽车的功能将进一步丰富,使得智能驾驶的渗透率逐步提高,进而带动整个产业链市场规模的快速增加。
在当前智能汽车的发展中,最为激烈的竞争集中在自动驾驶和智能车载系统两个领域。
随着信息技术、网络技术和人工智能的发展,智能车载系统将通过融合数字显示、多屏作者互动、手势操作、智能语音等多项技术,为汽车的驾乘人员提供全新的、直接的、多元的人车交互服务。
在汽车产业领域,搭载基于智能语音的车载交互系统已经成为主流。 车载语音交互或将成为标配,打造车内交互新体验。
根据高工智能汽车研究院的数据,2020年一季度中国市场销售新车前装搭载4G联网功能渗透率为46.05%,同比上年提高近20个百分点。预计,搭载率到2025年期间将呈现较快的增长态势。
同时到2025年主流的车企将基本实现新车的联网标配,车载语音巨头面临更大的产业机遇。智能车载潜力巨大,智能语音有望成为车载系统标配。
不同于手机以触屏为主的交互方式,车机和人的交互更多将采用语音,而未来伴随着智能汽车渗透率的逐步提高,智能汽车中的语音交互将更加丰富,进而带动市场规模不断增加。
AI 车库数据显示:我国车载语音市场规模在2022年将接近30%。
竞争格局来看,国内巨头科大讯飞占据半壁江山,老牌海外厂商Nuance的国内份额正在被不断蚕食,身后BAT、思必驰等也在快速追赶。
中国智能车载市场规模预测(亿元)
中国智能车载语音市场规模(亿元)
我国车载语音市场占比(截至2019H1)
智能语音消费者业务主要通过硬件出售及相关互联网增值服务获利,而企业级和公共级业务则主要有两类合作模式:
一是技术平台输出模式,将通用技术能力封装为SDK或API,下游客户或生态中的开发者使用时向技术提供方支付一定费用,当然为了促进生态的快速发展,一些平台如华为HiAI 、百度语音技术采取面向开发者免费的策略;
二是切入传统行业,提供解决方案(含核心设备),这种情形下涉及智能语音企业与传统行业集成商或最终客户进行定制化、深度合作。
人工智能技术平台输出和解决方案业务规模
智能教育,AI 课堂的建设进入快车道。教育部发布的《教育信息化十年发展规划(2011-2020年)》中提到,我国要建立教育经费投入保障体系,并重点提出各级政府在教育经费中按不低于8%的比例列出教育信息化经费。
2021年为十四五开局之年,判断教育信息化仍将迎来加码新政,智慧教育将正在政策助推下持续加速发展。
政策直接相关的应用主要有智能语音训练与评测、互动教学等,其中语音评测市场受益于新高考方案和国家英语能力考试改革,潜力巨大。
智慧教育空间宽广,应用边界不断拓宽。自2012年以来,语音识别、图像识别、深度学习等人工智能技术发展迅速,不断实现突破,人工智能在线教育在人工智能技术的发展推动下逐渐兴起,基于语音识别技术的语音测评、基于图像识别的智能情绪分析等人工智能在线教育产品涌现在市场中,人工智能在线教育行业发展步伐逐步加快。
中国人工智能在线教育市场规模从2014年的54.9亿元增长至2020年368.3亿元,呈现快速增长趋势。随着人工智能技术日趋成熟,人工智能在线教育产品性能将进一步提升,用户规模将不断扩张,人工智能在线教育市场规模有望迎来新一轮快速增长。
预测至2023年,中国人工智能在线教育规模将达680.5亿元,复合增长率仍将维持在20%以上。
人工智能在线教育市场规模(亿元)
第二个2B场景是智慧医疗。 智慧医疗领域,语音电子病历系统需求正在释放。通过语音输入的方式生成结构化病例、执行病例检索,节约医师输入病历的时间,解决方案一般包括 ASR/NLU 技术和专用医疗麦克风。
此外,需求正在向导诊机器人、问诊小程序、诊后随访系统、住院病房管理系统、临床决策支持系统(CDSS)等多应用领域扩散。
中国的智慧医疗建设行业有着广阔的发展空间和投资市场,当前市场空间整体超千亿元。
根据中商情报网数据,2019年我国智慧医疗建设行业规模为880亿元,而2020年这一数字已经达到1040亿元。
按照现状估计,预计到2022年,我国电子病历语音输入累计覆盖近1600家三级与二级医院付费数,渗透率分别为36%和4.5%,180万医生受益。
智能语音语音技术和自然语言理解技术快速进步,目前已在2C消费级的智慧生活、智能家居、智慧办公、智能驾驶;2B企业级的智慧医疗、智慧医疗、智能客服等多个领域实现场景应用。
根据沙利文咨询的统计预测,2019年我国智能语音行业市场规模约为218.4亿元,预计2024年将达到489.8亿元。
中国智能语音行业市场规模(亿元)
智能语音2C消费级 & 2B企业级市场各细分赛道均有广阔空间,后疫情时代有望全面开花,梳理如下图。
智能语音领域细分赛道市场空间
国内外智能语音市场均已相对集中,龙头占据主要份额。根据中商产业研究院的数据,智能语音全球市场CR5达到88%,中国市场CR5达到84.6%,均已呈现相对集中市场格局。
差异:全球巨头玩家如Nuance、谷歌等在中国份额有限,取而代之的是国内龙头科大讯飞。一是由于中英文语义理解差异(叠加方言影响);二是受益于国内互联网生态高速发展,智能语音在国内具有更加丰富的落地场景。
在这一背景下,可梳理两类玩家:1、通用平台商如科大讯飞、百度致力于打造开放语音生态;2、专业应用商如云知声、思必驰致力于抢占家居、车载等细分赛道。
全球智能语音市场格局
全球智能语音市场格局
智东西认为,自2011年iPhone 4S首次搭载Siri以来,智能语音助手这个聊胜于无但又颇具想象力的功能就一步步成为手机中的基础功能,并旋即在智能音箱领域大显身手。虽然语音助手一直的覆盖面一直在提升,但使用率确一直不高。但是,以智慧家居为例,智能语音设备其实只是一个入口,随着Iot、自动驾驶等技术的不断拓展,与智能语音设备相互配合一定会大放异彩。