AI语音识别行业发展研究报告

融中财经融中研究2021-02-25 16:40 大公司

本报告从投融资角度着手，从四个板块概括性的分析语音识别领域，解构该行业的投融资活动。

导言：

2020年11月，云知声向上交所递交了招股书，抱着成为“国内AI语音第一股”的决心冲刺科创板。2021年2月19日，上交所发布了《关于终止对云知声智能科技股份有限公司首次公开发行股票并在科创板上市审核的决定》（以下简称《决定》），《决定》中提到云知声主动撤回科创板申请。云知声终止科创板上市审核并给出官方解释：“撤回申请是出于公司战略发展因素考虑，公司并不会放弃IPO，未来会适时考虑重启IPO的计划。”

云知声作为国内最有可能在AI语音赛道上追赶人工智能及语音识别领域中科大讯飞霸主地位的“独角兽”，其背后作为“推手”的投资机构有着不可忽视的重要作用。云知声利用机器学习平台，在语音技术、语言技术、知识计算、大数据分析等领域构建了完整的人工智能技术图谱，同时云知声也是国内人工智能创业公司里实现商业化落地最好的公司之一。产业+资本的结合赋予了云知声高速发展的可能性。

本报告从投融资角度着手，按照行业投资环境、行业投资现状、行业投资竞争格局及行业投资未来发展趋势等四个板块概括性的分析云知声所在的语音识别领域，简单解构该行业的投融资活动。

概述

语音识别是发展未来人工智能的重要组成部分之一，是达到人机交互目的第一步。语音识别技术简单来说指的是机器或程序完成接受口令、解释声音含义、理解和执行口头指令所需的技术。在当下智能时代，智能终端的应用普及面越来越广，相应的越来越多的场景在设计个性化的人机交互界面时，以对话为主的交互形式。而一个完整的对话交互是由过程是由“输入—分析—输出”三个环节共同组成一个闭环。其中，“输入”需要语音识别（Automatic Speech Recognition,ASR）技术；“分析”需要自然语言处理（Natural Language Processing, NLP）技术；“输出”需要语音合成（Text To Speech, TTS）技术。其中，“分析”环节由编码和解码组成，编码主要用于对输入内容的特征进行提取；解码则是通过声学模型和语言模型进行解析。语音识别技术是对话交互的开端，是保证对话交互高效准确进行的基础。

语音识别技术自20世纪50年代开始步入萌芽阶段，发展至今，主流算法模型已经经历了四个阶段：包括模板匹配阶段、模式和特征分析阶段、概率统计建模阶段和现在主流的深度神经网络阶段。目前，语音识别主流厂商主要使用端到端算法，在理想实验环境下语音识别准确率可高达98%以上。

行业投资环境

2.1行业政策环境

人工智能发展水平一定程度上体现了各国最高的科技水平。考虑到人工智能发展对于国家经济发展的重要性，中国政府已针对人工智能行业颁布了多项国家层面的发展政策，自2017年以来人工智能行业已经连续三年被写入《全国政府工作报告》内。具体支持政策包括项目发展基金、人才引进政策及其他国家扶持政策。目前，语音识别技术属于中国AI领域中最为成熟落地的技术之一，在国家政策的强力扶持下，预计未来能够加速在垂直行业的渗透和布局。

同时，在“十四五”的大背景和智能经济形态下，各省市响应中央号召，已有多个省市相继发布人工智能相关规划或专项政策，以人工智能为技术手段，发挥当地产业集群优势，促进产学研融合及协同发展。具体如下：

表1：语音识别相关政策汇总

信息来源：融中研究整理汇总

2.2行业发展现状

中国AI语音识别市场参与者众多，主要分为上游、中游、下游。

表2：语音识别产业链分析

信息来源：融中研究整理汇总

上游分析：底层技术提供强力支持——语音识别解码过程中包含了升学模型和语言模型的识别建模和模型训练两个部分。在运行过程中训练数据量和计算量需求极大，传统的CPU或者单一处理器几乎无法快速单独完成一个完整的模型训练过程，主要原因在于CPU内部仅含有少量的逻辑单元，且指令执行是逐一进行的串行计算，使用该架构进行语音识别运算的处理时间过长，无法满足海量数据计算的实时性需求。因此，能提供海量数据处理、存储以及高性能运算能力的云计算技术成为语音识别行业的应用热点。目前，主流语音识别公司的模拟训练和语音识别基本都在云端采用GPU（图形处理器）并行架构或异构计算方案进行。

中游分析：语音技术持续升级——语音是被的中游主要为将语音识别技术实现商业化落地的硬件及软件服务供应商。根据终端消费者类型，语音识别的中游厂商主要可以分为消费级市场和专业级市场，其中消费级市场中的主要语音识别产品包括消费级智能硬件、智能音箱及语音输入法等，专业级市场的语音识别产品则主要以行业解决方案和平台化技术输出两种形式呈现，其中更为垂直落地的解决方案形式在目前专业级商业化收入市场中占比更高。目前，智能语音开放平台在智能语音市场中收入占比较小的原因是，以阿里、百度及科大讯飞为首的各大厂商为加速AI语音技术对下游应用场景的渗透，采用多种优惠甚至免费形式向开发者提供语音识别服务，希望将语音识别技术应用在更多软件及场景中，与广大开发者携手建立一个完整的AI产业生态圈。

下游分析：行业应用多样化——语音识别作为AI交互的重要入口，在人工智能领域属于最重要和发展最为成熟的技术之一，目前已经以多种商业化形式广泛应用于下游市场。从应用领域来看，目前消费级市场主要应用于智能硬件、智能家居、智慧教育、车载系统等领域，专业级市场主要应用于医疗、公检法、教育、客服、语音审核等领域。广泛的应用领域也就意味着更多元化的使用场景，然而目前的语音技术对于使用场景具有较强的限制性。尽管快速更新迭代的神经网络结构已经将安静环境下的近场语音识别的错误率降低至3%以下，但现实环境中多数应用场景无法满足理想的环境条件，因此在进行语音识别时需要同时考虑到各种噪声、信道等因素。为使语音识别技术在更广泛的使用场景下保持良好的表现，AI语音厂商需要提供硬件与软件协同的一站式服务，并根据用户实际痛点进行针对性优化，从而有效提升在多元下游场景下语音识别的渗透率。

2.3行业竞争格局

中国AI语音识别主流厂商按照其属性可分为IT及互联网厂商、语音技术厂商两类。

IT及互联网厂商：IT及互联网厂商包括百度、阿里巴巴、腾讯、搜狗、小米等厂商。凭借在互联网时代积累的大量资本，IT及互联网厂商在众多科技领域成为了主要参与者。与依靠人工智能技术起家的AI垂直类企业不同，IT及互联网厂商侧重以流量导向和满足庞大用户群体验和创新需求为导向去做AI开发，更多以流量和用户体验为导向，同时，会比传统的语音技术厂商更加注重创新实践。

语音技术厂商：语音技术厂商也可以分为传统语音技术厂商和创业厂商、传统语音技术厂商包括科大讯飞、小i机器人、捷通华声等拥有自己的核心智能语音芯片以及语音相关软件系统的厂商，创业厂商包括云知声、思必驰、出门问问等专注于某些垂直领域（如汽车、家电等）来推广自己的语音技术和产品的厂商。

综合来说，在中国AI语音识别领域，阿里巴巴、科大讯飞、百度、腾讯均有着强劲的竞争力。

阿里巴巴：阿里智能语音交互服务是业内领先的云原生语音服务平台，对阿里集团内服务于超过99%语音场景，对外也提供各类云上语音产品。根据阿里巴巴企业年报来看，阿里巴巴在语音识别领域涉及情况如下：

（1）在语音识别全产业链方面，阿里云上语音技术在大量数据积累、算法积累、工程积累和阿里达摩研究院技术同步上云的成果加持下，极大提升了语音交互的准确率和性能。阿里智能语音交互技术已解锁并成熟布局于多个场景中，包括智能客服、智能质检、法庭庭审实时记录、实施演讲字幕、访谈录音转写、声纹登录、设备端语音交互等场景，在政务、金融、物流、教育、电商、泛互联网、医疗、餐饮等多个领域均有应用案例以及大量的客户积累。

（2）在市场方面，目前阿里智能语音分别在电话客服和法院语音识别的市场都占有领先的位置。阿里语音AI技术能在多个领域快速落地，占领市场并成为行业客户认知度前列的云上语音技术厂商，关键因素之一是与大量的独立软件开发商结成了阿里语音AI产业联盟。

（3）在企业经营和战略方面，阿里云在基建技术的布局规划方面，将继续加大投入对云操作系统、服务器、芯片、网络等核心技术的研发，为语音AI与云的结合带来更具想象力的引用场景和价值空间。

（4）在创新方面，阿里重视对技术的研发投入和对行业的贡献，其职能语音核心技术能力是下一代端到端语音识别技术SCAMA、SAN-M技术和DFSMN技术，这几种技术都是业界首次在非科研领域的应用并获得成功，使得整体语音交互技术的准确率在高并发的情况下获得独特优势。同时DFSMN也已经面向全行业开源，为行业整体技术提升做贡献。另外，阿里在业内率先推出的自学习平台也改变了语音AI生产关系，即使行业实践者没有很多语音领域的专业知识，也能够通过阿里云自学习产品灌入行业内的数据和知识就能够获得所在行业不错的语音交互效果。

（5）在客户服务方面，阿里智能语音最为主要的商业策略就是为其合作伙伴提供语音原子能力、多个领域开箱即用模型和自学习平台，赋予了消费端产品“能说、会说、懂你”式的智能人机交互体验，在将阿里云智能语音领先技术赋能于产业联盟企业的同时，构建了一个更为完整和繁荣的AI语音应用生态、普惠市场。

科大讯飞：科大讯飞是国内领先的智能语音技术主要提供商之一，在语音识别等智能语音技术领域拥有国际先进的成果，主要业务包含智能语音和语言技术研究、软件及芯片产品开发、语音信息服务及电子政务系统集成，为企业、政府和个人提供智能应用。科大讯飞技术优势在同行业中出众，拥有自主知识产权的只能语音技术，推出覆盖大型电信级应用到小型嵌入式应用以及满足不同应用环境的软硬件产品。科大讯飞在中文语音技术市场和语音合成产品市场都占有较大份额，应用与电信、金融、电力、社保等主流行业。科大讯飞结合自己核心的只能语音技术和人工智能的研究，已经实现AI产品化的布局。在To B端，科大讯飞面向教育、政法、医疗、汽车和客服等多个行业提供相应的解决方案。在To C端，科大讯飞提供面向消费者的家庭、汽车、翻译等消费级个人，包括硬件产品如讯飞学习机、讯飞翻译机、智能办公本等，以及软件产品如讯飞输入法、AI电视助手等。

百度：百度在AI开放平台上提供语音识别的技术，共享AI领域的应用场景和解决方案。提供产品包括短语音识别、实时语音识别、远场语音识别、音频文件转写、语音自训练平台等，应用于手机应用如语音输入、机器人对话、语音内容分析和实时语音转写等场景。百度的语音识别技术优势在于领先的语音识别技术，提供自助训练专属模型，可简单快速地接入API及多种SDK接口，提供稳定性保障，且收取费用较低。

腾讯：腾讯云语音识别目前主要应用于微信、王者荣耀、腾讯视频等内部业务使用，外部应用布局于录音质检、会议实时转写、法庭及审讯记录、语音输入法等场景。技术提供主要功能为开放实时语音识别、一句话识别和录音文件识别，支持云端和嵌入式两种服务模式。腾讯云语音识别的主要优势在于有大量的用户基础和数据积累可应用于丰富的行业场景，收费价格较低，自准率高达97%，支持多语言识别能力，有领先的算法。

行业投资现状

国内的人工智能产业发展相较于国外厂商发展较晚，2011年中国的人工智能企业方才展露出些许发展趋势。随着全球人工智能技术的日益成熟，国家政策支持力度的逐步加大，国内投资环境的不断优化，中国人工智能产业趁着时代的风口发展迅猛，如今已是百家争鸣的阶段。其中，除了互联网巨头企业在早期就提前布局，初创型中小企业亦紧跟脚步积极加入到人工智能产业市场。截止到本报告期，参与到人工智能产业的公司共计3199家，投资事件达4447件，总投资金额15151亿人民币，投融资概览如下：

表3：2012-2021年2月人工智能产业投融资情况

信息来源：融中研究整理汇总

语音识别作为人工智能产业中极其重要的一个组成部分，担任着人机交互应用时的输入和输出接口，也相应的受到产业风口的影响，受到一众投资机构的追捧。2017-2021年2月，参与到语音识别行业的投资事件达143件，投资金额达170.77亿人民币。从数据可以看出，语音识别相关公司在2018年获得的投资额及投资事件数达到一次爆发，分别达到62.3亿人民币、55次投资。随后在2019年至2020年，投资活动相对平稳。

表4：2017-2021年2月语音识别产业投融资情况

信息来源：融中研究整理汇总

从投资轮次来看，A轮阶段的语音识别企业更受资本方的青睐，投资额达50.24亿人民币，投资事件达65次；其次，B、C、D、E轮次的投资相对平均；值得一提的是对于早期项目，投资机构虽然单笔投资金额较少，但投资事件相对较高，达24次。按照语音识别产业分轮次投融资占比来看，行业中吸引了绝大部分资金的企业基本上都聚集在A、B、C轮。

表5：2017-2021年2月语音识别产业分轮次投融资情况

信息来源：融中研究整理汇总

表6：2017-2021年2月语音识别产业分轮次投融资占比情况

信息来源：融中研究整理汇总

从语音识别产业内企业产品/服务应用方向来看，主要分为技术服务（行业解决方案）、教育、汽车交通、新工业、智能硬件、医疗、金融等几个分类。其中，最为获得投资机构青睐的是技术服务方向的语音识别企业，占据了投资金额及投资事件数的绝大部分，分别为116.49亿人民币、89次投资。值得一提的是，语音识别技术应用于汽车交通行业所获得的投资件数虽然仅有4次，但单笔投资金额却是最高的。

表7：2017-2021年2月语音识别产业分行业投融资情况

信息来源：融中研究整理汇总

表8：2017-2021年2月语音识别产业分行业投融资占比情况

信息来源：融中研究整理汇总

行业投资竞争格局

由于语音识别属于人工智能领域，自然也获得了不少头部投资机构的关注。通过整理数据了解到，主要投向语音识别行业的投资机构大体上可分为三类。第一类为专注于投资工智能领域下细分赛道的精品投资机构，如创新工场、联想之星、线性资本、创势资本、金沙江创投等。第二类是专业投资机构，如深创投、红杉资本、经纬中国、高瓴资本等投资面向多个专业领域的综合型全领域投资机构。第三类为公司本身主要业务内容涵盖了语音识别技术的行业龙头企业，如科大讯飞、百度、阿里巴巴、腾讯、奇虎360等。

经过融中研究统计整理，2013-2020年我国AI语音识别领域投资机构的主要投资阶段分布情况如下：

表9：AI语音识别细分领域投资机构的主要投资阶段分布

联想之星作为联想控股的早期投资和孵化板块，植根联想30余年来的创业经验和资源积累，为创业者提供天使投资+深度孵化的特色服务，主要投资于TMT、医疗健康两大领域，积极布局人工智能、智能机器、互联网改造传统产业、生物技术、医疗器械等前沿领域。联想之星创立于2008年，目前在管资本总额约35亿人民币，历史投资277家TMT、医疗器械领域优质企业，9家完成退出工作。在语音识别领域，联想之星共投出11家产业上下游企业，是该投资该领域的排头兵。

创新工场是一家早期投资机构，同时为创业者提供全方位的创业服务。创新工场的投资方向立足于信息产业最热门的领域，也包括人工智能领域。主要涉足的投资阶段为：种子轮、天使轮和A轮，B轮会有选择的进行跟投。创新工场共管理6支基金，管理的资产规模达110亿元人民币，历史投资539家信息产业企业，25家完成退出。在语音识别领域，创新工场领投了追一科技的B轮融资以及跟投C轮；参与ImageDT 图匠数据的Pre-A轮融资。

科大讯飞是国内领先的智能语音技术主要提供商之一，在语音识别等智能语音技术领域拥有国际先进的成果，主要业务包含智能语音和语言技术研究、软件及芯片产品开发、语音信息服务及电子政务系统集成，为企业、政府和个人提供智能应用。科大讯飞在中文语音技术市场和语音合成产品市场都占有较大份额，应用与电信、金融、电力、社保等主流行业。科大讯飞结合自己核心的只能语音技术和人工智能的研究，已经实现AI产品化的布局。因此，科大讯飞作为行业内的龙头企业，同时站在战略投资的角度大力布局人工智能领域的优质企业，对外投资共计37.91亿元，投资事件80次，目前已有5家被投企业完成退出（包括IPO退出）。科大讯飞主要投资了近屿智能、叮咚音响、奇智企业三个企业，分别所属轮次为天使轮、A轮、天使轮。

行业投资未来发展趋势

语音识别是指让机器将人类语言转化为文字或命令的AI技术。可广泛应用于文字输入、社交软件、车载语音、智能家居等领域。受益于大数据、人工智能等技术不断进步，我国语音识别行业在识别的准确性与速度等方面不断提高，下游应用范围不断扩大。根据新思界产业研究数据显示，2018年-2020年，我国语音识别市场规模由62亿元增长至350亿元，年均复合增长率达到39.59%。

当前国内语音识别市场已经被领先企业所抢占，新进入者发展较为困难。语音识别行业属于资金与技术密集型行业，大型企业在数据库搭建、试验布局等方面实力明显强于中小型企业。除科大讯飞、搜狗外，百度、阿里、腾讯等互联网巨头也纷纷进入布局，此外，思必驰、云知声、出门问问等创业公司也先后进场，使得行业内企业数量不断增多。经过快速扩张，国内语音识别市场主要被大型企业所占据，市场格局趋于稳定。我国流向语音识别领域的资本也在逐步向大型企业靠拢，语音识别行业呈现出“强者愈强、弱者愈弱”的发展状态。其中科大讯飞、搜狗、百度在输入法领域处于主导地位；社交软件领域主要由腾讯占据了绝对的市场；云知声在智能电子、智能家居领域布局较为完善；思必驰在车载语音、智能机器人等领域发展较好；出门问问在智能手表领域发展较快。

投资机构想要在语音识别领域对初创型企业或中小型企业进行投资，尚有一定难度。如果被投企业在技术上没有突破性进展，难以打破现有市场格局，竞争压力将日益增大。但现今国内从智能机器人到智能语音助手，随着技术的提升，应用场景的增多，人工智能行业已经开始展露头角。同时，众多机构对其未来发展依然保持着极大的信心。智能语音市场按客户类型可分为2C或2B2C的消费级市场和2B的专业级市场。消费级市场应用于衣食住行等生活场景，主要包括智能家居、智能可穿戴、智能车载、智能手机等；专业级市场应用于特定场景，如医疗、教育、呼叫中心等。消费级智能语音助手的功能是基于语音交互实现设备控制、日程管理、信息查询、生活服务、情感陪伴等；专业级市场智能语音的应用主要是医疗领域语音导诊、电子病历转录与转写、智能辅助诊断，教育领域的智能语音训练与评测、互动教学等，呼叫中心领域的智能客服。

总的来看，未来随着技术的不断突破，语音交互方面还有望得到进一步提升。比如，基于对用户的持续学习，它知道你喜欢的东西、爱好、兴趣，甚至可以通过你的行动、表情、语气知道你的喜怒哀乐，这样的话，它会基于你而做出不同的、但是令你感到贴心的反应，且跟你有很多共同话题，而这都是可以基于技术的突破逐渐实现的。而以上这些语音识别的技术开发及应用尚未被完全占领，投资机会依然存在。

【本文为合作媒体授权博望财经转载，文章版权归原作者及原出处所有。文章系作者个人观点，不代表博望财经立场，转载请联系原作者及原出处获得授权。有任何疑问都请联系（联系（微信公众号ID：AppleiTree）。免责声明：本网站所有文章仅作为资讯传播使用，既不代表任何观点导向，也不构成任何投资建议。】