2018年人工智能将打响语音交互的“发令枪”

云视角

2018-02-14

科技云报道原创。
“以前,人们习惯于通过键盘和触控屏操控智能设备。未来三到五年,人们或许可以随时给身边智能设备、机器人下达指令,帮助订餐、订票,乃至端茶递水。过去,机器对语音识别度不高,对自然语言的语义更难以理解,阻碍了语音交互的应用。随着降噪技术、方言识别、远场识别、全双工交互、机器学习等技术的发展,使语音和语义识别理解有了大幅提升,让机器准确理解并执行人类指令成为可能。”

近两年,语音交互得到了全球互联网巨头的高度重视。为了能够在语音交互生态中抢占战略高地,亚马逊、苹果、微软、谷歌、百度、科大讯飞等一众全球科技企业纷纷进军语音助手市场。 

除苹果Siri、谷歌GoogleNow、微软Cortana外,亚马逊也在大力推广Echo智能音箱。Facebook推出了聊天机器人Messenger Platform,希望通过建立对话式系统,实现订餐、下单、获取资讯等服务。谷歌则在I/O大会发布Google Home智能音箱。

在巨头之外,中国的诸多创业公司也开始声势渐起。随着越来越多的公司挤入语音交互这一细分市场,该领域在2018年将迎来更为激烈的竞争。

从“一问一答”到“自然交互”  语音识别的不断进化之路 

数据报告显示,2016年语音识别正确率已经提高到了90%,而五年前则只有70%。计算机和智能终端的界面,正在从“键盘+鼠标”变为“麦克风+按钮”,语音识别交互所占份额正在不断增加。 

从语音交互的成长路径看,大致可以分为三个阶段:一问一答、有问有答、自然交互。

语音应用通过算法的演变和大量数据的输入,在技术层面实现自然语音识别和语义理解,针对对话内容进行数据匹配,然后调取相关话题,从而实现简单内容的单向一问一答。第一阶段在自我学习、逻辑推力方面有很大欠缺,不能针对同一对话内容展开深入交互,横向拓展和纵向发展都不能满足用户需求。 

2000年,比尔盖茨曾提出“未来十年是语音的时代”。业界目前所说的智能语音,学术上称为“自然语言处理”。

业内人士认为,智能语音技术将会成为人类主流的人机交互方式之一,计算机技术与人工智能领域的发展为智能语音交互发展带来了希望。

语音交互的第二个阶段就是对话,即有问有答,包含上下文逻辑。对话层面仍然停留在“人机对话”阶段,机器仍然停留在被动接受人类输入大量数据阶段,相比“问答”层面,只不过信息流、数据存储量更大,机器仍然不能更深层次理解人的意思,无法实现自学习、自成长,与机器的语音交流还不能像人一样自然。 

语音交互的第三阶段,就是具有感知能力人机交互的发展。不仅有问有答,包含上下文的逻辑,同时智能硬件能够更多地融合各种环境信息,通过感知、判断和推理,做出不同决策或推荐。也就说,在交互过程中,机器有了更多的主动性和感知能力,能够为人提供更多、更好的帮助。 

语音交互重要的是应用场景,是否能够打透用户亟需的场景才是决定其发展成败的关键因素。当前,用户对于语音交互的要求并不高,而是希望确实能够解决生活中的具体问题,但通用的语音交互总是伴随着智慧概念,其功能无法令用户满意。因此语音交互的落地首先要考虑是否能够满足用户最基础的需求,而不是急于贴上AI的标签。

同时,语音识别从手机转向垂直场景,需要解决远场语音识别和场景语言理解的问题,亚马逊率先解决了这些问题,国内科大讯飞和声智科技也随后补齐了这个链条。 

目前来看,智能语音交互的技术链条趋于成熟,已经具备了大规模普及的基础,等待的只是用户习惯的改变。相比其他人工智能技术,语音交互在未来五年内有望成为大规模落地应用的技术,其迭代的速度可能会超过我们的预期。

但是语音交互仍然还有很多问题需要解决,包括终端技术的低功耗和集成化、语音识别的场景化和一体化,以及语言理解的准确性和引导性。 

想让语音交互流行起来?  还有几个重要问题需要解决 

语音交互的两个关键点为语音识别和语义理解。语音识别方面,随着智能终端的普及应用,我们已经获取了大量的语音数据资料,再加上算法的优化,这为计算机的深度学习提供了大量的支持。

这其实跟人类学习语言是一个道理。首先,大脑要有学习认知的能力(算法);同时,还要掌握充分的词汇量,接受足够的听力训练(语音数据),才能听懂一门语言(语音识别)。

语义理解依赖于神经网络(ANN)的技术,本质上是一个自适应非线性动力学系统,将机器学习的方式模拟人类大脑的神经元,当处理的语言越来越多时,这种网络就可以逐渐理解语言,实验结果发现,这种技术可以使准确率提升25%以上。 

语音识别技术目前仍受制于环境、口音等客观因素的影响,比如背景噪音、口音、语速、特定领域的专有名词等都影响准确率。

在一项测试中,实验者随机截取了几段网络课程用主流的云端引擎测试识别准确度,基本上准确率在70%左右;然后又截取了一段新闻联播的音频,用同样的云端引擎做测试,准确率达到了95%左右。通过这个测试,可以清楚看到客观因素对语音识别准确率的影响。 

语音交互有着天然的用户场景和用户群体,创造了全新的伴随式场景,语音交互解放了人们的手和眼睛,让人们可以做到一心二用,这极大的提高了语音交互在某些场景下的效率。

现阶段最符合用户习惯的交互方式是GUI,但GUI也是随着智能手机的发展才逐渐流行起来。语音交互技术一旦解决了拟人化的问题,赋予声音情感化,强化人人交互的体验,就会进一步促进用户习惯的养成。 

另外随着智能设备影响的扩大,用户群逐步向老龄人群、低龄人群、身体残障人群渗透扩散的趋势非常明显。

对于这些新进入人群而言,原有的触控交互方式或许并不太适合,用户习惯也未形成,例如老年人视力下降、手指也不够灵活;低龄儿童还不能掌握手写等能力也不适合长时间看电子屏幕;弱视/盲人更希望接受语音信息和发出语音指令,等等,因此语音交互也更适合拓展智能设备新的用户人群。

起风的时候,所有厂商都以为会有能力飞的更高,但不是所有厂商都能飞的很远。语音交互产品并非是由入场时间决定输赢,功能完成度、服务好感度、交互体验度会成为留住用户最重要的砝码,也是一些厂商能够抓住的新机会。尽管智能语音产品刚刚开始在中国家庭落地,但未来十年,以语音交互为开端的人机交互革命将开拓出更为多元的场景,生活的本来面目也将由此而改变。

【科技云报道原创】
微信公众账号:科技云报道

推荐文章