语音交互的现状及未来

【语音交互概念】

语音交互属于人机交互的范畴,是人机交互发展到目前的一种最前沿的交互方式:就是用人类的自然语言给机器下指令,达成自己的目的这一过程。

【语音交互发展现状】

语音助手:苹果Siri、微软Cortana、谷歌Assistant

语音音箱:亚马逊Echo、Google Home、苹果HomePod、微软Invoke、阿里天猫精灵、小米小爱同学

可以看出国内外科技巨头都在押宝语音交互产品,从集成在手机中的语音辅助工具到独立出来的语音交互产品,反映了语音交互正在飞跃发展。

【语音交互历史】

【人机交互】语音交互的本质是人机交互。人机交互是一门研究系统与用户之间的交互关系的学问。系统可以是机器,也可以说是计算机系统和软件。通过人与计算机的互动、沟通、信息交换,产生一系列的输入和输出,然后完成一个任务或达到一个目的。语音交互就是用语音为信息载体与机器进行互动。

【发展综述】过去40年,我们从Dos操作系统到施乐的图形化界面再到移动设备的触控交互,人与机器的交互方式都在不断更新优化

CLI(Command-line interface)命令行界面:由打字机演化而来,用户输入命令,电脑执行操作。命令都是代码形式的,用户必须熟记文字代码才能操作。
GUI(Graphic user interface)图形用户界面:图形化展示,由鼠标操作电脑。施乐开发,乔布斯通过个人电脑普及到大众消费市场。与CLI对比来看,大幅降低了新用户的学习成本,GUI具有“所见即所得”的特征,用户通过“窗口、按钮、图标、菜单”这些隐喻的组件能更方面的完成与计算机的沟通。
NUI(Natural user interface)自然用户界面:用户使用人类自然的方式,如语音、面部表情、手势、移动身体、旋转头部等,完成操作。GUI和CLI都必须要求用户先学习软件开发者预先设置好的操作,NUI更自然简单,符合人类天性,用户学习成本和操作成本更低。)
触控交互到语音交互:触控交互由电阻屏触控笔交互到电容屏手指触控,乔布斯推出iPhone改变了人机交互方式,一种更自然的交互方式。人与机器的交互方式都在不断更新优化,每十年都会有一代更迭,而现在距离第一代iPhone已经过去10年,我们不会一直停步在触控交互上,新的交互方式出现了——语音交互

【相比传统人机交互方式,语音交互的优点】

快速简单
传统GUI下设置一个闹钟可能需要3分钟,而语音交互下只需要30s。释放双手,不需要繁琐的操作app,可以一边忙手头的事,一边给机器下达语音任务。

语音交流更符合人类本能
婴儿都是先学会说话,后学会写字和阅读的。从人类演化的角度,手势和语音也是先于文字产生的。人在看书的时候,也经常会不自觉地把眼中的文字转化成大脑中的语音,尽管这种阅读方式不一定高效,但这依然是人类本能的习惯。

【局限性】

1.语音交互的准确性不理想。

2.语音交互的场景有限:不适合在嘈杂环境中进行,不适合在需要安静的环境中进行。

3.语音交互消耗注意力,增加记忆负担。人在与系统交互的时候,调动的大多数是短时记忆力,能记住的信息就 15 秒左右。语音交互不适合应用在步骤比较多,信息多的任务上。大家都有打银行服务电话的经历,你必须集中注意力,记住什么什么按 1, 什么什么按 2,要不然就要重听一遍。

4.语言交互效率低。你在网站购物的时候是直接选你要的东西方便还是要把这个物品的名字念一遍方便?

【利弊综述】

语音交互与传统的文本交互并不是一个互斥的,非此即彼的关系。语音交互在某些场景会慢慢成为主流,而有些场景则能成为文本交互的补充。他们是可以“共生共荣”的。

【语音交互出现的技术原因】

【远场拾音】

远场拾音的出现意义非常大,是人机交互体验上突破,人们可以在家里任意角落,轻松的跟
Echo进行交流。
虽然apple的siri,google的 google assistant,microsoft的cortana等语音助手很早就实现了自然语意的理解,但是都是近场的,使用上操作步骤很多,需要拿出手机,启动助手,靠近讲话。虽然在比触控简单,但是比远场拾音在体验上有本质的差距。
这种体验上的进化,只有体验过之后才会有感觉。可能很多人没有使用过这三款产品,那参考之前的一个案例:在iphone没有出来之前,很多手机已经支持了触控操作,只是那个时候的触控是基于电阻屏,需要用触控笔,体验上已经比单纯的键盘操作进化很多,但是还是不够自然。而乔帮主在发明iphone一代的时候一个重大创新就是使用电容屏,可以直接支持手指触控,这种交互方式更加自然,马上成为了主流。
近场拾音量就像电阻屏,而远场拾音更像是电容屏,在体验上两者有本质差别。
对比amazon echo、google home、rokid pebble,它们在远场拾音上性能接近,基本都能实现5米正常拾音,彼此又各有特点。三家的远场识别采用的都是麦克风阵列 + 激活词,从技术上来说,麦克风越多,性能越好,成本越高;激活词越短,体验越好,技术难度越高。

【语意理解
】

语意理解就是在某些指定的话题里面,人工智能设备能够听懂人讲的话,目前的技术还做不到通用话题的理解,这也是业界难题,但即使是指定话题理解也已经非常有价值了。
amazon,google,rokid这三家公司在语意理解上也各有千秋,amazon将语意理解技术的产品化,工程化做的最好。通过产品设计和技术架构设计,将成熟的技术整合成优秀的产品。google算法能力和数据两方面最强。rokid虽然是创业公司,但其实实力不俗,汇聚了中科院语意理解方面的顶尖科学家,在算法能力方面跟国外同行比起来并不弱,作为中国的公司,rokid更加了解中国人的语言和文化习惯,体验细节方面也能做到更好。
另外,这三家公司都具有软件核心技术+硬件设计制造能力。苹果公司的经验证明了,硬件产品要想做到极致,必须同时掌控软件和硬件,极致的体验必须软件结合硬件一起定制才能做到。这也是为什么android手机永远在体验上做不过iphone的原因。

【技术原理】

6个技术模块:

①语音识别器(speech recognizer):把用户说的语音转成文字,

②语言解析器(language parser):把用户说的转成机器理解的语言

③问题求解(problem resolving):寻找用户问题的解决方式

④语言生成器(language generator):能够记录历史对话数据,通过训练能够给到用户更好的回答

⑤对话管理(dialogue management):把回答的机器语言再转换成 口语语言

⑥语音合成器(speech synthesizer):把口语语言再转化成语音

【语音交互的发展:siri到Echo】从语音助手到独立的智能产品

【场景决定成败】语音交互的应用场景:家里>车上>路上>工作

音乐播放:
新闻获取
信息获取:搜索查询,交通、地理、天气、时间等信息
生活助手:闹钟、计时器、日程表、todolist
智能家居:语音控制大量智能家电设备
第三方扩展Skill
Siri的鸡肋:苹果语音服务整理到手机系统,通过高频率的手机带动用户使用语音服务。事实上这个方案到用户手里又是另一个样子,苹果手机用户很少或偶尔使用语音助手。手机作为个人设备,大多数情况下是在公开场合下使用,用语音对手机发号施令的行为不自然,据统计只有3%的用户会在公开场合使用siri。

Echo的发力:亚马逊Echo一开始除了语音交只提供了语音交互的方案,保证了语音交互的纯粹性和持续性,用户只能使用语音。相比siri,没有任何的屏幕文字反馈,就像和人交谈一样。习惯养成之后,用户会持续不断地用语音与设备互动。且Echo定位非常准确,定位于家庭设备,用户体验非常棒,可以很自然的控制音乐播放、闹钟设定、语音控制智能家电的开关(开关灯、拉窗帘等)

所以在亚马逊推出Echo后,才看到了语音交互的真正贴合用户的场景。后续陆续有了Google Home、苹果HomePod、微软Invoke。

为什么说语音是下一代的交互革命?

【未来的语音交互】

1.语音交互不会成为主流交互方式,只会成为未来交互方式中的一种。

耳朵是人的一个主要器官,但不能说耳朵是最重要的器官。但眼睛、视觉的用途占70%,信息交互的,嘴巴跟耳朵属于说、传、收这样的人机交互,人与人之间交互的模型。语音可能占20%,还有触觉、嗅觉可能占剩下10%的百分比例去分。说到语音交互,现在讨论的重点其实是人机交互,人跟机器、人跟云端的交互。未来的所有设备都是智能化的,有云端,有语音,可能是有屏幕,可能是要动手的。语音本身就有很多限制,刚才提到的一个是本身传递的信息量是有限的。第二个是语音交互效率是比较低。同一件事物,人眼去看和人耳去听,视觉接受的速度远远超过语音的速度。

2.语音交互的未来可能性

主动和你说话:现在所有的语音助手,都还是被动地交谈,你必须给出命令,它们才会应答。但想像一下 Google Now,深度学习和大数据已经做好了充足的准备,它们能预知你接下来要去哪,要见什么人,甚至在想什么,只需要用语音的方式输出这些信息。想比起 Google Now,你不再需要点亮手机去查看这些智能的提醒,随时随地,会有一个声音和你主动交谈。

集成各类传感器:想像一下,你现在想给朋友转一笔钱。在今天看来,你需要打开支付宝或者某个银行 App,输入金额、验证码、密码,经过一系列复杂的流程,钱才能转出去。而未来,你只需要在家中,对着你的房子说一句把钱转给谁,不出几秒钟就会有语音告诉你已经完成了。借助于一系列传感器,从你的声音纹路、体征指标等一系列数据,语音是最自然的和机器交互的范式。

不能说语音是一个主流的交互方式,因为语音能传递的信息量比较有限。不能说目前语音交互的智能音箱概念很火,就认为语音交互会成为主流的交互方式。

但语音交互会在适合语音交互的情境和任务中会成为主流的交互方式。

【未来的交互趋势】

目前来说,未来的主流交互方式的是不确定的。但有一点肯定的是,更高效率、更加自然、更加接近于人本能的方向是未来交互的方向就像现在的VR、AR、MR技术,其实也是在模拟人与现实交互的一种过程。为什么是这样一种趋势呢?是因为人机交互最终是和人的感官进行交互,而人的感官所适应的系统是几百万年来进化当中和自然交互的一个过程。所以人和自然之间的交互是最高效、舒适的。所以现在的人机交互就要尽量模仿人与自然交互的这样一个方式。

具体来讲会产生下面的几个变化:

变化一:从功能化的设计转向场景化的设计。比如说在你做饭的时候和开车的时候,这个场景下它的VUI的效率要高于GUI。

变化二:从规则指令交互转到自然语言交互。自然语言交互不仅限于VUI,而GUI上也可以进行自然语言的交互。

变化三:从单屏交互到无处不在的交互。我们未来的界面可以不再是大家认为的最传统的矩形,可以是任意的形状,像自然界当中的物体一样的形状。

未来可能神经元是效率最高的,不需要看,直接就能把人的意识或者想法数据化传递到云端。神经元要用什么载体来表现?大概是可穿戴设备之类的产品,或者就是一块芯片,贴近皮肤或者是植入皮肤内。这个现在也说不准,因为现在还没解决意识到底能不能转化为数据。

真正好的交互方式,应该符合人的直觉,即做到上手即用。你可能在很多地方读到乔布斯曾有一个要求:iPhone 从三岁的小孩子,到七十岁的老人,都可以无障碍地上手,因此只保留一个实体 Home 键,让人无从选择,也不用思考,一切从这里可以点亮。

回顾一下人机交互的发展历程,实际上是对机的不断改造,以解放人的过程。最早期的电脑,键盘是唯一的输入设备,后来有了图形界面 GUI,才有了鼠标。而键盘和鼠标本身,是需要较高的学习成本的,试试观察你年迈的父母使用鼠标,精准操控鼠标、掌握单双击的速度节奏,这些对他们来说,都不是容易事。

而语音交互,则是进一步对手和眼睛的解放,全程只需要说和听,对身体来说,感官上的体验和占用肯定是更轻了,并且相比起鼠标、键盘、遥控器乃至触屏来说,说话做为一种交互方式,学习成本显然是最小的。(内容转自知乎:风一样的男子)

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注