从前,和电脑对话纯粹是从科幻小说里跑出来面来的情节。如果你跟一台电脑说:“开舱门” 那肯定是在电影里。现在越来越多的人会同他们的智能手机对话,命令它们发送电子邮件,发短信,查询路线以及在网上搜索信息。

“我们正处在一个过渡时期。”Nuance 通信的技术总监Vlad Sejnoha说:“在这个时期人声和自然语言的识别是最前沿的技术,我相信语音识别技术将会大大地颠覆现在的电脑技术”Nuance通信的总部设在马萨诸塞州的伯灵顿市。它以它的Dragon 软件和其它产品占领了大部分的语音识别技术市场。

这项技术的进步一部分要归功于帮助机器识别人声的技术,包括机器学习和统计数据挖掘。复杂的语音技术已在各地的呼叫中心应用的相当普遍了。它能引导用户使用菜单并识别那些已经发火的用户,把他们交给真人客服代表。

当今的移动设备正日趋先进,使得智能语音控制越来越实用,越来越普遍。

麻省理工的资深研究员 Jim Glass 从二十世纪八十年代就开始研究智能语音。他说现在的智能手机可以做到90年代只有实验室的机器才做得到的事情。 智能手机还可以同在云端的服务器进行高带宽数据连接。服务器在那里完成它的重头戏,处理语音识别以及辨识人声提问等。Glass说:“ 更多的数据和更多样的操作相结合能让你做到之前无法做到的事情。你可以使用更加复杂的统计模式了。”

移动智能声控最突出的例子当然就是Siri,即最新款iphone里的智能声控助理。虽然语音功能在Windows Phone平台,Android和其它一些移动系统以及很多应用软件里也有,但这些技术仍有相当大的局限(见《社交智能》)。而我们正在一点点靠近可以真正进行人机对话的最终目标。

Nuance 在语音技术繁荣的过程中占有不可替代的地位。它建立于1992年,当时的公司名是Visioneer。 而后逐步收购了很多其它的语音技术公司。现在它在世界各地35个地方和地区设有办事处,员工人数也超过了6000人。 而它在2012年第二季度的财政收入是三亿九千零三十万美元,比去年同期增长了22.4%。

最近几年,Nuance迅速地把他们在声语音别方面的专长用在了语音智能的新兴市场上。它为很多家公司提供语音识别技术,很多人都认为Siri的语音组件就他们提供的。

Nuance的技术总监说这项技术非常适合运用在移动计算上。其中一部分原因是用户有时可能会腾不出手来,还有一个重要原因就是方便。只消说一声,手机就能进行原本需要多次滑动和按键才能完成的操作。Sejnoha说:“突然你有了这个新的方法来解决问题。我相信我们会带着这样的想法进行基础用户交互设备的设计。”

语音识别软件在手机上的成功给了Nuance相当的启发,他们希望能把这项技术用在更多的地方特别是电视和汽车上。因为他们都很普遍且适合技术革新。

比如人们要在电视上找到一个节目或者录制一段节目,就得根据蹩脚的菜单,使用遥控器一项项操作。而试图让操作变得更简单的产品像是Google TV本身就太复杂而难以操作,根本不适合只想用轻松的娱乐节目打发一个晚上的观众们。

在Nuance实验室的一个样板客厅里,Sejnoha向同事们展示了DragonTV软件在电视上的使用。一个同事说:“Dragon TV, 找找Meryl Streep的电影。” 软件就会立刻搜索频道找并出符合条件的电影。现在这项技术已经使用在三星的某些电视机当中了。

曾一度有谣传说苹果将要研发自己的电视,并且有人大胆推测它将采用Siri的控制器。这个推测来自于Walter Isaacson为Steve Jobs撰写的传记,传记里面这位苹果的前任CEO曾宣称已经解决了电视控制技术的问题。

同时,福特汽车已经将Nuance的技术使用在自己的Sync娱乐系统当中。它可以方便驾驶者自己查询路线,调出天气和歌曲。大概已经有四百万已售出的福特汽车的Sync系统都有语音识别功能。上星期,Nuance推出了一种叫做Dragon Drive的软件,这个软件使其他汽车生产商也能享有语音控制功能。

这两处新的技术应用都非常具有挑战性。智能语音控制在智能手机上的普遍使用有一个重要原因,那就是用户能够直接对着设备的话筒讲话。而在电视机旁或汽车里,通常有很多其它的噪音。为了能让这项技术同样应用在电视机和汽车上,公司正在进行排列话筒和排除干扰技术的实验。

Nuance还生产了一种软件开发包,可以让任何用户在任何设备上面实现语音识别功能。俄勒冈州阿什兰的Montrue科技公司用Nuance的手机医疗软件开发包研发出了一种适用于Ipad的应用程序。这种程序可以帮助医生做口述录音。

Montrue科技的创始人兼CEO Brian Phelps 说“它非常精确。声音转了个弯,从机箱里精准的传出”Phelps也是一为急诊医生。

同时,软件开发包巩固了Nuance的地位。通过发送更多的语音数据到服务器上,它帮助公司实现不断更新和提高语音识别功能和语言处理运算技术。就像麻省理工的Glass说的一样,在语音识别领域长期以来有一种说法,“数据永远都不会嫌多。” Nuance称公司将数据保存在某个板块里,以保证用户的隐私安全。

Sjnoha相信,不久以后手机智能语音控制就会更加普及和先进。他说:“到那时我们根本不用碰到手机就可以发出指令。一旦机器听到一些关键词,比如打开日历,准备发信息,查询路线等,它就会立刻执行。”

人们甚至会同穿在身上的计算机讲话。Google正在研发的眼镜照相机就是很好的例子。Nuance说他们也正在为语音技术融入穿着而积极备战。