为何语音识别技术最终会走入办公室

来源 :微电脑世界 | 被引量 : 0次 | 上传用户:jiangshuang_1975
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  早上上班后你走到办公桌旁,在电脑跟前坐下。你开始娴熟地敲键盘、点鼠标,而不是向电脑发出语音命令、口述电子邮件或者发给老板的备忘录。在办公室环境,语音技术原本有望为我们节省时间、提高工作效率,可大多数人还是仍在使用键盘和鼠标。
  不过一旦我们离开了办公室,许多人不假思索地向智能手机发出语音命令,无论这意味着语音拨号手机、向谷歌报出搜索词语,还是询问Siri今日天气如何。
  市场调研机构Opus Research的高级分析师兼创始人丹?米勒(Dan Miller)表示,提供语音技术的公司已投入巨资,研发“个人数字助理”概念,比如苹果的Siri以及出现在许多谷歌手机上的谷歌语音操作(Google Voice Actions),它们懂自然语言命令。他表示,实际上最近在语音识别技术方面的突破大多出现在移动设备端的基于云计算的自然语言搜索领域。
  主要进展就是,语音工具现在离用户更近了——出现在我们日常使用的手机和平板电脑上,许多工具在云端使用,这提供了立即处理功能和不断扩展的语言数据库。不像老式的桌面端软件,这些新工具不需要语音训练,这归功于算法方面取得的进步。
  当然,今天的语音识别技术并非尽善尽美。即使在移动设备上,语音识别软件也并不适用于每个人。而有些自然语言句子仍然让智能化程度最高的语音控制系统都犯难,比如“告诉我的老板我开会要迟到”。Nuance、微软和苹果等公司已建立了庞大的语言数据库,供自己的语音识别产品使用。但即使在今天,这类软件有时还很难懂得牛肉制品“汉堡包”(hamburger)与德国城市“汉堡”(Hamburg)之间的区别。
  米勒说,我们需要在云端运行更高程度的人工智能。他说:“我们离目标越来越近。各个层面都面临挑战,但正在取得进展——不过可能永远不会尽善尽美。”
  可是,虽然越来越好的结果正在促使移动设备采用语音识别技术,但这项技术在工作场所还没有产生太大的影响:步入美国的随便一个企业园区,很难看到有员工在下达语音命令。我们将探讨什么因素在阻碍语音识别技术,并介绍这项技术在办公桌前和办公室都有望造福员工的几个方面。
  工作站前的语音
  对于视力欠佳的用户或患有重复性劳损(如腕管综合症)的那些人来说,通过语音控制电脑大有意义,可用于浏览及操控界面和应用程序、进行搜索以及口述内容很长的电子邮件和工作文档。其他用户也能从中受益,尤其是打字很慢的人、移动用户以及想记录会议纪要的与会人士。
  米勒表示,该技术现在就出现在世人面前。基本的语音控制功能多年前就内置到Mac OS X和Windows中。今年夏天,苹果将为其OS X美洲狮版本添加语音到文本口述功能。去年,谷歌往台式机和笔记本电脑上的Chrome浏览器引入了最初出现在移动设备上的语音发起的搜索这一功能。
  至于更高级的口述和个人电脑控制功能,专用的语音识别软件(如Nuance公司的Dragon NaturallySpeaking)这些年来逐步改进。在美国某杂志的测评人员拉蒙特?伍德(Lamont Wood)进行的测试中,最新版的NaturallySpeaking Premium从语音到文本的转换准确率超过99%。
  伍德表示,对他来说,通过语音写东西的速度大约2倍于通过打字写东西。其他用户获得的效果有所不同,这取决于他们的打字速度以及使用语音软件的熟练程度。他还指出,使用最新的降噪耳机意味着这种软件不会受到背景声音的困扰,在过去这常常是个问题。
  那么,为什么没有更多的人通过语音与电脑进行交互呢?米勒说,人们往往很怕难为情。在办公室环境,不是每个人都习惯于脱口说出自己的想法和言语,要是只有少数人在这么做,更是如此。
  不过,他认为移动设备语音搜索有助于让语音技术总体上更受欢迎。他表示,最近的一项调查显示,11%的调查对象称自己习惯于将Siri用于语音搜索。目前这个比例并不高,但是随着越来越多的人采用,而且越来越习惯,在办公室使用语音应用软件对许多人来说似乎更加切实可行。这将遵循总体趋势:人们先在家里或私下使用技术,然后希望在工作场所也能使用。
  此外,研发人员在探究语音的新用途,尤其是在游戏和娱乐领域(比如在Xbox上开始播放电影)。语音命令在各个场合似乎都很自然,这只是个时间问题。米勒说:“人们很快会发现,同样可以通过语音控制CAD软件、个人电脑及其他个人设备和办公工具。”
  值得关注的是,语音硬件在办公室已经很普遍。任何一台新购的办公笔记本电脑都已经内置了视频会议功能,带网络摄像头和高品质麦克风。当你步入许多公司的会议室,会看到带高级麦克风的免提电话。新机型甚至会对准讲话的那个人,降低背景噪声。
  J. Markowitz咨询公司的著名语音技术专家朱迪思?马科维茨(Judith Markowitz)也认为,硬件不是阻碍语音技术在办公室流行起来的因素。他表示,问题在于让自然语言命令得到更广泛的应用。而自然语言命令只是另一种交互方式,就像我们敲打的键盘或点击的图标那样。
  她说:“语音无法查明是否存在过热问题,也无法提醒你有约会。那是后端系统或应用软件的任务。Siri的语音识别部分也没有这种功能。自然语言理解能力、人工智能和应用程序的功能共同造就了Siri这款出色的个人助理。语音技术把语音输入转换成Siri的后端及其他iPhone应用软件能使用的一种形式。”
  马科维茨表示,如果开发人员决定为企业应用软件添加语音命令和声音提醒,语音在办公室就派得上用场。米勒赞同这个观点,不过他指出,这有点像先有鸡还是先有蛋的情况。开发人员将语音功能添加到应用软件之前,希望知道企业环境的用户习惯使用的语音(而且不会妨碍同事),但是只有这些功能广泛出现,用户才有可能习惯使用它们。
  米勒表示,想让语言更被办公室环境的用户所熟悉,一个简单的方法就是为企业应用软件添加语音提醒。比如说,应用软件可能告诉你数据中心存在一个问题,而不是显示文本提醒信息。用户可以根据需要,将提醒由语音方式改为文本方式。   当然,两位专家都一致认为,语言并不是在每种计算环境下都是最合适的输入方法。它给艺术家、摄影师、视频编辑和程序员带来的帮助不像给普通的办公室员工、管理人员和IT人员带来的帮助一样大。Photoshop中精细的像素级编辑可能根本无法得益于语音输入,不过人工智能可能会发展到这个程度:我们说“修复照片的左下角1/4部分”,Photoshop就会进行相应的操作。
  办公室周围的语音
  Nuance公司总经理彼得?马奥尼(Peter Mahoney)认为,遍地开花的云计算将有助于推动语音技术,从电脑扩大到工作场所的其他地方。比如设想一下:能够使用内嵌式麦克风在会议室口述电子邮件,或者坐在大厅等待时查阅日程表,哪怕你把移动设备落在办公桌上。
  他表示,这一幕要成为现实,语音系统就要连接到其他办公室系统。比如说,语音系统可能连接到公司的联系人和日历系统,知道你的会议日程表(及其他与会者的日程表)。它还可能连接到建筑物的安全和网络管理系统,那样它能告诉你是否在办公室、登录到办公电脑上。
  互连系统可以在白天收集关于你的数据,而且正如人的大脑保留短期记忆那样,它会确定你的具体背景。这可能意味着,语音系统知道你晨会要迟到,因为你没有登录到电脑上;它可以查阅你的会议日程表,找到相应的一个或多个联系人,告知你会迟到。
  马奥尼表示,如今这些信息往往是孤立的。但他预测,在今后一两年,语音技术会逐渐变得有更强的互连性。“它可能会先联系日历程序,知道你要会见约翰,然后日历程序会通过语音联络联系人数据库。”
  米勒表示,许多公司已经在现有的系统中拥有关于联系人和角色的信息,比如活动目录列表和人力资源数据;许多公司还有内部建筑图。那么,到底是什么因素在阻碍这一切呢?
  马奥尼表示,自然语言命令正在改进,但系统不是足够清楚地明白信息的上下文。他说:“需要构建数据模型,找到人们可能会问的前100个问题,然后找到合适的信息源,以明白那些问题,比如地图应用软件。”毕竟,这与Siri等虚拟助理在移动设备上进行的操作没什么太大的不同:查询不同的信息源(基于云和本地),找到相关信息,发送提醒信息,等等。
  马奥尼设想,随着互连系统在将来扩大语音技术的应用范围,它们还有望改进语音软件的准确性和理解能力。借助无处不在的云连接,语音系统可以根据你所在的位置、所做的事情、身边的人以及接下来要做的事,明白你想表达的意思。“即使你没有明说,系统也知道你想表达的意思。”
  链接:语音应用软件如何知道你说的是什么?
  Opus Research公司的丹?米勒表示,今天的语音识别系统使用统计语言建模,这本质上是一种最佳猜测,结合你整个句子的上下文,猜测想要说的意思。比如说,今天的系统借助前后单词,知道你想说的是“you’re”(你是),而不是“your”(你的)。
  要是说话者口音重,或者采用罕见的方言,这些系统还是经常无能为力。为了明白这些人说的话,语言系统必须建立一个发音库、去除任何背景噪音,并不断拿所说的单词与已正确识别的那些单词进行比对。
  据语音技术咨询公司NewSpeech的总裁比尔?肖尔茨(Bill Scholz)博士声称,方言和重口音的主要问题是,语音程序并不分析声音模型以寻找语音方面的变化。他表示,典型的语音合成器可能有几百万个声音样本,但这还是不足以应对各种方言、不常用的俚语或含糊的话。不过,随着系统不断积累更多的语音数据,模型会日趋改善。
  肖尔茨补充说,语音算法也需要改进,以排除干扰,比如你在说话时的咳嗽声。他表示,语音技术公司应对识别的一个办法就是,更准确地识别某人何时开始说话、何时说完。
  沈建苗编译
其他文献
随着视听体验的升级,越来越多的人不满足于几十英寸的电视屏幕,纷纷投入了家用投影机的阵营,以欣赏更加清晰、明亮、巨大的画面,享受到3D画面带来的绝佳视觉感受。但目前家用投影机价格昂贵、安装使用要求高等诸多原因限制了其发展。丽讯近期高调推出了家用投影机明星产品H1180HD,有望改变现有格局,开启家用投影的新时代。  H1180HD作为丽讯精心打造的重点产品,完全融入了“Vivid Color,Viv
期刊
HGST(昱科环球存储科技公司)日前宣布推出业界速度最快、最先进的企业级、多层单元存储(MLC)SSD系列——Ultrastar SSD800MH、Ultrastar SSD800MM和Ultrastar SSD1000MR。产自企业级SAS/FC SSD市场份额领导者HGST,这些硬盘是首批达到目前SAS接口速度2倍的硬盘。HGST的全新12Gb/s SAS SSD专为要求最严格且热点数据被频繁
期刊
但事实远非如此。PC未死,只是成了微波炉那样的电器。但这种状况不会维持太久。且听我把话讲完。  神奇归为平淡  一直到上世纪90年代初,电脑还是种奢侈品,甚至是个奇特物件。要是你儿时的玩伴有台386电脑,你会每天泡在他家里,在点阵式打印机上打印出ASCII码,玩非同步的电子邮件对战(PBEM)或多用户地牢(MUD)游戏。多么美好的时光!而如今,周边的每个人都有一台PC,就像周边的每户家庭都有电炉、
期刊
优派2013显示新品发布(TD3240-front-pro.jpg)  4月26日,优派“视讯科技王者智能触摸未来——2013美国优派(ViewSonic)顶尖显示耀世登场”新品发布会隆重召开。作为拥有26年视讯科技沉淀的科技品牌,优派携旗下触摸、智能、高分辨率、色界广色域以及魔界窄边等五大系列近20款新品,组成强势阵容正式上市中国。  由TD2340、TD2740、TD3240组成的全新触摸显示
期刊
2013年春天,对于所有的PC产业巨鳄来说却并不是一个美好的季节。4月11日,IDC最新发布的数据表明,2013第一季度全球PC市场总销量同比下滑14%,远远超出预期值,并且与去年四季度相比呈现出加速下滑的趋势,很多人把这样的结果归咎于微软Windows 8的不给力。而根据英特尔4月17日发布的2013一季度财报,英特尔主营业务PC 客户端事业部收入为80亿美元,环比下降6.6%,同比下降6.0%
期刊
掀起相聚新风潮  联想智能桌面IdeaCentre Horizon(联想智能桌面,1,产品稿配图,3张图拼成一张)  4月19日,联想在京召开联想智能桌面在国内首发体验会,正式发布联想智能桌面IdeaCentre Horizon。秉承“放平世界重新相聚”的理念,以多人交互操作为支撑,为家人、朋友、爱人间的相聚带来不同以往的全新体验。  “世界上最远的距离,不是生与死,而是我就在你面前,你却在低头玩
期刊
3D显示器普及加速(金1.jpg)  AOC锐锋3D版再领风潮  2013年开春,AOC延续之前经典系列“刀锋”所倡导的“锐生活”理念,推出了旗下全新系列“锐锋”显示器,在带给用户新一轮“锐风潮”的同时,其3D版更是以成熟的功能搭载,缔造了2013年新一代3D产品的主流模式,加速了3D显示器的市场普及。  AOC“锐锋”3D版采用了新一代广视角技术(AH-IPS)、LED背光源,并具备更成熟、更健
期刊
数码复合机  高效整合企业办公  佳能iR1700系列数码复合机 [Canon-iR1730.jpg]  4月16日,佳能(中国)有限公司宣布推出全新A4幅面中高速数码复合机iR1700系列。该系列共有iR1750/1740/1730三款机型,分别提供每分钟50、40、30页高速双面输出能力,充分满足企业大负荷量输出需求。  佳能iR1700系列A4幅面中高速数码复合机集打印、复印、扫描功能于一身
期刊
超级“屏”体验(海尔haipad mini.png)  海尔8英寸haiPad mini上市  海尔电脑近日在北京举行了8英寸平板电脑haiPad mini上市体验会,展示了其最新IPS高清屏和9.6mm纤薄机身。  haiPad mini采用极具时尚潮流感的圆弧边框与窄边框设计,色彩搭配选用永不过时的黑白灰3色,让haiPad mini富有现代气质。  HaiPad mini采用高分辨率IPS屏
期刊
微星GAMING系列主板9 Z77A-GD65 GAMING (MS-7751 v5.0)_3D)  4月8日,微星在京召开“JUST GAME!”微星GAMING主板上市发布会。发布会在使用微星GAMING系列主板的微星OC24极限大师拉力赛后,被冠以“游戏利器”与“超频能手”的微星GAMING系列主板随之发布。  GAMING系列主板包括Z77A-GD65 GAMING、Z77A-G45 GA
期刊