机器如何学会听懂人说话

来源 :新传奇 | 被引量 : 0次 | 上传用户:zzjokok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  “在美国DARPA计划刚启动语音识别理解研究计划的时候,有人认为其困难程度无论怎样也不会比‘阿波罗登月’更高。事实却证明,其挑战性一点不亚于 ‘阿波罗登月’。”
  最初只能识别语音的基本单位“音素”
  一个刚学会走路的小孩摇摇晃晃穿过起居室,来到墙角的一个光滑的黑色圆柱体前停下来。他尖声说道:“Alexa,播放儿童音乐。”虽然发音含混不清,但是这个圆柱体明白了请求,房间里响起了音乐。
  Alexa是亚马逊的云端语音识别软件,它是黑色圆柱体音箱Echo的大脑。Alexa的面世在全球造成了轰动。在人工智能的支持下,Alexa学会了回答越来越多的问题,有朝一日可能会进化到能与人自由交谈的地步。
  但是语音识别软件发展到今天经历了漫长的道路。虽然Echo比啤酒杯更瘦,但是第一批语音识别机器几乎可以占满一整个房间。
  人类很久以前就试图对机器讲话——或者至少让机器对我们说话。1773年,俄国科学家克里斯蒂安·克拉特齐斯坦开始思考语音技术。他制造了一个特别的设备,把共鸣管和风琴管连接起来,发出类似于人类语言中元音的声音。就在十多年后,维也纳的沃尔夫冈·肯佩伦制造了一台类似的机械声学语音机器。在十九世纪初,英国发明家查尔斯·惠斯通用皮革共鸣器改进了冯·肯佩伦的系统。该系统可以通过手动调整或控制发出像语言一样的声音。
  到1881年,亚历山大·贝尔和他的兄弟查尔斯·天特一起制造了一个蜡涂层的旋转圆柱体,一根唱针对传入的声音压力作出反应,切出垂直的凹槽。这一发明为1907年获得专利的第一台留声机铺平了道路。他们是希望用机器来听写秘书念的笔记和书信,这样就不再需要速记员。随后,这些记录可以用打字机打出来。这一发明很快在全球流行起来,在越来越多的办公室里,秘书会带着笨拙的耳机,聆听录音并完成转录。
  但所有这些雏形都是被动式机器——直到1952年自动数字识别机“Audrey”的问世。它由贝尔实验室制造,体型巨大,占满了一个六英尺高的继电器架子,耗电量很大,连接着大量缆线。它能够识别语音的基本单位“音素”。
  那时,计算机系统非常昂贵、笨重,存儲空间和运算速度有限。但是Audrey仍然能够识别数字的发音——零到九——准确率高达90%,至少它的开发者戴维斯发音时是这样。当面对其他几位指定的说话者时,它的准确率为70%到80%,但如果是不熟悉的声音,它的准确率就会大大降低。这在当时是一个惊人的成就。
  识别单词难度不亚于阿波罗登月
  由于Audrey只能识别指定说话者的声音,它的用途就比较有限:比如它可以为收费电话的接线员提供语音拨号的功能,但实际上没有这个必要,因为在大多数情况下,通过手动按钮拨号成本更低,且更简便。虽然它并没有用在生产系统中,但是它说明了语音识别是可以实现的。
  二十世纪七十年代和八十年代,贝尔实验室语音研究投入了大量精力研究以下内容:识别数字零到十以及“是”与“否”。“电话系统在能够识别这12个单词后,就能够单纯依靠机器完成电话接线。”奥戈尔曼说。
  Audrey并不是唯一。二十世纪六十年代,日本的几个团队也对语音识别进行研究,最著名的包括东京无线电研究实验室的元音识别器、京都大学的音素识别器和NEC实验室的数字语音识别器。
  在1962年的世界博览会上,IBM展示了它的“鞋盒”机器,它能够理解16个口头表达的英语单词。美国、英国和苏联还有其他研究。苏联的研究人员发明了动态规整算法,并将其用来制造一个能够驾驭200个单词的识别器。但这些系统大都基于样本匹配,也就是把单词与存储在机器里的语音进行匹配。
  最大的一次飞跃发生在1971年,当时美国国防部的研究机构Darpa出资开展一个为期五年的语音理解研究项目,目标是达到1000个单词的词汇量。于是,Harpy在卡内基梅隆大学诞生。
  “在美国DARPA计划刚启动语音识别理解研究计划的时候,有人认为其困难程度无论怎样也不会比‘阿波罗登月’更高。事实却证明,其挑战性一点不亚于 ‘阿波罗登月’。”中国科学院自动化研究所研究员徐波研究员这样说。
  和它的前辈不同,Harpy能够识别整句话。
  从单词转到词组并不容易。“句子里的单词会交汇起来,你会弄不清楚,不知道單词从哪里开始,到哪里结束。于是,你会得到相似却错误的结果。”在Harpy项目工作过的韦贝尔说。
  Harpy一共能识别1011个单词,这大概是一个普通的三岁小孩的词汇量。它的准确率也相当不错,所以实现了Darpa最初的目标。“它成了现代语音识别系统真正的祖先。”
  成功识别不同人的不同口音
  在之后的一些年里,语音识别系统进一步发展。在二十世纪八十年代,IBM制造了语音激活的打字机Tangora,它能够处理20000个单词的词汇量。IBM的方法是基于隐马尔可夫模型,把统计学纳入数字信号处理技术。这一方法让我们有可能预测哪些音素最有可能出现在某一给定音素的后面。
  IBM的竞争对手Dragon Systems提出了自己的方法。此时,技术取得了长足的进步,语音识别终于能够应用到实际生活中——比如可以让儿童训练讲话的玩偶。虽然取得了很多成就,但是当时的所有程序都采用了不连续听写,这意味着用户必须在每个单词后停顿一下。1990年,Dragon Systems发布了第一款消费语音识别产品Dragon Dictate,9000美元(约62000人民币)的售价令人咂舌。然后,在1997年,Dragon Naturally Speaking 问世——这是第一款连续语音识别产品。
  “在那以前,语音识别产品局限在不连续的话语,这就意味着它们一次只能识别一个单词。”Dragon总经理彼得·马奥尼说。Dragon是连续语音识别的先锋,它首次实现了实用的语音识别。Dragon Naturally Speaking每分钟能够识别100个单词的话语——时至今日,它仍在使用。比如美国和英国的很多医生用它来归档医疗记录。
  在过去的十年间,大致基于人脑工作模式的机器学习技术让计算机能够接受大量语音的训练,从而成功识别不同人的不同口音。然而,直至谷歌发布了用于苹果手机的谷歌语音搜索应用“谷歌声音搜索”,技术才又继续向前发展。谷歌能够运行大规模的数据分析,匹配用户的单词和数十亿个搜索词条中积累的大量人类语音的例子。苹果也很快推出了它自己的版本,名为Siri。
  所以,下一步会发生什么?“在语音处理领域,最成熟的技术就是语音合成。”奥戈尔曼说:“机器语音和人类语音现在已经基本上无法区分。但是在很多情况下,自动语音识别与人耳相比仍有较大差距。”虽然在一个几乎没有噪音的环境下,一个人只要讲话清晰就能被自动识别,但是当环境嘈杂时,最新技术仍束手无策。就连Alexa也是这样,如果房间里很吵闹,你就必须靠近黑色圆柱体,清楚大声地对它讲话。
  亚马逊的目标是制造一个完全可由语音控制的云端计算机——这样你就可以自然地与它交谈。当然,好莱坞的魔法仍然领先于今日的科技。(《海外星云》)
其他文献
饭局,人际交往中的重要方式,却因与公职人员,尤其领导干部联系起来,显得神秘又特别。请客者多是看中领导干部手中的权力,很大程度上摆脱不了“有所求”的嫌疑。那么,领导干部该如何拒绝“动机不纯”的饭局呢?  “三问、四看”确保“无问题饭局”  对于“饭局红线”,多地纪委都曾发文警示。而对党员干部来说,吃饭事小,但“出局”事大!赴饭局前先做好以下三大攻略:  攻略一:“三问”法。在接到饭局邀请后,领导干部
期刊
“她们”的名字诗意,面容娇美,身段妖娆,在微信上通过各种名目让你发红包。“她们”在朋友圈晒各种奢侈生活,家境优越,工作体面,谈笑间上百万收益……然而,这群“白富美”骗子背后藏着很深的套路,令人防不胜防。  企业高管网遇“白富美”  王军今年35岁,是浙江一家外企的中层管理,有房有车,收入颇丰,在外人眼里看来也算是“成功人士”。可王军也有自己的烦恼,那就是终身大事。这些年除了朋友介绍、相亲之外,他在
期刊
原来,那些“星探”和“经纪人”都是业务员,他们与孩子家长沟通的一切内容里透露着细节:家长的家庭住址、开的车的品牌、孩子衣服的品牌,在脑海里汇成了一张“家庭经济状况表”,目的就是最大程度以“童星”这个幌子变现。  究竟有多少“童星”是真的享受他们的“童星”生活?从好莱坞到华语娱乐圈,一个又一个“小时了了,大未必佳”的例子摆在眼前,但还是有很多家长们一门心思地往童星培训的坑里跳。真正把家长们推进坑的,
期刊
樸槿惠被收押在首尔拘留所,她接受了检查并拍摄了所谓的“犯人识别用正面照”。洗完澡后,她换上了淡绿色冬季囚衣,在囚衣左前胸贴着囚犯号码503号。她要和其他囚犯一样规律作息,每天仅能吃到约合人民币9元的简餐。  被捕前一天与弟弟朴志晩泣泪相聚  据韩联社报道,韩国法院3月31日凌晨签发对前总统朴槿惠的逮捕证。  申请拘捕朴槿惠,检方给出的理由有三,从中可以观察接下来调查和最终审判朴槿惠的一些要点:其一
期刊
物理学家杨振宁和李政道,合作长达十六年之久,并同获诺贝尔奖。然而,从1962年以后,他们彻底失和,这成为国际科学界以及中国科学发展史上的一大憾事。直到今天,他们失和的真正原因仍是一团迷雾。  曾经亲如兄弟  1946年,李政道来到美国,师从著名物理学家费米学习理论物理。杨振宁比李政道高两个年级,两人都是西南联大校友,交往自然开始。杨振宁见到李政道以后,对他印象极佳,并且敏锐地察觉到李在物理学方面的
期刊
西方人对中国政治、经济很感兴趣。这些宣传中共执政理念的“红书”满足的是世界对中共的好奇,若中国成为世界最大的经济体,中国将如何使用它的财富和权力?好几个国家总统都甚至当作枕边书来研究。  《习近平思想》的中英文版新书日前在伦敦国际书展首发。幕后操刀者是求是园文化公司总经理、英国新经典出版社社长黄永军。这么多年来,他一直致力于将中共思想传播到海外。  将毛泽东的成功学传播到海外  谈起宣扬中共执政理
期刊
湖南道县近年频现“孕妇盗窃团”:她们以家族邻里村人关系为纽带,“传帮带”形成气候,流窜各地行窃。据统计,该县的“外流盗窃案”每年大约有四五百起。令人吃惊的是,涉案的盗窃团伙携带儿童作案,并利用怀孕来逃避法律制裁。  孕妇带着孩子去盗窃  道县官方提供的资料显示,去年,道县共抓获外流盗窃犯罪嫌疑人45名;接收救助保护未成年人4名。在这类外流盗窃案中,有的孕妇携带自己亲生孩子作案,有的携带他人的孩子交
期刊
二战中,航母之战,可以说是国家重锤之战,每一次航母会战胜负,都代表一个国家战斗值的增减!而人类最大规模的航母大战,当属菲律宾海海战了!此战役影响甚大,日本丧失西太平洋制海权,联合舰队的主力航空母舰损失惨重,舰载机消耗殆尽,使之无法在4个月后的史上最大海战(莱特湾海战)派出舰载飞机支持本方舰队。  史上最大的航空母舰战役拉开序幕  马里亚纳群岛战略地位极其重要,位于琉球、台湾和菲律宾以东,硫黄列岛以
期刊
根据我国刑法第二十条的规定,为了使国家、公共利益、本人或者他人的人身、财产和其他权利免受正在进行的不法侵害,而采取的制止不法侵害的行为,对不法侵害人造成损害的,属于正当防卫,不负刑事责任。  它应该符合五个条件:1.正当防卫所针对的,必须是不法侵害;2.必须是在不法侵害正在进行的时候;3.正当防卫所针对的、必须是不法侵害人;4.正当防卫不能超越一定限度;5.对不法侵害行为人,在采取制止不法侵害的行
期刊
战后的日本粮食缺乏,每人每天只有四两粮食。很多人都面黄肌瘦,营养不良。公园里的花圃草坪被用来种蔬菜土豆,动物园的动物,如狮子、老虎等则被杀来吃掉了,盟军士兵在街上扔下一个烟屁股,立即有日本人抢着去捡。  携带武装进入日本以示威严  1945年8月14日,日本天皇宣布向盟军投降。根据《波茨坦公告》的规定:日本投降后,盟国派遣占领军,在日本要地实行占领,监督其解除武装(只保留警察武装)和降书的具体实施
期刊