一种多语言、多编码的识别方法

来源 :南京大学 | 被引量 : 0次 | 上传用户:diaro
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全球化的背景下,教育、经济、文化等活动的开展跨越了国界。一方面,互联网的蓬勃发展推动着全球化的进程,另一方面,语言或许正在成为全球化最后的障碍。自动化语言识别技术就在这种背景下不温不火地向前发展。笔者对国内外文本自动分类、机器翻译、多语言信息检索等相关领域的研究进行了详细的调查研究。业界普遍赞同将语言识别问题看作是“基于某些特征进行文本分类”这一问题的一个特例。文本分类相关研究自上世纪60年代贝叶斯概率分类器问世起至今,大致经历了文本自动分类、人工辅助分类和机器学习三个阶段。一些统计分类算法,诸如KNN算法、决策树、Rocchio算法、朴素贝叶斯算法、支持向量机、最大熵模型、遗传算法、神经网络等等,均在目前文本自动分类的研究中表现出色。而作为机器学习重点研究领域之一的机器翻译挑起了目前绝大多数多语言信息检索系统核心模块的重担。机器翻译借助辞典、语料库、本体以及在此基础之上构建的谷歌在线翻译、互联网通行机器翻译系统(Internet Passport MT System)和在线世界语机器翻译系统(Online WorldLingo MT System)等免费可得的工具,来实现查询词和多种语言形式的待检文档之间的沟通。多语言自动识别作为机器翻译的前导,是目前被普遍忽略却又对多语言信息检索结果有重要影响的研究领域。对于语言自动识别这一领域,其面临的问题与其说属于文本分类研究领域,不如说属于自然语言处理的研究范畴。本文实现的多语言自动识别程序,便是基于自然语言处理中著名的N-Gram理论之上。N-Gram是一种概率统计语言模型,又被称为一阶马尔可夫链。这一理论主要应用于词性标注、音字转换以及语音语言识别。尤其在语音识别领域,它被认为是目前实现快速精确语音识别系统最成功的方法。本文使用它进行以文本形式存在的语言自动识别研究。研究对象为汉语、英语、法语、德语、俄语和日语韩语等互联网使用最广泛的七种语言。多语言识别实验分为训练多语种语料库和语种识别两个阶段,训练和测试文本均来自于开放式目录工程(Open Directory Project)。识别实验结果证明,该程序对英语和德语长短文本的平均识别正确率最高,均为100%,俄语其次,为94.44%,接下来依次是中文简体94.44%,中文繁体83.33%,法语83.33%,韩语16.67%,若排除汉语语词特征影响,韩语可被准确识别。实验进一步选取日文中常见的两种编码EUC-JP和SHIFT-JIS,依照上述训练和识别两个步骤,对N-Gram理论应用于编码识别时的有效性进行了探索性的验证,并取得了令人惊喜的结果。对EUC-JP和SHIFT-JIS编码的正确识别比例分别为85%和95%,识别误差率均低于0.0020。使用N-Gram理论进行编码识别是本文的一个亮点。随后,笔者引入全文检索框架Lucene3.5,结合其核心代码,介绍了多语言识别相关的索引模块和搜索模块的工作原理,分析Analyzer内建类。并依据索引、搜索模块的相关接口对上述语言识别程序进行了细节处理,将中文简体和中文繁体的识别结果统一返回为"Chinese"类型,日语、韩语识别结果统一返回为“CJK”类型。由此将多语言自动识别程序扩展为Lucene3.5的多语言自动识别模块,分别在建立索引和用户检索两个阶段穿插多语言识别功能,以期协助Lucene实现跨语言检索系统的开发,以及平滑用户的跨语言检索体验。这项工作目前尚未发现有研究者涉足。由于篇幅和时间的限制,仅在文中给出模块及其接口设计,实现基于Lucene的多语言检索系统将是下一阶段的研究任务。
其他文献
<正> 脑脊液(CSF)循环于脑室及蛛网膜下腔,是中枢神经系统的内环境。它与脑和脊髓的细胞间液相互沟通,在脑室及蛛网膜下腔互相渗透,CSF具有极其重要的生理功能。因此,动态测
在环境日益恶化的今天,人类提出了污染预防——清洁生产的概念。随着清洁生产在我国的推广,各行各业纷纷行动起来,与传统产业升级相结合,加速清洁生产在本行业中的推广,于是
当IT技术对企业管理产生着深远影响的同时,作为管理核心的企业财务管理同样经历着巨大的变革。现阶段企业财务管理的主要趋势是采用财务集中管理模式,将业务流、信息流与资金
自1970年以来,我国黄瓜的栽培面积和产量一直居世界首位,但单位面积产量很低。究其原因,病虫害是影响黄瓜生产的主要因素。在我国农业生产者素质较低、专家型农业科技人员奇
针对电压模型在低速区存在的缺陷,采用一种改进型电压模型,该模型由电压模型和电流模型有机地组合而成,扩展了电压模型的调速范围。设计了基于改进电压模型的矢量控制系统动
本文介绍了青岛市橡胶二厂内衬层生产线技术改造的研究。这次设计的任务是将直流调速系统改为交流调速系统,采用性能优越的控制器——SIEMENSS7-300 PLC,强化系统的操作画面
制造行业的产品再回收对于制造企业来讲有着重要的经济意义,当然对于汽车制造企业来讲也是一样。本文针对废旧汽车再制造的相关特点,以汽车制造企业为案例进行独立废旧汽车供
【正】 近年来,我国山东、陕西等省相继发现几处窖藏鎏金铜佛造像,诸如1973年8月临潼纸李通灵寺址出土鎏金铜佛造像二百四十件,1983年9月山东博兴崇德村出土北朝和隋代鎏金铜
双关是广告中广受欢迎的一种修辞方法,同时也是实现广告诉求的一种重要手段。本文以概念整合理论为基础,旨在对广告双关进行全面系统的分析。本文尝试回答以下三个问题:广告
生产要素投入量的增长和全要素的提高对经济增长有着直接的作用,本文从宏观角度,以全国为研究对象,利用索洛模型计算出1985~2017年资本投入、劳动投入和技术投入对经济增长的