论文部分内容阅读
全球化的背景下,教育、经济、文化等活动的开展跨越了国界。一方面,互联网的蓬勃发展推动着全球化的进程,另一方面,语言或许正在成为全球化最后的障碍。自动化语言识别技术就在这种背景下不温不火地向前发展。笔者对国内外文本自动分类、机器翻译、多语言信息检索等相关领域的研究进行了详细的调查研究。业界普遍赞同将语言识别问题看作是“基于某些特征进行文本分类”这一问题的一个特例。文本分类相关研究自上世纪60年代贝叶斯概率分类器问世起至今,大致经历了文本自动分类、人工辅助分类和机器学习三个阶段。一些统计分类算法,诸如KNN算法、决策树、Rocchio算法、朴素贝叶斯算法、支持向量机、最大熵模型、遗传算法、神经网络等等,均在目前文本自动分类的研究中表现出色。而作为机器学习重点研究领域之一的机器翻译挑起了目前绝大多数多语言信息检索系统核心模块的重担。机器翻译借助辞典、语料库、本体以及在此基础之上构建的谷歌在线翻译、互联网通行机器翻译系统(Internet Passport MT System)和在线世界语机器翻译系统(Online WorldLingo MT System)等免费可得的工具,来实现查询词和多种语言形式的待检文档之间的沟通。多语言自动识别作为机器翻译的前导,是目前被普遍忽略却又对多语言信息检索结果有重要影响的研究领域。对于语言自动识别这一领域,其面临的问题与其说属于文本分类研究领域,不如说属于自然语言处理的研究范畴。本文实现的多语言自动识别程序,便是基于自然语言处理中著名的N-Gram理论之上。N-Gram是一种概率统计语言模型,又被称为一阶马尔可夫链。这一理论主要应用于词性标注、音字转换以及语音语言识别。尤其在语音识别领域,它被认为是目前实现快速精确语音识别系统最成功的方法。本文使用它进行以文本形式存在的语言自动识别研究。研究对象为汉语、英语、法语、德语、俄语和日语韩语等互联网使用最广泛的七种语言。多语言识别实验分为训练多语种语料库和语种识别两个阶段,训练和测试文本均来自于开放式目录工程(Open Directory Project)。识别实验结果证明,该程序对英语和德语长短文本的平均识别正确率最高,均为100%,俄语其次,为94.44%,接下来依次是中文简体94.44%,中文繁体83.33%,法语83.33%,韩语16.67%,若排除汉语语词特征影响,韩语可被准确识别。实验进一步选取日文中常见的两种编码EUC-JP和SHIFT-JIS,依照上述训练和识别两个步骤,对N-Gram理论应用于编码识别时的有效性进行了探索性的验证,并取得了令人惊喜的结果。对EUC-JP和SHIFT-JIS编码的正确识别比例分别为85%和95%,识别误差率均低于0.0020。使用N-Gram理论进行编码识别是本文的一个亮点。随后,笔者引入全文检索框架Lucene3.5,结合其核心代码,介绍了多语言识别相关的索引模块和搜索模块的工作原理,分析Analyzer内建类。并依据索引、搜索模块的相关接口对上述语言识别程序进行了细节处理,将中文简体和中文繁体的识别结果统一返回为"Chinese"类型,日语、韩语识别结果统一返回为“CJK”类型。由此将多语言自动识别程序扩展为Lucene3.5的多语言自动识别模块,分别在建立索引和用户检索两个阶段穿插多语言识别功能,以期协助Lucene实现跨语言检索系统的开发,以及平滑用户的跨语言检索体验。这项工作目前尚未发现有研究者涉足。由于篇幅和时间的限制,仅在文中给出模块及其接口设计,实现基于Lucene的多语言检索系统将是下一阶段的研究任务。