论文部分内容阅读
自上世纪六十年代以来,我国航天事业飞速发展,积累了海量的航天信息资源。在对航天信息进行检索和分析时,传统的人工方式费时费力,已经无法胜任航天信息检索任务,必须依靠搜索引擎技术。中文分词作为搜索引擎技术的关键性步骤,分词的效果会极大的影响检索的准确性。我国的中文分词技术虽然位居世界前列,但是大部分中文分词的研究集中在通用领域,很少有面向航天领域的中文分词研究,因此,一个性能优良的航天领域中文分词算法对于航天信息检索任务意义重大。本文主要是面向航天领域的中文分词算法研究,首先研究了目前常见的三种中文分词算法,分析并总结了传统中文分词方法存在的问题,针对航天领域术语的特点,在传统中文分词算法的基础上提出了多策略融合中文分词算法。本文提出的多策略融合中文分词算法由三个模块组成,分别是基于词典的初分词模块、歧义消解模块以及航天领域术语抽取模块。在基于词典的初分词模块,针对最大匹配算法存在的不足,本文提出了一种改进的最大匹配算法(DF-MM),同时基于中文词语二字词居多的特点,设计了一种带词长词频的双哈希词典构造机制。在歧义消解模块,为了保证歧义消解的准确性和高效性,提出了一种统计和规则相结合的歧义消解方法:待切分语料经过正向最大匹配算法和逆向最大匹配算法切分后,如果切分出的词语数量不一致,根据“最少切分”原则,保留词数少的切分形式作为最终的歧义消解结果,如果切分出的词语数量相同,则采用Bi-Gram模型,分别计算两种切分形式的概率,保留概率大的切分形式作为最终的歧义消解结果。在航天领域术语抽取模块,采用目前流行的条件随机场模型,将航天领域术语抽取任务转化为序列标注问题,通过总结航天领域术语的特点,采用5-tag标记法、提取5种特征建立特征模板来完成航天领域术语抽取任务。多策略融合中文分词算法结合了几种传统中文分词算法的优势,其分词主模块选取基于词典的中文分词方法,保证了算法整体的高效性,为了克服中文分词领域的歧义问题和未登录词问题,添加了歧义消解模块和术语抽取模块。通过实验验证,本文提出的多策略融合中文分词算法以及各个子模块的性能相比于传统的方法均有所提升。最后,将多策略融合中文分词算法应用到“航天智库检索系统”中,提高了系统分词的准确性,为用户提供更加精确的检索结果。