论文部分内容阅读
随着信息技术的持续发展和互联网在中国的逐渐普及,Google、百度、雅虎等搜索引擎越来越被人们所熟悉,并被大量的应用。中文信息搜索的学术地位和商业价值吸引了众多的不同领域的学者们,在中文信息处理这个问题上展开了广泛而深入的研究。作为中文信息处理中最基础的一个方向,中文分词技术也得到了很好的发展。从刚开始的基于纯机械分词到后来的基于字标注的分词方法,还有包括综合词典与统计的一些方法。本文先介绍了一下中文分词的背景与目标,然后介绍了一下分词的一些已有算法和其它理论知识,然后对中文分词算法做了一些改进,并实现了这个改进的系统,整个流程:先将待分词的文本按标点符号初次切分,将分词句子变短,然后将句子中的连续的英文字符切开,得到初次切分的句子用改进的正向最大匹配法和逆向最大匹配法再次切分,然后综合使用双向扫描法和全切分算法识别歧义,然后再利用一系列的规则和统计规律进行系统的歧义消解,接着使用基于Bi-gram和HMM的算法进行基本的未登录词识别,最后对切分的连续的四字以内的组合,作为关键字,使用Google提供的关键字工具,进行进一步的未登录词识别。论文中对中文分词算法的主要改进在以下几点:第一,词典的存储形式,针对中文信息中二字词相对比较多的特点,本文采用双字哈希索引的存储形式,并使用位图检测数组提前检测二字的情况。第二,歧义识别与消解。本文基于双向扫描法的简单、快速和全切分的全面、准确率高的特点,提出一种方法:结合两者的优势,从而在不失准确率的基础上尽量提高歧义识别和消解的速度。第三,未登录词的识别,目前在这方面的研究进展始终不大,一直局限在统计和规则方向,一般以统计为主,规则辅之。本文突破以往的限制,提出一种新的思路,基于Bi-gram和HMM的算法,在其基础上借助于Google公司提供的关键字工具来识别未登录词。其过程是我们把连续的四字以内的切分组合作为关键字,查询Google关键字工具,得到该组合关键字的流量,如果流量低于某个阈值,我们就认为它不是一个未登录词,否则认为是一个未登录词,经试验,该思路能很好的识别未登录词,而且这样也能减少词典的个数,避免数量词,人名,地名,机构名等特征词词典,从而更好的提高分词速度。经过试验,该系统对中文分词的召回率、准确率、分全率、速度有了一个平衡,特别是在未登录词识别方面有比较大的提高,整体上符合小规模的实用。