中文分词算法的研究与实现

被引量 : 0次 | 上传用户:zhanggexian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的持续发展和互联网在中国的逐渐普及,Google、百度、雅虎等搜索引擎越来越被人们所熟悉,并被大量的应用。中文信息搜索的学术地位和商业价值吸引了众多的不同领域的学者们,在中文信息处理这个问题上展开了广泛而深入的研究。作为中文信息处理中最基础的一个方向,中文分词技术也得到了很好的发展。从刚开始的基于纯机械分词到后来的基于字标注的分词方法,还有包括综合词典与统计的一些方法。本文先介绍了一下中文分词的背景与目标,然后介绍了一下分词的一些已有算法和其它理论知识,然后对中文分词算法做了一些改进,并实现了这个改进的系统,整个流程:先将待分词的文本按标点符号初次切分,将分词句子变短,然后将句子中的连续的英文字符切开,得到初次切分的句子用改进的正向最大匹配法和逆向最大匹配法再次切分,然后综合使用双向扫描法和全切分算法识别歧义,然后再利用一系列的规则和统计规律进行系统的歧义消解,接着使用基于Bi-gram和HMM的算法进行基本的未登录词识别,最后对切分的连续的四字以内的组合,作为关键字,使用Google提供的关键字工具,进行进一步的未登录词识别。论文中对中文分词算法的主要改进在以下几点:第一,词典的存储形式,针对中文信息中二字词相对比较多的特点,本文采用双字哈希索引的存储形式,并使用位图检测数组提前检测二字的情况。第二,歧义识别与消解。本文基于双向扫描法的简单、快速和全切分的全面、准确率高的特点,提出一种方法:结合两者的优势,从而在不失准确率的基础上尽量提高歧义识别和消解的速度。第三,未登录词的识别,目前在这方面的研究进展始终不大,一直局限在统计和规则方向,一般以统计为主,规则辅之。本文突破以往的限制,提出一种新的思路,基于Bi-gram和HMM的算法,在其基础上借助于Google公司提供的关键字工具来识别未登录词。其过程是我们把连续的四字以内的切分组合作为关键字,查询Google关键字工具,得到该组合关键字的流量,如果流量低于某个阈值,我们就认为它不是一个未登录词,否则认为是一个未登录词,经试验,该思路能很好的识别未登录词,而且这样也能减少词典的个数,避免数量词,人名,地名,机构名等特征词词典,从而更好的提高分词速度。经过试验,该系统对中文分词的召回率、准确率、分全率、速度有了一个平衡,特别是在未登录词识别方面有比较大的提高,整体上符合小规模的实用。
其他文献
松阳高腔是历史悠久、自成格局的单声腔剧种。它以当地的音乐为基础,吸收并融化了当地的民间音乐与道教音乐,具有浓郁的乡土气息。本文通过对松阳高腔唱腔的帮腔中加入打击乐
人为万物之灵,有人才有物。松下电器公司总裁提出:造物先造人,可见人的重要性;人行了,企业就行了一位民企老板著文说,“企业”去掉人,就是“止业”,所以人最关键。要稳定猪场的生产,提
目的:观察肠外高营养对重症溃疡性结肠炎临床治疗效果。方法:对119例重症溃疡性结肠炎患者采取肠外静脉补充足够的营养,完全胃肠道休息。同时于治疗前后进行组织学检查。结果
4月的德国汉诺威正值微风拂面、春意盎然的好季节。一年一度的"汉诺威工业博览会"于4月23日至27日在这里举办,再次吸引了全球工业界人士的目光。今年,中国成了汉诺威博览会的主
日前,为进一步推进建设全球有影响力的科技创新中心和亚洲医学中心城市,落实《上海市医学科技创新发展“十三五”规划》,结合上海市卫生健康系统高层次人才培养工作实际情况,
目的探讨强的松联合病毒唑治疗hunt综合征的临床效果。方法随机选择自2014年1月-2017年12月在该院因hunt综合征进行治疗的患者23例,按患者接受诊疗的方式分为两组,实验组(13
航标灯塔是港口码头的重要辅助建、构筑物,是港口交通管理的指挥官,是航海人员生命的指路人。随着沿海沿江地区大量港口码头的建设,越来越多的航标灯塔也拔地而生,而航标灯塔
随着全球互联网用户对于网页搜索、网页访问速度和访问稳定性需求的增加,互联网上各种搜索引擎技术应运而生,网页快照技术即是其中之一。作为一个新兴技术,网页快照技术一方
随着地方戏的濒危和"非遗"成为一门显学,对地方戏传承和保护的探讨遂成为当前的热门话题。余秋雨先生提出残酷的"文化淘汰论",可以说代表了部分人士残酷的实际认识。廖奔先生
利用2006—2010年的省级面板数据,将我国划分为东部、中部和西部三大区域,运用系统广义矩估计方法,对服务贸易就业效应的区域差异进行实证研究。结果表明,服务贸易出口对就业