基于字符串匹配的中英文混合分词技术研究

被引量 : 18次 | 上传用户:mj830115
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分词是指将自然语言中的字符串正确切分为词语。它是自然语言处理过程中首要的技术环节,其重要性不言而喻。目前的中文分词技术主要针对中文文本进行分词。而对于日益增多的中英文混合文本,采用传统的基于中文分词的技术,分词效果不理想,有必要研究中英文混合分词技术。论文首先介绍了四种基本的分词算法,并探讨了分词的关键问题及解决办法。然后介绍了分词系统的评价体系,然后在原有的中文分词系统评价体系基础上,提出了两条适用于中英文混合分词系统的评价指标。其次论文分别通过几组实验的方法确定中英文混合分词模型的技术和策略。一是对分词词典机制和基于字符串匹配的分词算法进行了对比实验,在此基础上提出了基于字符串匹配的中英文混合分词解决思路,为建立中英文混合分词模型打下基础。二是采用整词二分、TRIE索引树、逐字二分、双字哈希四种词典机制进行对比实验,最终选定双字哈希索引词典机制作为分词模型的词典机制。三是分别采用正向最大匹配算法、逆向最大匹配算法进行中文、中英文混合文本的对比实验,从而确定选用逆向最大匹配法为分词模型的分词算法。四是将逆向最大匹配算法进行改进,将待处理字符串的长度和以它的双字为首的哈希词典的最大词长进行比较,从而确定逆向最大匹配过程中的最大词长。这样的做法能够有效地减少分词过程中的匹配次数,从而达到提高分词效率的目的。论文中还针对分词研究中的歧义处理、未登录词的识别等关键问题展开分析和讨论。提出基于长词,词频与单字函数相结合的消歧算法,通过对人民日报分词语料库进行数据实验,歧义字段的消解能达到96.50%左右的正确率。在未登录词的识别中,运用统计方法对中文姓名进行了有效的识别。论文基于以上思路最终建立了一个基于字符串匹配的中英文混合分词模型,该模型实现了对词典的加载以及中英文混合分词,并为分词算法的扩展预留接口。根据分词系统评价指标对本模型进行综合评价,各项指标表现良好,具有一定的参考价值。
其他文献
介绍了用路途全景图(Route panorama)组成道路网并融入地理信息系统的研究成果.为提供比道路地图更为详尽的景观信息,本文用路途全景图建立了一个可漫步的虚拟城市.路途全景图
破产宣告,即法院依申请或依职权,在确认债务人有无法消除的破产原因时所作出的对债务人进行破产清算的裁定和公告的行为,它标示着破产案件的一种发展趋向,标志着破产程序进入
“也A,也B”格式有其自身的许多特点。我们对“也A,也B”格式的研究是要将句法、语义研究和语用研究有机地结合起来的一种动态的研究。绪论部分主要介绍了本文的研究对象、选题
由于能源危机和环境问题,传统内燃机汽车已不能满足人们的需求,电动汽车越来越受到重视,成为了汽车工业的发展趋势。各国政府和企业都在加大对电动汽车的研发力度,各大汽车厂
翻译是一个涉及语言、文化、认知之间,以及译者、作者、读者之间多重互动的认知过程。认知语言学作为翻译研究的相关学科,为翻译研究提供了一些理论研究视角,其中之一就是识解理
随着现代工业的发展,对液压传动与控制系统的性能和控制精度等提出了更高的要求,而运用计算机仿真技术对液压系统进行分析具有重要的意义。计算机仿真技术不仅可以预测系统性
北宋在其存在的一个半世纪内,先后与辽(契丹)、西夏(党项)长时间并存和对峙,并分别同他们发生过多次大规模的战争。军事情报活动一直伴随着各方的脚步,为其行动开路和殿后。
目的:检测白塞氏病(BD)患者和正常人群血浆中微小核糖核酸(microRNA,miRNA)的差异表达谱,探讨miRNA在BD发病中的作用,寻找与BD相关的血浆生物标记物。方法:收集15例活动期BD
<正>不久前,执法机关和司法机关向纪检监察机关移送问题线索工作办法印发施行。该办法是适应纪检监察体制改革新形势新要求的一项重要党内法规,是纪检监察机关与执法机关、司
中国人对性自慰持片面和负面的看法较为普遍,这种负面的看法对身心健康的不良影响甚至超过了性自慰本身。青年期军人生理上已发育成熟,有正常的性意识和性要求,能够体验到强烈的