中文分词在农业垂直搜索引擎中的应用研究

来源 :新疆农业大学 | 被引量 : 0次 | 上传用户:haungmg666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文首先对现有中文分词相关理论和方法以及存在的主要问题进行了深入分析,重点研究了统计模型在自然语言处理领域中的应用。在此基础上针对农业垂直搜索领域的特殊需求及应用环境,提出了基于词典和统计语言模型的中文分词方法。该方法通过改进的全切分算法建立分词矩阵,实现了所有类型歧义的识别,生成粗分结果集,然后利用N元语法模型从中选择概率最大的切分结果,经过基于最大熵模型的词位标注方法识别未登录词后得出最终的分词结果,最后给出了基于此方法的中文分词原型系统的设计与实现。本文提出的分词方法在三个方面进行了改进,首先是通过大规模语料库识别具有切分标志意义的特征字建立特征字库,通过特征字对经过预处理的语句集进行初步切分,有效降低了粗分阶段的字串长度。其次采用改进的全切分模型,通过字位标注建立分词矩阵,能够有效检测歧义边界,识别所有类型的歧义,并筛选出包含歧义的切分形式,通过bigram模型进行概率计算,选择最优切分形式。最后,建立农业专业术语、中文人名、中文机构名专业词库,统计构词规律,选择合适的特征模板,生成样本数据,利用词位标注的思想,通过最大熵模型实现对未登录词的识别。本文设计了三个方面的实验,对改进的全切分算法和传统全切分算法的性能进行比较;在4词位标注集上选择不同的上下文窗口宽度对基于最大熵模型的未登录词识别率的比较;将该原型系统与ICTCLAS、Paoding以及IKAnalyzer进行综合性能的比较。实验结果表明,使用本文提出的分词模型的原型系统召回率达到93.6%,准确率达到91.7%,F1测度值为92.6%,未登录词的召回率为77.2%,未登录词准确率为90.1%。
其他文献
本文简介了镁合金的特点与应用,评述了压铸镁合金用热作模具钢的性能特点和主要失效形式,以及该类钢的国内外发展现状和趋势。以常用的镁合金压铸机模具钢DIN1.2888为基础,研究了
本文以步骤简单、价格低廉、易于精确控制的Bragg反射镜的制备为目标开展工作,采用周期性电压对高纯铝片进行阳极氧化,制备了具有周期性孔结构的多孔氧化铝片,实现了对其光学性
硅钢是电力、电子和军事工业不可缺少的重要软磁合金,主要用于制作电机和变压器的铁芯及其他电器部件。如何以低成本、高效率的方式稳定地生产高品质产品,是硅钢制造技术的主
随着工业化进程的发展,环境问题越来越受到人们的重视,发展环境友好润滑剂对保护环境和生态具有重要的意义。目前常用的环境友好润滑剂主要有植物油,植物油是是可再生资源,但由于
半导体照明亦称固态照明,是指用全固态发光器件(LED,OLED)作为光源的照明。具有高效、节能、环保、寿命长、易维护等显著优势,正在成为继白炽灯、荧光灯之后的又一场照明史上光
学位
期刊
随着科技的进步和精细化的管理要求,工业用电与生活用电对数据要的准确度越来越高,急切的想要摆脱人工抄表,传统的人工抄表形式已经无法满足电力生产需要,为了解决存在的问题
最近几年城市发展的速度之快已经超出了人们的想象,从2010年上海世博会打出城市让生活更美好的标语后,各地都开始加速了城市化建设.如今全国各地的大中小城市发展增势迅猛,人
钙钛矿结构掺杂锰氧化物由于其丰富的物性和在自旋电子学中潜在的应用前景倍受关注。在本论文中,我们以几类典型的钙钛矿锰氧化物La0.8Na0.2MnO3、La0.7Sr0.3MnO3、La2NiMnO6
城市现代化建设和发展中,为了可以打造宜居城市,优化城市要素之间的关系,应该立足于实际情况加强城市规划和建设.纵观当前我国城市规划建设现状,由于多规分治导致空间冲突问