针对特定领域的中文新词发现技术研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:zhangsanzong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,各个领域的电子文献变得日益丰富,在各个专业领域,文献数据库中的文献数量呈现出指数增长的趋势,对这些文献信息的处理难度也变得越来越大。中文有着特殊的组织结构,其信息处理对分词技术有着较高的要求,因而中文文献相对于英文文献有着较高的处理难度。如何针对中文的语法特征,找出其中存在的新的专业词汇,在信息检索中扮演着极为重要的角色。本文的研究对象是单一特定的领域,而非多个领域。此领域具有可扩充性,可以为金融领域,也可以为IT领域,根据具体需求而定。在确定一个领域并给出这个领域的文献数据集合的前提下。本文的信息处理主要分为两个步骤进行,首先对特定领域的文献集合进行分词处理,在进行分词处理方面使用了基于统计的N-Gram方法,较为有效地找出了词典中所不存在地新词汇。第二个步骤为新的专业词汇的抽取,这是一个根据已有专业词汇来发现未知专业词汇的过程,目的从第一步中所产生的新的词汇中抽取出新的属于目标领域的专业词汇。在这个步骤中,本文使用了Apriori方法,首先发现词汇组合中的频繁项目集合,再生成相应的关联规则以达到新的专业词汇提取的目的。这个步骤涉及噪声词过滤的问题,考虑到低频噪声词可以在使用关联规则处理的过程中过滤掉,本文所指的噪声词过滤主要是对高频噪声词的过滤,对于这些词汇,本文的解决方式是使用文献分类的方式,将一个大的领域分为多个细分领域,这样,那些同属于多个细分领域的词汇就可以被看做是非专业词汇,也就是噪声词,可以将这些词汇过滤掉。在研究中文分词算法以及专业词汇提取算的基础上,本文设计了一个原型系统来测试算法的有效性,该系统包括文献预处理、中文分词、文档切割、高频噪声词过滤、发现频繁项目集、提取新词等模块,涵盖了本文所研究的各个环节。测试表明,本文的中文分词算法可以有效地发现新的词汇,而专业词汇提取算法也取得了良好的效果。本文的创新之处有:(1)将N-Gram方法和Apriori方法结合在一起,并对两种方法加以改进。利用N-Gram方法结合词典方法进行中文分词,利用Apriori方法抽取出特定领域的专业词汇。两种方法的结合形成了一个完整的文本信息处理的过程,有利于实际应用。(2)设计一个智能化的新词发现系统。将本课题所研究的算法应用于实际中去,使之不仅仅局限于在样本数据中进行新词发现,还能够对新出现的文本随时发现新词。这个功能可以应用于搜索引擎当中,随时捕获搜索结果中所出现的新的专业词汇。本课题所研究的系统只需要更换一个预设专业词典,便可以适用于不同的领域,具有良好的扩展性。
其他文献
若水库工程大坝为均质土坝,则其应力分布在坝轴线附近为最小主应力,灌注的泥浆易于将坝体劈裂。南于劈裂灌浆是以浆液为能量载体,泥浆充填坝体内部被劈开的灌浆通道,充填与劈裂双
目的观察高血压病大鼠肢体挤压后的早期心肌损伤情况,并分析其在伤病关系分析中的意义。方法原发性高血压大鼠按打击程度随机分为4组。用自由落体装置打击大鼠右侧大腿.然后观
目的探讨口外修复固定治疗颧弓骨折的临床效果。方法收集2018年1月至2018年12月我院收治的60例颧弓骨折患者临床资料,所有患者均行口外修复固定治疗,观察患者临床效果。结果
目的对中医辨证治疗脑梗塞后遗症的方法及有效性进行分析。方法本次研究样本均为入住本院的脑梗患者。采用随机方式共抽取样本40例,分为两组,一组为西医组,采用常规西医康复
目的:探讨积极护理干预对血液科化疗患者恶心呕吐的疗效及护理满意度的影响。方法:选择该院血液科近年来收治的70例化疗患者为研究对象,随机分成观察组和对照组,对照组采用常
某男,24岁。某日因故被他人用砖头和拳脚打伤腹部等处,伤后即到医院诊治。检查见腹膨隆,全腹压痛.左肾区叩痛阳性。腹部CT示:腹腔内弥漫性液性密度影,肝受挤压变小,脾显示不清,左肾轮
近年来,我国的慢阻肺患者有着增多的趋势。慢阻肺是慢性阻塞性肺疾病的简称,其发病原因较为复杂,但与环境污染、各种粉尘的吸入以及吸烟等不良习惯有较高的相关性。慢阻肺患
期刊
美卓将对韩国安山东日制纸株式会社1^#箱纸板机进行改造。这台幅宽4.1m的纸机经过改造后,将于2010年第二季度开机。
由中国造纸学会特种纸专业委员会主办、成都环龙集团协作承办的特种纸专业委员会第八届年会暨全国特种纸技术交流会将于2013年10月17—20日在四川省成都市召开。会议将邀请有
一、流域站点基本情况东江流域主要以山地丘陵为主,约占流域面积的4/5以上.集水面积27021km2。(广东省境内23521km2)东江干流长523km,积水面积超过千平方公里的一级支流9条:贝岭水(原