基于语义的文献关键字提取技术的研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:sarahfung
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,快速增长的数据涌现在人们眼前,各式各样的信息充斥在生活的各个角落。因此,如何准确地从众多数据信息中获取到真正有意义的关键部分已成为研究的技术热点。目前的关键字提取算法中大部分是基于词频和词长的研究,也有基于语义和词汇链的研究。在基于词频和词长的关键字提取中依赖词的长度,长度较长的分词更容易成为关键字,但对于一些特殊情况却适用性不强,同时没有加入词在全文中的语义信息;基于语义的研究忽略了词本身的词长等基本属性,同时时间开销较大,不能够准确高效地提取到文献关键字信息。在准确性和效率之间的兼容性较差。本文也正是基于以上问题进行的研究。关键字反应的是文章的主旨信息和核心概念。在阅读和检索查找等方面,精准的关键字信息能够给读者带来极大的便利。所以在关键字的提取技术上,也有着不断地改进和优化。其中基于语义的提取算法通过消歧和语义分析能得到词语在文章中更真实的含义和意图。本文通过与传统的TF-IDF和KEA等经典算法的研究比较,提出了一种基于语义的GSW(Group character tree,Semantic similarity and Word-length priority ratio)算法。这种算法主要应用于自然语言的文本关键字提取领域,将语义分析方法和词语基本信息统计方法相结合,解决了关键字提取中准确性和时效性难以调和的矛盾。本文提出的算法主要解决的问题和完成的工作有:(1)定义了一种命名为分组字符树的数据结构,用来加载词库中的词语信息,与原有高性能的字符树存储结构相比,两者的时间复杂度相同,但是分组字符树在平均词串查找长度和占用内存上都略优于字符树。将这种分组字符树结构应用到分词的处理中,达到了在词库存储结构上的优化。(2)提出了一种基于语义相似度和B+树的消歧算法。这种算法通过计算单位分组内词语之间的语义相似度数值来进行消歧,借助B+树结构来存储中间计算量,提升了查询和排序的性能。这种通过定量计算的方式使消歧效果更可靠。(3)定义了词长优先比的概念。在应用朴素贝叶斯分类算法提取最终关键字时,将词长优先比应用于词长权重的计算。使用的词长优先比能对词长这一特征值进行调和,在一定程度上,能让短词和长词有相同的可能成为最终获选关键字,减少了长词语义片面性这一偶然,使算法提取的关键词更加准确可靠。最后为了验证改进后算法在提取关键字上的可行性和准确性,经过需求分析和流程设计,最终搭建起关键字提取平台对算法进行系统实现。借助平台传入多领域的600篇文章进行实验验证,把实验组分为单文档分类和多文档分类两组,对提取算法得到的关键字进行核实,用户期望的关键字都在其中。同时在准确率、召回率和两者的调和均值都表现良好。证明了算法的可用性和准确性。
其他文献
我们在习作评语中,既要因文而定,因人而异,在重视赏识学生的闪光点的同时,又要对学生的作文能力,态度习惯,审美价值观,个性、创新做出真实的恰如其分的评语。
研究目的:本研究旨在探索PYCR2在非小细胞肺癌A549细胞中的表达情况以及对增殖和凋亡的影响,为非小细胞肺癌的治疗和早期预防提供理论依据和可能的治疗新靶点。实验方法:第一部分探究PYCR2在非小细胞肺癌A549细胞中和HBE细胞的表达情况1、肺癌细胞A549和HBE细胞分别在含有1%青霉素/链霉素(Hyclone)、10%胎牛血清(FBS)的DMEM培养液中培养,置于37℃、5%CO_2的湿化培
研究次椭圆p-Laplace方程(p〉1)解的边界性质,通过建立Heisenberg群上带有区域内点到边界Carnot—Carathéodory距离函数的Hardy型不等式,给出了有界域上次椭圆p—Laplace方
目的探讨福辛普利对慢性心力衰竭(CHF)大鼠心肌细胞凋亡及半胱氨酸天冬氨酸蛋白酶(Caspase)-3表达水平的影响。方法雄性Wistar大鼠50只随机抽取10只为假手术组,其余大鼠采用肾上腹
旅游业作为国内第三产业最重要的组成部分之一,已经成为推动国内经济发展,满足人们日益增长的精神文明需求的朝阳产业,其主要作用在于加速推动社会经济增长、提供更多就业岗位,缓解社会就业压力、保护和改善地方生态环境、丰富人们文化生活、宏扬历史文化价值等方面,成为当前我国经济社会发展持续上升的重要组成部分。当前,随着人们精神文明需求和消费水平的提升以及国家政策的支持,外出旅游的人们越来越多,每年国内各大知名
文言文作为我国优秀传统文化传承的重要载体,凝结着优秀传统文化的精髓。对于身心正处于快速发展阶段的小学生来说,学习优秀经典的文言文不仅有利于积淀人文底蕴、涵养人格品
本文研究了一类非主Hopf曲面的拓扑和复结构形变的完备族.
本文研究了单位圆周上一类具有本质边界点的拟对称同胚,证明了它的极值拟共形延拓的最大伸缩商等于曲边四边形模之比的上确界.
卵巢癌是当今全世界最致命的妇科恶性肿瘤[1],目前标准的治疗方案是手术结合以铂类为基础的药物化疗,复发及耐药是卵巢癌治疗失败的关键。化疗耐药是多水平、多因素、多基因