论文部分内容阅读
随着信息技术的不断发展,快速增长的数据涌现在人们眼前,各式各样的信息充斥在生活的各个角落。因此,如何准确地从众多数据信息中获取到真正有意义的关键部分已成为研究的技术热点。目前的关键字提取算法中大部分是基于词频和词长的研究,也有基于语义和词汇链的研究。在基于词频和词长的关键字提取中依赖词的长度,长度较长的分词更容易成为关键字,但对于一些特殊情况却适用性不强,同时没有加入词在全文中的语义信息;基于语义的研究忽略了词本身的词长等基本属性,同时时间开销较大,不能够准确高效地提取到文献关键字信息。在准确性和效率之间的兼容性较差。本文也正是基于以上问题进行的研究。关键字反应的是文章的主旨信息和核心概念。在阅读和检索查找等方面,精准的关键字信息能够给读者带来极大的便利。所以在关键字的提取技术上,也有着不断地改进和优化。其中基于语义的提取算法通过消歧和语义分析能得到词语在文章中更真实的含义和意图。本文通过与传统的TF-IDF和KEA等经典算法的研究比较,提出了一种基于语义的GSW(Group character tree,Semantic similarity and Word-length priority ratio)算法。这种算法主要应用于自然语言的文本关键字提取领域,将语义分析方法和词语基本信息统计方法相结合,解决了关键字提取中准确性和时效性难以调和的矛盾。本文提出的算法主要解决的问题和完成的工作有:(1)定义了一种命名为分组字符树的数据结构,用来加载词库中的词语信息,与原有高性能的字符树存储结构相比,两者的时间复杂度相同,但是分组字符树在平均词串查找长度和占用内存上都略优于字符树。将这种分组字符树结构应用到分词的处理中,达到了在词库存储结构上的优化。(2)提出了一种基于语义相似度和B+树的消歧算法。这种算法通过计算单位分组内词语之间的语义相似度数值来进行消歧,借助B+树结构来存储中间计算量,提升了查询和排序的性能。这种通过定量计算的方式使消歧效果更可靠。(3)定义了词长优先比的概念。在应用朴素贝叶斯分类算法提取最终关键字时,将词长优先比应用于词长权重的计算。使用的词长优先比能对词长这一特征值进行调和,在一定程度上,能让短词和长词有相同的可能成为最终获选关键字,减少了长词语义片面性这一偶然,使算法提取的关键词更加准确可靠。最后为了验证改进后算法在提取关键字上的可行性和准确性,经过需求分析和流程设计,最终搭建起关键字提取平台对算法进行系统实现。借助平台传入多领域的600篇文章进行实验验证,把实验组分为单文档分类和多文档分类两组,对提取算法得到的关键字进行核实,用户期望的关键字都在其中。同时在准确率、召回率和两者的调和均值都表现良好。证明了算法的可用性和准确性。