论文部分内容阅读
近几年,由于文献信息或者短篇新闻的数量呈现指数级增长,而且这些文本的信息量无时无刻不在增加。因此,如何从信息中抽取出具有重要意义的关键词,利用信息抽取技术对文本分类,并满足信息检索的需要,已经成为当前时期在自然语言处理领域研究的热点。传统的关键词提取方法主要使用TF-IDF算法,通过对不同领域,设置大小不同的阈值,来提取文本关键词,这种方法虽然速度快,适合搜索引擎的应用,但是受偶然性和领域局限性较大,准确率忽高忽低。而基于语义提取文本关键词的算法,能够达到词与词之间的词义分析层面,但是不同需求的人,理解文本的方式千差万别的,因此阅读同样的文章能够得到不同的关键词结果。信息抽取技术如果在语义的基础上综合词的多种特征,并能推断出用户的主观偏好,那么提取关键词的结果,不仅能满足不同人的需求又不失全面性,而且能适合不同场景的文本的关键词提取,提高关键词抽取技术的准确性和稳定性。因此,本文基于上述问题的现状进行深入研究,为了满足不同偏好关键词需求的目的,本文工作主要有以下四个方面:1.提出了一种基于WordNet语义词典下的DIP(Distance Information Property)语义相似度算法,利用词典中词汇间的五种结构关系,提取了路径因素、信息内容和属性因素三方面信息,并改进了传统的信息量的定义方式,量化了词与词之间的关联程度,不仅达到了提高关键词提取的准确率的效果,还解决了传统算法语义片面性的不足。2.提出了一种基于语义相似度的SA(Similarity Analysis)词义分析算法,使用单词引用次数作为调节因子,统计关键位置的关键词释义中去除无意义词之后的单词与关键词之间的DIP语义相似度大于特定阈值的数量,代替传统的统计词义覆盖率的算法,实现了准确定位多义词词义的目的。3.提出了多特征的五元组(词频,词长度,词跨度,词位置特征,语义相似度)的构成,通过设置不同大小的特征值,可以应对不同场景、不同领域、不同偏好的人的需要。4.提出了特征增益值的决策树和迭代计算用户主观偏好相关属性的方法,根据用户的结果反馈,能够推断出用户需要五元组中,特征值间的比例关系,在提高了抽取关键词准确率的同时,保证结果向着满足人的意愿产生。最后,为了验证本文算法的准确性、合理性和领域无关性,搭建了基于多特征抽取文本关键词的系统,使用知网中十个学科,五大分类下的200篇论文的英文摘要为信息来源,参考作者给出的关键词,当用户阅读文献后,进行100次二次迭代计算,再进行100次自动抽取。在统计关键词的准确度的同时,与国内外传统的基于语义的相似度算法进行对比,证明了基于多特征抽取文本关键词的算法不仅提高准确度,抽取的结果也向着满足用户偏好意愿的趋势计算。