论文部分内容阅读
随着大数据时代的到来,数据信息呈爆炸式增长,人们越来越难在大量科技论文中搜索自己需要的关键信息。随着“互联网+”行动计划的推进,各行各业纷纷加入了互联网这个大家庭。如何协调这个大家庭内部成员,如何处理这个大家庭中的数据,如何使家庭成员之间和谐共处,如何让各个成员方便地使用这个大家庭的数据,如何更直观地将这些抽象数据展现出来。这就需要一个良好的机制来将互联网中的数据归类。关键词提取技术就是解决这个问题的一个很好的手段。只有对文本的内容进行提取了,才能针对文本的核心内容进行查询和挖掘等工作。关键词提取技术以文本为主,不论是网页还是文本,都是以文章的形式出现的。因此关键词提取就是对文章内容进行概括。目前存在的关键词提取技术不能综合考虑词义和词频的关系,因此无法有效地进行词义消歧和同义合并。而且现有的计算文本间相似度的算法,绝大多数是利用统计特征来计算文本间的相似度的。这种做法既浪费内存,又浪费时间。因此,本文提出了一种基于语义改进的关键词提取算法和一种改进的基于语义的文本间相似度算法,从语义出发,结合词频,对文本进行更好的挖掘。在此基础上,结合可视化技术进行展示。本文的主要工作和成果如下:1.基于《同义词词林(扩展版)》和连通图的关键词提取算法《同义词词林(扩展版)》语义词典的编码简单,而且编码能表示词语之间的相似关系,连通图与权重和路径相关。因此本文既考虑语义,又考虑词统计特征,提出了基于《同义词词林(扩展版)》和连通图的关键词提取算法KETCG(Keyword Extraction Based on Thesaurus and Connected Graph)。2.基于语义词典和词频信息的文本相似度算法目前常见的文本相似度计算方法大多数是根据统计特征来获取的,基于统计特征的相似度算法没有考虑到词语之间的语义关系,因此计算出来的相似度值时高时低。本文利用语义词典,从语义的角度出发,结合词频信息,提出了基于语义词典和词频信息的文本相似度算法TSSDWFI(Text Similarity Based on Semantic Dictionary and Word Frequency Information)。对提出的两种算法进行测试,实验结果表明,KETCG算法和TSSDWFI算法有很好的效果,对关键词的提取和对文本相似度的计算表现良好,具有比较好的文本挖掘效果。3.查询数据信息可视化。为了让查询的数据更直观地展现出来,丰富可视化效果,本文基于提出的算法,结合ECharts(Enterprise Charts)可视化技术,利用词云和力导向图将获得的数据信息进行展示。