科技论文查询可视化系统设计与实现

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:yubil
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,数据信息呈爆炸式增长,人们越来越难在大量科技论文中搜索自己需要的关键信息。随着“互联网+”行动计划的推进,各行各业纷纷加入了互联网这个大家庭。如何协调这个大家庭内部成员,如何处理这个大家庭中的数据,如何使家庭成员之间和谐共处,如何让各个成员方便地使用这个大家庭的数据,如何更直观地将这些抽象数据展现出来。这就需要一个良好的机制来将互联网中的数据归类。关键词提取技术就是解决这个问题的一个很好的手段。只有对文本的内容进行提取了,才能针对文本的核心内容进行查询和挖掘等工作。关键词提取技术以文本为主,不论是网页还是文本,都是以文章的形式出现的。因此关键词提取就是对文章内容进行概括。目前存在的关键词提取技术不能综合考虑词义和词频的关系,因此无法有效地进行词义消歧和同义合并。而且现有的计算文本间相似度的算法,绝大多数是利用统计特征来计算文本间的相似度的。这种做法既浪费内存,又浪费时间。因此,本文提出了一种基于语义改进的关键词提取算法和一种改进的基于语义的文本间相似度算法,从语义出发,结合词频,对文本进行更好的挖掘。在此基础上,结合可视化技术进行展示。本文的主要工作和成果如下:1.基于《同义词词林(扩展版)》和连通图的关键词提取算法《同义词词林(扩展版)》语义词典的编码简单,而且编码能表示词语之间的相似关系,连通图与权重和路径相关。因此本文既考虑语义,又考虑词统计特征,提出了基于《同义词词林(扩展版)》和连通图的关键词提取算法KETCG(Keyword Extraction Based on Thesaurus and Connected Graph)。2.基于语义词典和词频信息的文本相似度算法目前常见的文本相似度计算方法大多数是根据统计特征来获取的,基于统计特征的相似度算法没有考虑到词语之间的语义关系,因此计算出来的相似度值时高时低。本文利用语义词典,从语义的角度出发,结合词频信息,提出了基于语义词典和词频信息的文本相似度算法TSSDWFI(Text Similarity Based on Semantic Dictionary and Word Frequency Information)。对提出的两种算法进行测试,实验结果表明,KETCG算法和TSSDWFI算法有很好的效果,对关键词的提取和对文本相似度的计算表现良好,具有比较好的文本挖掘效果。3.查询数据信息可视化。为了让查询的数据更直观地展现出来,丰富可视化效果,本文基于提出的算法,结合ECharts(Enterprise Charts)可视化技术,利用词云和力导向图将获得的数据信息进行展示。
其他文献
文章对粘纤和莱赛尔纤维的溶解性能进行了对比研究。结果表明:莱赛尔的稳定性好于粘纤;保险粉可以作为一种有效的剥色剂,再生纤维素纤维经剥色后,定量分析结果更准确。
隐喻的研究经历了不同的发展阶段,现代学者们已将研究重点放在了认知语言学视角下的隐喻研究。本文以莎士比亚十四行诗中的隐喻为语料,运用认知语言学的隐喻理论对诗集中的隐
随着我国城市经济的发达与城市化发展速度加快,城市的发展问题也日益突出,城市中心区交通压力增大、环境污染加重。城市的土地资源已经不能在承受巨大的人口负担。于此同时,
随着我国资本市场特别是债券市场的快速发展,上市公司越来越意识到盈余管理的重要性,委托人与代理人之间的信息不对称以及利益冲突使得上市公司普遍出现盈余管理行为,盈余管理成为我国公司财务及公司治理的重要研究课题之一。通过对以往文献的梳理可以发现,学者们对盈余管理的研究,主要集中在盈余管理的动机方面,公司治理、股权性质和高管激励对盈余管理的影响方面,也有一些学者从债务市场出发研究债务融资对盈余管理的影响,
座式圆盘给料机的分析和改进傅东荔,金阊(江苏省机械研究设计院邮编210012)杨钢(镇江电磁设备厂邮编212004)关键词给料圆盘,物料流,冲击力,偏心压杆一、前官座式圆盘给料机由给料圆盘和驱动装置组
机构设计是机械原理方案是否能够得以实现的决定性因素,机械机构设计的创新可以有效提升工业生产过程中的总体效率水平,降低生产过程中对于自然能源的消耗,同时缓解自然环境
目的:评价中药龙牡汤治疗青年及成人期特应性皮炎的临床疗效及安全性。方法:采用随机、西药平行对照的方法对122例青年及成人期特应性皮炎患者给予中药龙牡汤或氯雷他定片联
<正>十二年前,当张代理力排众议、下定决心要带领企业开启转型之路时,他可能并没有想到,有一天,他所执掌的那家名叫"红领"的企业,会赢得世人极高的盛誉,并成为无数人竞相学习
为提高伺服电机的定位精准性,充分利用了PLC作为逻辑控制器可靠性高的特点,设计了一种能够精确控制折弯角度的折弯机控制系统。介绍了折弯机的工作原理,提出了基于PLC、伺服
本文就传统输变电网工程设计的问题进行了简要的分析,并提出了110KV输变电工程设计的基本原则和要求,以期为110KV输变电工程建设提供有力的理论支持,从而实现110KV输变电工程