基于Web的异构学术信息抽取与聚合方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:lili1006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代,海量网页信息层出不穷,科技学术领域更是如此。每年有大量的学术期刊论文发表,也有很多学术人物信息在互联网上公开。如果想了解某个学术期刊或学术人物,并不能轻松获得,需要在互联网上点击一系列超链接才有可能找到。对于科研人员而言,能否快速获得学术信息非常必要。在此背景下,本文研究了基于Web的异构学术信息抽取与聚合方法,提出自动化的算法框架以帮助研究人员从互联网大量的异构网页中迅速挖掘所需信息。本文的主要工作如下:1.针对基于web的学术期刊信息抽取与聚合问题,本文提出了C-HMM算法框架。该框架中的正文提取算法(Content Extraction)可提取网页中的主要信息,实现了降噪的效果;隐马尔可夫模型(HMM)可同时对多个网站进行抽取,相较于现有的启发式算法提升了模型的泛化能力。C-HMM算法框架分为三个步骤:首先,通过爬虫爬取期刊主页;然后,对主页信息进行预处理和正文提取;最后,利用HMM对期刊信息进行抽取与聚合。2.针对基于web的学术人物信息抽取与聚合问题,本文提出了F-HMM算法框架。该框架中的fastText算法可对网页信息块进行预标注,此算法解决了关键字词典无法对人物多种信息块预标注的问题;隐马尔可夫模型(HMM)刻画了信息块的时序信息,提升了模型效果。F-HMM算法框架与C-HMM框架有以下三点不同:(1)采用SVM对学术人物主页进行选择,取代期刊主页选择时采用的关键词匹配策略;(2)由于学术人物主页结构复杂,正文提取算法可能会过滤有用信息,因此舍弃;(3)采用fastText算法取代了原有的关键词匹配方法,对信息块进行预标注。3.上述两个工作是吉林省重点科技研发项目“大数据和移动互联时代的快速知识共享系统研究、开发与应用”的重要组成部分。作者将上述工作以及论文、新闻和征稿信息的自动化爬虫系统加入到《学术头条》APP的开发中,方便了研究人员快速获取学术信息。目前APP拥有7000多名用户、400多万篇论文、6000多种期刊以及670多万个学术人物,实际测试结果表明,本文工作取得了良好的效果。
其他文献
《我弥留之际》是诺贝尔文学奖得主福克纳的代表作之一,也是一部涉及死亡主题的现代主义小说。在这部描写毁灭的小说中,福克纳所写的死亡,可以从三个层次来加以诠释:首先,它指
<正>一、复习导入谈话:我们对“地球的运动”这一单元已经研究了很长时间。通过前面的学习,我们对地球的运动有了哪些了解?
本文在介绍均值差异检验方法的基础上,给出了一套对Q型聚类结果的分析评价方法。对聚类方法应用效果的改进,提供了一条可行的途径。
目的观察激励式心理干预对学龄前患儿静脉输液中配合行为的影响。方法按入院时间先后将606例患儿分为对照组278例(1 529次)、观察组328例(1 648次),对照组静脉输液前行常规心
时域电磁法是一种基于电磁感应原理的物探方法,在矿产资源探测、地质灾害勘察、环境监测等领域得到了广泛应用,尤其在对地面500米以下金属矿产资源的勘探中发挥着重要作用。
诠释学作为关于理解与解释的古老学科在近、现代的发展体现了理解、解释与应用的统一,并表现了向自然科学领域的进发。当前公众对科学的理解与科学教育的危机也促使人们寻求
通过整群抽样的方法对上海市某区480名社区医务人员采用中文版《职业倦怠感通用量表》(MBI-GS)测量职业倦怠程度。结果显示,存在职业倦怠的医务人员328人(占73.71%),不同人口
文章提出机顶盒维修APP方案,通过APP扫描故障机顶盒上的二维码或者条形码,获取故障机顶盒对应的技术方案,并记录故障及解决方案,在后台按每批次进行统计和分析,还可以统计每
<正>近日在中国企业领袖峰会上,董明珠称与雷军的赌约已基本胜出,格力2018年营收将达2000亿元。不过,她也同时表示,赌局本身没有什么意义,因为格力是实体企业,而小米则是做互
目的:了解长沙市各级医院超说明书用药情况,为相关部门制定和改进超说明书用药管理对策提供参考。方法:采用问卷调查方式,对长沙市23家医院(一级医院10家、二级医院8家、三级