【摘 要】
:
随着互联网信息的日益发展和进步,搜索引擎成为人们生活中不可缺少的一部分。科研工作者对信息的精准性要求很高,而且他们习惯应用专业数据库检索。但是目前的国内外学术搜索引擎,存在或多或少的缺点。例如,国外学术搜索引擎死链率比较高,服务不稳定,对于没有订购的文章,只能显示部分内容;国内学术搜索引擎,有些需要用户注册;有些检索结果返回给用户的相关度不高,用户需要一层一层的深入寻找;大部分不能免费获取学术原文
论文部分内容阅读
随着互联网信息的日益发展和进步,搜索引擎成为人们生活中不可缺少的一部分。科研工作者对信息的精准性要求很高,而且他们习惯应用专业数据库检索。但是目前的国内外学术搜索引擎,存在或多或少的缺点。例如,国外学术搜索引擎死链率比较高,服务不稳定,对于没有订购的文章,只能显示部分内容;国内学术搜索引擎,有些需要用户注册;有些检索结果返回给用户的相关度不高,用户需要一层一层的深入寻找;大部分不能免费获取学术原文;这些情况无疑都降低了用户体验。本文针对目前学术搜索引擎不完善的地方,基于满足用户对学术原文的获取需求,研究实现了一个基于云判断分类的中英文学术搜索引擎。本文通过对中文核心期刊要目中的学术期刊进行数据抓取获得数据源;对网页数据内容信息进行聚类提取;采用中文分词技术实现分词划分;爬取的网页依据网页格式和网页内容,通过对比空间向量模型算法(VSM)和K-means算法,最后采用基于改进的VSM判断算法实现基于云的网页学术性判断;学术性网页依据中图法和学术分类词库,通过对比决策树分类算法和朴素贝叶斯分类算法,最后采用中图法结合改进的朴素贝叶斯算法实现基于云的学术网页科学分类。通过测试分析得出,基于云判断分类的中英文学术搜索引擎实现了网页内容的学术性判断;可以高效的实现学术性网页的科学分类;可以满足用户免费获取原文、预览全文,同时用户可以添加刊源;用户检索界面中显示学术学科的各个领域,实现用户分类查询;通过测试结果,说明本文研究实现的以用户需求为中心,为服务用户为目的基于云判断分类的中英文学术搜索引擎是有意义,有价值的。
其他文献
改革开放以来,中国社会发生巨大变化,经济文化繁荣,公共艺术的形式也随之丰富并产生了各种形态。公共艺术是宋庄艺术中的重要组成部分,宋庄的当代性公共艺术开辟了一种新的公
目的:观察加味四妙散治疗抽动障碍湿热内蕴证临床疗效。方法:将符合纳入标准的60例门诊患儿分为观察组和对照组,每组30例,观察组采用中药加味四妙散口服,对照组采用盐酸硫必
图的染色理论最初来源于“四色猜想”问题,之后染色理论经过人们的不断发展,就延伸出点染色,边染色,全染色等染色理论。在本文中,我们主要研究的是边染色和点染色,具体来说,即平面图的线性荫度,可嵌入到欧拉示性数非负曲面图的线性荫度和平面图的点荫度。本文所讨论的图皆为有限的、简单的无向图。图的线性荫度最初是由Harary在1970年定义的,即图G可以分割成线性森林的最小数量,其中线性森林就是不相交的路的并
随着空间技术的不断发展,应用于空间作业的机器人的工作任务愈发复杂和多样,许多诸如空间非合作目标柔顺抓取、细窄空间探索、管道修理、复杂3D地形穿越等任务,传统结构型机
目的:观察并对比针刺和中药塌渍疗法单独治疗气虚血瘀型腰椎管狭窄症的效果,并与针刺结合中药塌渍治疗的效果作比较,探讨影响疗效的相关因素。材料与方法:病例全部来源于2018
在科学研究和工程项目中,很多实际问题都可转化为对应的优化问题来求解。作为一类有效的最优化方法,进化算法通过模拟自然界中生物进化现象来搜索问题的最优解,具有算法结构简单,性能优良等特点。相对于一些经典的最优化方法,特别是基于梯度信息的方法,进化算法对问题的数学性质要求不高,甚至可直接用于黑盒优化。然而,随着社会经济发展,优化问题也日趋复杂,求解难度大大增加,使得进化算法的性能受到了极大挑战,容易出现
首先介绍与广义Schr(?)dinger算子相关的BMO型空间,Carleson测度的概念与性质.另外介绍与热半群及Poisson半群相关的面积函数与极大算子的概念及性质.然后,分别引入与热半群{e-tL}以及Poisson半群{e-(?)}相关的两族Carleson测度{dvh,k}以及{dvp,k}.通过利用半群的正则性,建立与广义Schr(?)dinger算子相关的BMO型空间的刻画.之后,
目的:探讨经外侧裂岛叶入路与经颞叶皮质入路治疗基底节区高血压脑出血后,是否会对脑脊液中的炎性因子(肿瘤坏死因子α和白细胞介素6)的表达水平产生影响,及这两种手术入路对
随着大数据时代的到来,模型选择已成为当代统计学的热点研究课题之一,并且在多个领域有着不同的应用,比如经济领域,生物医学领域和房地产等商业领域。但是在实际问题当中,面对海量数据,统计工作者需要根据实际问题对数据进行分析建模,所以模型选择则成为其关键的一步。近年来,数据分析越来越热,随之而来的模型选择也越来越受到广泛的关注。对于模型选择方法中,需要对很多参数进行估计,若当训练数据足够多时,可以不断提高
背景:为维系长期人口增长平衡,我国的生育政策于近年逐步开放,这可能会引发新一轮生育高峰,孕妇的年龄构成也可能发生变化。这一系列变化是否会对剖宫产率、新生儿性别比例、