【摘 要】
:
随着互联网技术的发展,广大用户获取信息的途径越来越多、也越来越方便,与此同时,面对庞大而繁杂的信息,如何获取对自己有用的信息成为一个难题。所幸Web数据挖掘技术为解决W
论文部分内容阅读
随着互联网技术的发展,广大用户获取信息的途径越来越多、也越来越方便,与此同时,面对庞大而繁杂的信息,如何获取对自己有用的信息成为一个难题。所幸Web数据挖掘技术为解决Web上过量信息的问题提供了解决方法,其中的Web结构挖掘以超链接分析为基础,从链接结构中获取有用的信息,并重新组织结构,使内容逻辑结构更加合理。因此,Web数据挖掘逐渐成为如今的研究热点。经典的超链接网页评估算法PageRank将“每个链接代表一个网页作者对所指向的网页的一种独立的认可”作为算法的前提条件。本文通过实验编程实现了PageRank算法迭代收敛的整个过程,并结合实例重点讨论了PageRank评估网页质量的有效性,认真分析了Fricke以万维网上咨询问答为样本进行研究的不足,提出了自己的优化方法。针对网页质量的评估通常带有个人色彩,还制定了网页信息质量的评估标准,来限制参评人员的主观臆愿,增加评估的客观性。最后,通过实验证明本文提出的PageRank优化方法用来评估网页质量的有效性。优质的搜索引擎算法应该将用户最需要的主题相关尽可能地排序靠前。传统PageRank算法存在的主题漂移影响搜索效果的问题,在分析了大量网页排序算法的基础上,本文中提出了基于主题链接相似度的PageRank改进算法(TLSPR),通过链接关系表示的向量的余弦相似度描述网页之间的主题相关性,避免了其它改进算法额外文本信息的负担。仿真实验结果表明,TLSPR算法在未增加额外空间的同时,也未增加算法时间复杂度,能够将用户满意的网页安排在搜索结果的前面,有效提高了搜索效果,从而避免了主题漂移问题的产生。
其他文献
为了充分发挥储能单元维持微电网系统功率平衡,提出了基于储能单元剩余容量(state of charge,SOC)带自补偿的动态下垂控制策略。由于传统的下垂控制的下垂系数过大导致母线电
本雅明作为20世纪著名的文艺批评家之一,因其诗意、卓尔不群的文风;迷幻又传奇的一生为人熟知。他一生笔耕不辍,用巧绝的文笔独辟蹊径的目光勾勒了那个时代艺术的巨变,对后来
本文旨在结合自身工作实际,以厦旅国际宝中运营中心为例,从OPM战略角度对宝中的盈利模式进行分析研究,以期为国内中小旅行社的发展创新提供借鉴。文章的主体部分:首先,概要介
“品牌”这一概念由来已久,国内外研究学者和企业实践家普遍认为,品牌是企业一项重要的无形资产,品牌已经从以往识别产品的战术性工具变为企业重要的战略性资源,成为企业管理
在知识被认为是核心生产要素的知识经济时代,知识型员工作为知识的承载者是企业在激烈的市场竞争中最宝贵的财富。有效地教育与管理知识型员工、提高知识型员工对组织的忠诚
美国导弹防御系统从诞生之日起就已引起世界的广泛关注。从目前NMD系统的实际情况出发,分析了弹道导弹的几种突防手段,提出了“全过程突防”与“主动打击和突防手段相结合”的
结合目前物理模型建构教学研究的成果,在深入分析人教版高中生物学教材必修模块各章节的基础上,整理出相关的教学内容,提出推广应用的建议,并从现代认知理论的角度来认识模型
双排桩支护结构是近年来兴起的一种新型深基坑支护结构,其侧向刚度大,能有效控制支护结构的变形,而且受力条件和整体稳定性好、施工方便,逐渐成为深基坑支护结构的优选方案之
改革开放以米,随着中国市场经济的不断发展,在社会物质财富极大丰富的同时,公民民主意识逐渐提高,政治参与的要求不断增强,群众利益更加多元化。传统大而全,无所不管的全能政
在干旱、半干旱地区或干旱瘠薄山地造林,需要选择具有抗旱性、适应性强的树种。而选择树种工作的前提是了解树种在水分胁迫下的反应、适应性和抗旱性机制。本研究采用盆栽控水