综合风险垂直搜索引擎主题信息采集研究

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:ch3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面向特定主题的信息采集是垂直搜索引擎的关键技术之一,直接影响到搜索结果的速度和相关性。研究面向特定主题的信息采集,应用分步骤判断方法计算页面相似度,改进PageRank链接评价法实现网页测评,应用隐马尔科夫模型(HMM)学习用户浏览路径,构建包含页面的语义的概念图并确定页面链接的结构,最终实现整体信息采集。研究对信息爆炸情况下的个性化搜索有重要意义,并具有重要的理论价值和实际应用潜力。   应用分步骤判断方法计算页面相似度,首先计算扩展元数据特征项相似度,其次判定页面相似度。扩展网页主题,提取扩展元数据特征项:采用TFC的方法计算特征向量的权重,应用机器学习训练特征向量,通过向量余弦值计算扩展元数据与主题的相似度;页面相似度计算:若数据相似度在阈值范围内,则进一步计算页面内容,判定页面的相似度。算法基于HTML的特征采集方式,经试验验证可在不影响召回率的情况下,提高查准率并降低计算时间。   改进PageRank链接评价法实现网页测评,在分析主题页面在Web上的分布特征、传统的链接相关度评价用于链接评价的方法的基础上,融合各种评价算法,实现了基于主题PageRank预测算法,在理论上分析其有效性,并用实际的数据测试论证其可行性。   应用隐马尔科夫模型(HMM)学习用户浏览路径。研究通过基于隐马尔可夫模型)的预测学习判定统一资源定位符(Universal Resource Locator,URL)与主题信息的相关性。应用HMM模型学习用户浏览路径;最终构建包含页面的语义的概念图并确定页面链接的结构,利用训练后的HMM模型在主题信息采集中对相关的URL进行指导采集。最后实验证明该方法的有效性,基于HMM的主题信息采集算法比Best—First算法反馈更多相关主题页面,并具有更高的查准率。   在上述理论基础上,本文设计并实现了一个自然灾害风险垂直搜索引擎系统,提供了自然灾害相关领域的信息检索,具有良好的扩展性和主题针对性,并成功应用到了中国风险网的搜索引擎中。
其他文献
数字版权管理,也称DRM(Digital Rights Management),是出版者用于控制被保护对象使用权的一系列技术,这些技术限制数字内容以及硬件的使用。是保证数字内容在整个生命周期内
随着现代医学的不断进步,超声心动图在临床诊断领域的应用越发广泛。如何针对采集到的超声心动图完成进一步处理,以增强其作为辅助诊断方式的可靠性,成为近年来国内外研究的热点
近年来,我国正处于突发公共事件高发时期,如自然灾害、事故灾难、社会安全、公共卫生等。为了积极应对突发公共事件,国务院常务会议于2005年1月26日通过了《国家突发公共事件
以多媒体、网络技术为代表的现代信息技术促进了教学的快速发展,使教学环境、学习方式发生了巨大变化。与此同时,人们对于支撑网络教学的应用程序的需求持续增长,要求也越来越高
伴随着教育信息化的发展,Web技术与e-Learning使人类学习环境发生了根本性的变革。为构建跨组织、跨系统平台的海量知识融聚共享环境,人们提出了学习对象(LearningObject)的
随着博客影响力的不断增加,博客被更多领域的人作为交互和表达思想的工具,并以站点的形式在万维网上形成了博客空间。面对博客空间的急剧膨胀,博客搜索也变得必要迫切。尽管
数据仓库是数据存储和数据管理技术,是实现基于特定分析主题的数据存储、数据汇总、数据分析和应用的复杂系统。数据仓库中存储了海量的数据,如果这些数据遭到非法访问或破坏
随着软件产业的发展,越来越多的行业领域需要专业软件的支持,软件需求也越来越领域化、专业化,随之而来的是客户需求的快速变化和软件复杂度日渐增高。然而传统的软件开发方
作为电子商务的重要组成部分,基于Internet的电子交易受到了广泛的关注。SET交易过程十分复杂,在完成一次SET协议交易过程中,需验证电子证书9次,验证数字签名6次,传递证书7次
在储存海量数据的数据仓库中,由于其潜在的数据价值随着数据挖掘技术的发展与应用而被各研究领域所关注,包括商业、军事及科研等,涉及范围广泛,随着数据仓库安全性问题也得到