基于语义分析的主题信息采集技术的研究

来源 :武汉理工大学 | 被引量 : 7次 | 上传用户：soj

【摘要】

：

现今随着Web信息指数化的增长,传统的基于整个Web的信息采集技术由于其采集的主题范围过于广泛,导致无法保证对信息的及时更新,并且较少考虑采集信息是否与查询主题相关,已经

【作者】

：

刘炜

【机构】

：

武汉理工大学

【出处】

：

武汉理工大学

【发表日期】

：

2009年01期

【关键词】

：

信息采集主题相关性 KPageRank 知网

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

现今随着Web信息指数化的增长,传统的基于整个Web的信息采集技术由于其采集的主题范围过于广泛,导致无法保证对信息的及时更新,并且较少考虑采集信息是否与查询主题相关,已经满足不了人们对个性化信息检索服务日益增长的需求。面向主题的信息采集技术由于其采集信息的内容只限于特定主题或专门领域,在搜索过程中无须对整个Web进行遍历,只需选择与主题相关的页面进行访问,基本回避了传统信息采集系统信息指数膨胀的危机,成为近年的研究热点。本文对国内外基于主题的信息采集领域的发展状况进行了详细的研究,分析了信息采集的工作原理,针对传统通用信息采集自身固有的缺陷,根据主题页面在Web上的分布特征,结合本体的相关理论及语义分析相关知识,在对链接、页面与主题相关性判定技术的深入研究基础上,提出了一种基于语义分析的主题信息采集的相关模型,该模型以本体构建领域知识概念集,结合语义计算,预测与主题相关的URL并对采集的页面进行进一步的过滤,同时结合现有开源技术对该功能模型进行了详细的设计与实现。语义分析是本文的重点,它是预测URL链接,采集主题相关页面,过滤无关页面的核心技术。本文在对“知网”进行详细研究的基础上,分析计算词语之间的相关度及相似度,并着重介绍了利用知网进行多义词词义消岐,获取链接扩展元数据、主题及页面内容的义项集及义原集的相关算法。本文利用词汇的语义计算,从语义和概念层对文本及链接进行主题相关性分析,将基于内容评价的搜索策略和基于Web链接结构的搜索策略相结合,在对传统PageRank算法分析研究的基础上加以改进,提出了一种基于语义计算的KPageRank(Knowledge-based Pgae Rank)算法,利用链接扩展元数据进行主题相关性判定来选择、预测与主题相关的URL。而对于网页的主题相关性判定,则在目前较为常用的向量空间模型的基础上,再进行语义分析,以进一步提高信息采集的准确率及效率。实验结果表明,该模型同传统的网络爬虫模型相比具有较高的信息抓取准确率。

其他文献

基于小波分析和神经网络的油气产能预测研究与应用

在油田开发过程中,产能预测是油田开发的一项重要内容。油田产能的精确预测在于提取可靠的预估资料,其目的是为采油厂的各项职能活动提供决策依据。油田的开发过程具有不可重

学位

小波分析神经网络预测油气

基于图像特征配准的数字减影血管造影

数字减影血管造影(Digital Subtraction Angiography,DSA)是80年代兴起的一项医学影像技术,是数字放射学(Digital Radiography,DR)中重要的组成部分,但是在临床应用中,由于X

学位

数字减影血管造影DSA蒙片活片图像配准DICOM 3.0协议

缓冲区溢出漏洞的测试方法研究

信息技术的发展,对全球的经济、政治、科教、军事等社会发展的各方面带来了重大的影响,不仅仅使人类社会获得了高效率和便利,同时也给人类社会带来了威胁和风险。各种利用软

学位

缓冲区溢出静态分析动态分析抽象不变量变异测试

可分电子现金及其实现技术研究

电子现金因其具有离线交易、用户匿名、方便灵活、能有效防止拒付和恶意透支等特性而成为电子商务最重要的支付方式之一,并且已经成为未来电子货币的发展趋势。可分性是任何

学位

可分电子现金零知识证明单向累加器无连接性二叉树

无线传感器网络MAC层协议研究与设计

集成了传感器技术、嵌入式计算、网络和无线通信四大技术而形成的无线传感器网络是一种新兴的信息获取技术,可广泛应用于工农业控制、生物医疗、环境检测等诸多领域。MAC层协

学位

无线传感器网络MAC协议低能耗高吞吐量网络仿真

多普勒气象雷达图像逆风区的检测与识别

逆风区是一种强对流性天气中产生的天气现象在多普勒雷达速度图上的反映,是强烈降水区域的特有流场特征,该区域往往对应着强风,强降水,冰雹等灾害性天气。实现对逆风区的自动

学位

逆风区图像增强改进型序贯算法双向序列比对算法

视频交通流参数检测算法研究

交通流参数的正确检测与提取,是对高速公路监测与管理的重要基础。交通流参数检测方式多种多样,有电磁感应线圈、超声波检测器、微波检测器和红外线检测器等,而以视频交通流

学位

交通监测交通流参数视频检测图像分割目标跟踪

基于.NET框架的高校教务管理系统应用与研究

为适应新世纪人才培养的目标,国内高校教育体制进行了大规模的改革,校与校之间合并、校区分散、学校规模不断扩大、专业设置日趋多样化,招生人数逐年增加,教学计划不断更新,

学位

教务管理系统B/S架构Windows Server 2003数据库

科学大数据云分析服务的性能优化技术研究

随着科学技术的发展,科学数据的爆炸式增长给其存储和分析带来了巨大的压力,如何高效的存储和分析科学数据成为一个巨大的难题。一方面,科学数据模型一般以数组为主,传统关系

学位

科学大数据云分析服务性能优化块分割Cost-based优化器

DNA计算基本生物操作模拟

随着生物技术的发展，DNA计算随之产生。由于DNA计算机所具有的巨大并行性、海量存储以及低能耗等有点，将有望在某些领域弥补现有计算机的不足。DNA计算是利用DNA双螺旋结构和碱

学位

DNA计算海量存储分子生物生物操作模拟生化反应

基于语义分析的主题信息采集技术的研究

其他学术论文