基于语义分析的主题信息采集技术的研究

来源 :武汉理工大学 | 被引量 : 7次 | 上传用户:soj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现今随着Web信息指数化的增长,传统的基于整个Web的信息采集技术由于其采集的主题范围过于广泛,导致无法保证对信息的及时更新,并且较少考虑采集信息是否与查询主题相关,已经满足不了人们对个性化信息检索服务日益增长的需求。面向主题的信息采集技术由于其采集信息的内容只限于特定主题或专门领域,在搜索过程中无须对整个Web进行遍历,只需选择与主题相关的页面进行访问,基本回避了传统信息采集系统信息指数膨胀的危机,成为近年的研究热点。本文对国内外基于主题的信息采集领域的发展状况进行了详细的研究,分析了信息采集的工作原理,针对传统通用信息采集自身固有的缺陷,根据主题页面在Web上的分布特征,结合本体的相关理论及语义分析相关知识,在对链接、页面与主题相关性判定技术的深入研究基础上,提出了一种基于语义分析的主题信息采集的相关模型,该模型以本体构建领域知识概念集,结合语义计算,预测与主题相关的URL并对采集的页面进行进一步的过滤,同时结合现有开源技术对该功能模型进行了详细的设计与实现。语义分析是本文的重点,它是预测URL链接,采集主题相关页面,过滤无关页面的核心技术。本文在对“知网”进行详细研究的基础上,分析计算词语之间的相关度及相似度,并着重介绍了利用知网进行多义词词义消岐,获取链接扩展元数据、主题及页面内容的义项集及义原集的相关算法。本文利用词汇的语义计算,从语义和概念层对文本及链接进行主题相关性分析,将基于内容评价的搜索策略和基于Web链接结构的搜索策略相结合,在对传统PageRank算法分析研究的基础上加以改进,提出了一种基于语义计算的KPageRank(Knowledge-based Pgae Rank)算法,利用链接扩展元数据进行主题相关性判定来选择、预测与主题相关的URL。而对于网页的主题相关性判定,则在目前较为常用的向量空间模型的基础上,再进行语义分析,以进一步提高信息采集的准确率及效率。实验结果表明,该模型同传统的网络爬虫模型相比具有较高的信息抓取准确率。
其他文献
在油田开发过程中,产能预测是油田开发的一项重要内容。油田产能的精确预测在于提取可靠的预估资料,其目的是为采油厂的各项职能活动提供决策依据。油田的开发过程具有不可重
数字减影血管造影(Digital Subtraction Angiography,DSA)是80年代兴起的一项医学影像技术,是数字放射学(Digital Radiography,DR)中重要的组成部分,但是在临床应用中,由于X
信息技术的发展,对全球的经济、政治、科教、军事等社会发展的各方面带来了重大的影响,不仅仅使人类社会获得了高效率和便利,同时也给人类社会带来了威胁和风险。各种利用软
电子现金因其具有离线交易、用户匿名、方便灵活、能有效防止拒付和恶意透支等特性而成为电子商务最重要的支付方式之一,并且已经成为未来电子货币的发展趋势。可分性是任何
集成了传感器技术、嵌入式计算、网络和无线通信四大技术而形成的无线传感器网络是一种新兴的信息获取技术,可广泛应用于工农业控制、生物医疗、环境检测等诸多领域。MAC层协
逆风区是一种强对流性天气中产生的天气现象在多普勒雷达速度图上的反映,是强烈降水区域的特有流场特征,该区域往往对应着强风,强降水,冰雹等灾害性天气。实现对逆风区的自动
交通流参数的正确检测与提取,是对高速公路监测与管理的重要基础。交通流参数检测方式多种多样,有电磁感应线圈、超声波检测器、微波检测器和红外线检测器等,而以视频交通流
为适应新世纪人才培养的目标,国内高校教育体制进行了大规模的改革,校与校之间合并、校区分散、学校规模不断扩大、专业设置日趋多样化,招生人数逐年增加,教学计划不断更新,
随着科学技术的发展,科学数据的爆炸式增长给其存储和分析带来了巨大的压力,如何高效的存储和分析科学数据成为一个巨大的难题。一方面,科学数据模型一般以数组为主,传统关系
随着生物技术的发展,DNA计算随之产生。由于DNA计算机所具有的巨大并行性、海量存储以及低能耗等有点,将有望在某些领域弥补现有计算机的不足。DNA计算是利用DNA双螺旋结构和碱