基于RSS的种子信息聚合与抽取模型的研究与实现

来源 :太原理工大学 | 被引量 : 1次 | 上传用户：luwenfei7782

【摘要】

：

随着Internet的快速发展,互联网已经发展成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源。然而,在利用搜索引擎进行信息检索时,返回的搜索结果数目非常庞大

【作者】

：

张丽娜

【机构】

：

太原理工大学

【出处】

：

太原理工大学

【发表日期】

：

2010年01期

【关键词】

：

RSS信息聚合 Web信息抽取 Lucene HtmlParser

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的快速发展,互联网已经发展成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源。然而,在利用搜索引擎进行信息检索时,返回的搜索结果数目非常庞大,用户难以准确地寻找到自己所需的信息。与此同时,基于互联网的信息搜索和获取面对的已不再是单纯的静态页面,而是不断更新的动态页面,如博客、论坛类网站。因此,如何在众多的信息中准确找到自己真正需要的部分,以及如何及时获得新知识和新内容成为当前亟待解决的两大问题。本文围绕上述两大问题,通过分析RSS(Really Simples Syndication)信息聚合技术在信息更新、信息过滤方面的优劣势,结合Web信息抽取技术可以较准确地获取用户所需信息的特点,提出RSS信息聚合与Web信息抽取相结合的思想,并将其应用在BT种子的信息聚合与抽取中,设计开发了信息聚合与抽取系统,使得计算机能够自动完成BT种子信息的聚合以及有效信息的抽取,并呈现给用户一个完整的信息视图,从而取代大量的人力和时间消耗,提高了自动化程度,为山西易多科技公司研发的A380多媒体播放器系统提供了支持。本文主要工作如下:首先,分析了信息聚合技术的优缺点,对比了信息抽取的各种技术方法,研究了过滤的实现技术Lucene和抽取的主要技术HtmlParser。其次,设计了基于RSS的种子信息聚合与抽取模型,该模型分为四个基本模块:信息聚合模块、信息过滤模块、信息检索模块和信息抽取模块。信息聚合模块利用RSS技术聚合种子信息;信息过滤模块是在聚合信息的基础上,采用Lucene技术对信息创建或加载索引,再根据自定义过滤词库进行查询删除;信息检索模块是在上一步建立索引的基础上,根据用户输入的关键字进行查询;信息抽取模块是利用HtmlParser技术对网页信息进行信息块定位和预处理,再通过与参数特征库的匹配实现抽取功能。最后,开发实现了基于RSS的种子信息聚合与抽取系统,并通过实验测试系统的可行性,最后对实验结果进行有效性评估。本文设计开发的针对BT种子的信息聚合与抽取系统,增加了信息过滤功能,实现了有效信息的在线抽取和结构化存储功能,很好地满足了用户及时获取新内容、准确找到有效信息的需求。经过分析,系统过滤的有效性以及抽取结果的召回率和准确率都满足设计需求,验证了本研究的正确性,为将来进一步开发更专业、更广泛的信息聚合与抽取系统打下了基础。

其他文献

与PostgreSQL无缝集成的纯XML存储方案设计与实现

随着XML相关标准的推广和应用,各个领域不断涌现出大量的XML文档。如何有效管理大规模XML,文档数据,已经成为当前数据库领域中一个亟待解决的研究课题。基于关系数据库管理XM

学位

基于浅层语义分析的文本摘要方法研究与实现

当前,互联网和移动互联网的快速普及使得信息资源爆炸性增长。丰富的信息资源一方面给人们带来极大便利,同时也在有效资源的选择上面临诸多困难。从网络信息资源的类型来看,

学位

文本摘要主题模型图模型浅层语义演示系统

基于COPS协议的IPv6追踪策略

分布式拒绝服务(Distributed denial of service,DDOS)攻击是目前Internet很大的威胁之一。如何才能找出真正的攻击者,即IP追踪问题,成为当前互联网安全领域比较活跃的课题之

学位

COPS协议IPv6DDoSIP追踪

基于服务区分的P2P流媒体激励方案研究

近年来,互联网中流媒体的应用愈发广泛,并且已经成为推动宽带应用的主要动力。流媒体的播放耗费了大量的网络资源,并且对网络的带宽要求较高。传统的基于服务器和CDN网络的流

学位

图像的数字水印算法研究

近年来,随着互联网及数字多媒体技术的发展,数字多媒体产品的制作、复制和传输变得方便与快捷。与此同时,它们的版权保护和内容的真实性与完整性检测也成了迫切需要解决的问

学位

数字水印离散余弦变换零水印奇异值分解

知识编译技术及可能性灵活规划问题研究

本文的研究工作主要分为两个部分:知识编译技术和可能性灵活规划问题。作为自动推理技术的一个方面,知识编译技术是处理命题逻辑知识库常用的一种新技术,知识编译的过程就是

学位

知识编译描述逻辑可能性灵活规划ALCK*NF

基于MOSS2007的继教处办公自动化系统的设计与实现

目前,OA系统在各个行业和企业的应用已经相当普及,是人们在办公时使用最多、最频繁的基本系统之一。目前的OA系统多数以.NET或Java技术为基础而开发,普遍存在系统功能全但针

学位

基于组合开源框架的Web应用软件测试方法的研究

目前,基于因特网的Web应用软件迅速应用到社会的各个领域,同时由于Web应用软件的结构、运行环境和负载等因素的复杂性,Web应用软件的测试比传统软件的测试更复杂,需要进一步

学位

开源框架Web应用软件软件测试JUnit组件

P2P相似搜索中分层索引机制研究

相似搜索已经成为P2P网络研究中的热点问题。M-CAN通过锚点比对的方式将原始数据空间映射到低维向量空间,然后在低维向量空间上进行数据的发布和搜索。但是映射过程会造成信

学位

Web检索中的查询扩展及结果聚类技术研究

近年来随着互联网技术的发展,Web信息量飞速增长,如何从大量信息中迅速有效地检索出所需的信息成为了人们关注的问题,搜索引擎也因此走入了人们的生活。如今,搜索引擎的功能

学位

查询扩展语义关联树搜索结果聚类聚类质量评估聚类标签

基于RSS的种子信息聚合与抽取模型的研究与实现

其他学术论文