【摘 要】
:
随着话题检测、社区发现、垂直搜索引擎等Blog研究的展开,对于结构化Blog数据的渴求也日益强烈,然而传统Web信息抽取在丰富灵活多变的Blog数据源中遇到了很大挑战,因此专门针
论文部分内容阅读
随着话题检测、社区发现、垂直搜索引擎等Blog研究的展开,对于结构化Blog数据的渴求也日益强烈,然而传统Web信息抽取在丰富灵活多变的Blog数据源中遇到了很大挑战,因此专门针对Blog数据的信息抽取技术研究成为迫切需要。本文首先对Blog页面进行了深入的分析,发现页面含有结构信息和语义信息,针对这一特点提出了一种Blog数据特征方法,该方法将原始Blog数据转化为值和路径的表示方式,更有利于信息抽取。另外发现Blog页面模板化、模块化和个性化的特点,这会导致Html结构发生变化,进而信息抽取面对数据源也会不统一,为解决这些问题,本文提出了基于子树相似性的Blog页面分块算法(BPS-BSS),该算法通过递归地对页面中节点进行层次聚类合并筛选,能够提取出Blog页面中的所有Blog模块,使信息抽取算法只需要在模块内部抽取信息即可。实验表明该算法具有很高的准确性和很低的时间复杂度。提取出Blog页面中的Blog模块之后,利用模块含有的语义信息,本文提出了基于本体论的信息抽取算法,该算法首先建立一一对应的Module概念和Blog概念,每个Blog概念都含有信息项概念,每个信息项都含有一些数据属性信息;然后采用半监督的方式简单地标注样本,利用样本来归纳学习信息项的数据属性;最后利用信息项的数据属性生成信息项的抽取规则。由于是在模块内部进行信息抽取,实验表明,这种算法不仅提高了抽取速度也提高了抽取准确性。基于以上的研究成果,本文设计并实现了一个Blog信息抽取的实验原型系统,包括异步网络爬虫、页面分块模块、生成抽取规则、信息抽取算法实现等模块,为进行相关的算法实验和研究提供了一个基础平台。
其他文献
网格系统为用户提供了一种全面共享各种网格资源的基础设施。随着Internet与计算机技术的飞速发展,网格系统中资源的数目日益庞大,交互更加频繁,而网格资源本身又具有分布性
认证协议是安全协议中最基本、最重要的一种,其目标是实现通信实体的身份认证和在通信实体间分发会话密钥。对认证协议的攻击形式有很多,但已构成的攻击事例中,百分之九十以
近年来,随着计算机计算速度和能力的大幅提高,传统的加密技术已经不能满足当代网络通信安全性的需求。由于混沌具有一系列较好的特性,如对初始条件和控制参数的极端敏感性,伪随机
基于背包问题的公钥密码算法是密码学历史上最早被设计出来的几个公钥密码算法之一。由于背包密码的快速加解密优势和背包问题是NP完全问题,很长一段时间内背包算法受到普遍
数字水印技术是信息隐藏技术的重要研究方向,它在数字图像等多媒体版权保护以及内容认证方面具有重要价值。互联网的便捷性和数字媒体复制的低成本,在促进数字产品在现实中的
程序是用计算机程序设计语言编写的用于实现某种操作的指令集合,程序为了对抗逆向分析或者是代码窃取,通常会采取一些自我保护技术,程序行为或者代码隐藏技术属于其中的一种。程
任何一门学科的快速发展都离不开社会需求的支持和推动,随着人们对生活质量和健康水平的日益重视,医学已经成为本世纪发展得最快的学科之一。在医学迅猛发展的过程中积累了大
随着海量数据的急剧增长,数据的有效处理和计算成为目前亟待解决的问题。目前,由传统的机构结构化数据发展到大量半结构化、非结构化数据,这种趋势给传统的数据处理工具带来了很
加强对高压电缆的实时状态监控是确保高压电正常工作的重要环节,随着我国电力的高速发展,对电缆电压进行有效的在线监测手段将成为迫切需求,社会各界给予了极大的关注,并在多
随着计算机网络的发展,数字媒体的传播越来越方便快捷,然而由此引发的版权问题也日益尖锐,数字水印作为一种解决数字版权问题的有效手段,正越来越受重视。而随着新的需求逐渐展现