【摘 要】
:
随着Internet的快速发展,越来越多的人们在网络上搜索需要的信息。然而,在互联网上,几乎所有的网页都包含着与主题无关的噪音信息,比如广告条、导航栏等。它们严重影响着搜索
论文部分内容阅读
随着Internet的快速发展,越来越多的人们在网络上搜索需要的信息。然而,在互联网上,几乎所有的网页都包含着与主题无关的噪音信息,比如广告条、导航栏等。它们严重影响着搜索引擎的检索结果,因此网页信息抽取技术应运而生。在众多的网页信息抽取方法中,基于页面结构分析的方法,更有助于对网页的理解,所以成为研究的热点。介绍了网页信息抽取技术的发展、原理和相关技术,深入讨论了页面结构分析方法在网页信息抽取中的重要作用。研究了现有的页面结构分析技术,针对其存在的缺乏语义特征的问题,采取同时提取网页空间特征和文本特征的方法,并提出了一种综合视觉特征和语义特征的相似度算法,提高了网页信息抽取的准确率。针对现有网页信息抽取方法忽略视觉特征、识别知识模糊的问题,在利用视觉特征进行网页分块的基础上,提取了各个数据块的12个特征,形成特征向量,利用综合相似度算法计算数据块的距离。由于数据块语义分散,因此采用聚类算法将相似语义和结构的数据块聚集到一起,然后通过视觉特征抽取主题信息,有效地克服了现有方法识别知识模糊的问题。最后,将本文抽取方法与另一种网页信息抽取方法进行了比较,并将两种方法的抽取结果应用于k-最近邻网页分类器。实验表明,本文方法能够更有效地抽取网页主题信息,具有更高的分类准确率。
其他文献
射频识别(RFID)作为一种高效的数据采集和自动识别技术,在制造、物流、医疗、运输、零售等领域具有广泛的应用前景。但随着RFID技术的快速发展和其应用规模的逐渐扩大,RFID系
医学图像融合是对多幅不同模态的医学图像进行信息综合,合成一幅包含所有源图像重要信息的融合图像的过程。该技术充分利用不同模态医学图像提供病灶信息的冗余性和互补性,以获
随着现代工业和交通运输业的飞速发展,噪声问题日益引起了人们的极大关注。基于自适应控制理论的噪声主动控制技术已经成为噪声控制领域的重要研究内容之一,并取得了丰硕的成果。在自适应噪声主动控制控制系统中,控制算法是直接影响自适应控制性能的重要因素。目前,在自适应噪声主动领域,使用最为广泛的是基于线性自适应滤波器的滤波-XLMS算法,而滤波-XLMS算法存在需要较高阶次的自适应滤器和不能有效的控制非线性噪
H.264是一种高度压缩的数字视频编解码标准,2002年由ITU-T视频编码专家组和ISO/IEC动态图像专家组组成的联合视频组(JVT, Joint Video Team)提出,其特点是具有更好的编码效率
计算机技术、网络技术、Internet技术的进步,带来了数据挖掘技术的迅速发展。该技术主要是以从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜
现代计算机技术的高速发展,使得在科学研究和社会生活的各个领域中积累了大量的数据,为将这些数据转换成有用的信息和知识,数据挖掘技术应运而生并得以迅速发展。但是存在一
网络系统日趋大型化、连续化、高速化和自动化,功能越来越多、结构也越来越复杂,其故障诊断与预测技术涉及到相互关联、相互制约的多个层次和众多因素,其中有很多因素对于系
随着经济全球化的发展,互联网为中小型企业的发展带来更广阔的市场前景。针对目前网购市场中的大量女性客户,本文设计并实现基于化妆品销售的中小型B2C商城系统,提供给客户一
自从20世纪80年代后期数据挖掘理论出现以来,数据挖掘技术有了突飞猛进的发展。随着数据量大量增加,数据挖掘技术变得越来越重要,从而引起了众多研究人员的兴趣,数据挖掘迅速
科学技术是极具传承性的事业,任何一个科技工作者要取得好的进展,都离不开前人或他人的经验和成果。近年来,随着计算机、生物、化学、医药等领域的研究成果发布周期越来越短,