网页正文提取及去重技术研究

被引量 : 0次 | 上传用户:ydaf1aj9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的持续高速发展,网络上的网页数目成爆炸式增长,搜索引擎已成为人们日常生活中必不可少的获取信息的工具。然而,原始网页中的非正文信息及网络上的重复网页给搜索引擎带来了很大的干扰,这使得网页正文提取及网页去重成为搜索引擎领域亟待解决的两个重要问题。本文提出了一种基于最大连续子序列和的网页正文提取算法。该算法摆脱了现有主流方法对DOM树的依赖,它和网页HTML源码结构无关,从而提高了算法在执行过程中的健壮性。最重要的是,该算法以线性时间提取网页正文内容,大大提高了提取效率,同时以较高的精度保证提取结果的正确性。本文还提出了基于关键长句和预分类的网页去重算法。该算法结合了基于上下文和和基于语义的特征提取技术的长处,将文中词语的权重和所处上下文环境相结合,从而既发挥了语义的重要性,又发挥了上下文的联系性,大大提高了文档特征提取的准确度,同时降低了所需特征的数量,提高了查重效率。另外,该算法在网页正文提取的基础上,提出了预分类技术,该技术在查重之前,先根据网页正文长度将网页进行分类,从而进一步提高了在海量数据中去重的时间效率。本文通过对20个门户网站的近15万个网页进行实验分析,实验结果表明,本文的基于最大连续子序列和的网页正文提取算法可以达到96%以上的提取准确率和召回率,而本文的基于关键长句和预分类的网页去重算法,在阀值设为0.45的时候,准确率和召回率可以同时保持在97%。两个算法的实验结果均好于现有主流算法。
其他文献
利用近百年年降水量资料,分析了亚洲大陆干旱、半干旱地带的主体部分,即中亚和中国西北地区的年降水量变化特征和产业结构。分析结果表明,中亚和中国西北地区年降水量在空间分布
<正>教学过程是人的一种特殊的发展过程。教育理论界长期以来对教学过程的本质进行了许多有关探索,提出了不同的观点。纵观各种观点有一个共同的特征,那就是教学过程本质是一
离心泵作为一种通用机械在日常生活与工业生产中得到广泛应用。该类泵每年所消耗的电量占总发电量的10%以上,另一方面我国离心泵的总体运行效率低下,节能潜力非常巨大。使用
超大型桥梁工程项目十分庞大与复杂,其中需管理与控制的内容有:工程设计、投资、进度、质量、安全、合同、采购、支付、资料等。因此,借助计算机辅助管理(CAE)的手段进行工程
好的管理者通常都是好教练,好的培训师也会经常使用教练技术设计教学和授课,熟练使用量化工作标准、反馈、倾听、鼓励这四种体育教练常用的方法。
<正> 企业如何面对专家型消费时代首先,面对专家型消费,企业必须致力于存同类产品中保持领先的专业水准,并且树立自己的专业形象。只有专业形象,才能实现与专家型消费者的有
作为一项以"避灾减贫"为特色、兼顾多维目标的陕南地区大规模避灾移民搬迁安置政策取得了一定的预期目标,未来要进一步提升其综合效应,至少要在以下四个方面进行调适或完善:在高
少数民族儿童传统游戏课程开发是民族地区幼儿园实施"多元一体化教育"的重要途径,教师的文化自觉是数民族儿童传统游戏课程开发与实施的核心.为此,教师应基于文化自觉,理解和
无公害生猪生产技术是近几年无公害农产品生产技术研究的热点。分析国内外养猪形势,影响我国养猪效益的最根本因素是质量问题,由于我国的饲养方法、饲养环境、疫病防治、药物
<正>4月25日,由中国纺织企业家联合会、中国纺织工业联合会产业转移办公室、中国服装协会、西平县人民政府联合主办的2015西平·中国纺织服装产业转移论坛在嫘祖故里河南省西