移动互联网内容相似性研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：winbourbit

【摘要】

：

随着互联网的发展，网络信息呈爆炸式增长。由于众多镜像站点、转载网页、复制网页的存在，使网络中充斥着大量相似内容，这些内容降低搜索引擎结果的质量、浪费硬件存储资源、影响

【作者】

：

陈秋

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2013年期

【关键词】

：

移动互联网网页正文抽取网页相似性计算局部敏感哈希

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的发展，网络信息呈爆炸式增长。由于众多镜像站点、转载网页、复制网页的存在，使网络中充斥着大量相似内容，这些内容降低搜索引擎结果的质量、浪费硬件存储资源、影响移动用户的使用体验。近年来移动互联网的发展，问题越加严重。针对目前在移动互联网相似性方面研究的不足，本课题集中于网页正文抽取技术和网页相似性计算。在网页正文抽取技术方面，首先比较了基于统计的网页正文抽取技术、基于视觉分块的网页正文抽取技术及其他网页正文抽取技术，然后本论文提出一种基于主题相似分块的网页正文抽取技术。在网页相似性计算方面，首先比较了基于向量的相似性技术、基于特征的相似性技术、基于网页文本结构的相似性技术和基于语义的相似性技术，然后提出一种基于特征词的网页相似性算法。基于主题相似分块的网页正文抽取技术以标题标签和分块内容的相似性为基础，通过构建网页树，抽取网页的正文内容。实验表明，该算法对复杂网页抽取准确率高。基于特征词的网页相似性算法首先提取网页特征词，然后利用局部敏感哈希、分块查找等技术，计算网页的相似性。实验表明，该算法提高了短文本网页的查全率和查准率，降低了复杂度，适合大规模数据应用。

其他文献

基于自适应极坐标变换的图像匹配方法

图像匹配(Image Matching)是计算机视觉和图像处理中的重要研究内容，主要用于将不同时间、不同传感器、不同视角及不同拍摄条件下获取的两幅或多幅图像进行匹配。在图像融合、

学位

图像匹配Fourier-Mellin变换自适应极坐标变换相位一致性

基于数字投影的三维形貌测量系统研究与设计

随着电子学、光电探测、图像处理和计算机等技术不断成熟和完善，基于数字投影的三维形貌测量技术目前已成为最有发展前景的非接触式光学测量技术之一。这一技术具有设备要求简

学位

数字投影形貌测量系统模型系统标定双条纹形貌测量法

推特中的文本污染信息过滤方法研究

随着通信与信息技术的高速发展,朝气蓬勃的互联网行业以其良好的实时性和动态性广受欢迎。而网络媒体凭借着网络对信息传播的迅速和低成本,使得用户更加青睐于这个新兴的行业

学位

推特污染信息过滤词向量卷积神经网络

帧间自适应压缩感知在视频处理中的应用与研究

在传统的信号处理系统中，采样率需要遵循奈奎斯特采样定理才能在接收端正确的恢复信号。随着信号带宽的不断增加，对采样设备的性能提出了很高的要求。压缩感知的出现大大缓解了

学位

压缩感知视频自适应帧间差值信号

混合蛙跳群体智能优化算法的改进及其应用研究

学位

基于Curvelet变换和形态学的视网膜血管分割

视网膜是人眼最里层的结构，包括人体一些重要的生理结构。血管是视网膜图像中最主要的结构。许多疾病可以引起视网膜血管的形状和结构的改变，所以可以通过视网膜血管进行分析对

学位

血管分割曲波变换多结构形态学视网膜

基于EOC的嵌入式SNMP网管代理系统的设计与实现

随着EOC技术的不断进步，EOC技术逐渐被应用到解决广电双网改造中遇到的宽带接入最后一百米难题，然而，如此一来EOC技术的应用，使得对同轴网络的管理面临着困难。随着SNMP网络管理

学位

EOCSNMP网管代理嵌入式LinuxTRAP

天然气制乙炔工艺研究

摘要：随着我国科学技术的发展天然气已经开始代替煤气进入千家万户。天然气是一种多组分的混合气态化石燃料，主要的成分为烷烃，其中甲烷的含量较多，还含有少量的丁烷以及乙烷。天然气主要在页岩层、油田以及气田中。天然气燃烧后不会产生废渣废水，对于煤炭以及石油等安全性更高。本文主要针对天然气制乙炔工艺展开研究和分析。　　关键词：天然气制乙炔工艺研究　　乙炔是一种非常重要的化工生产的中间体，在聚乙烯、丁二

期刊

天然气制乙炔工艺研究

基于分块稀疏信号的压缩感知贪婪算法研究

近些年出现了针对原信号具有特殊结构特点的压缩感知重构算法研究,例如块稀疏信号,由于现实中很多的原信号都具有该结构特点,因此,针对该信号的结构特性,探索出一种高效的恢

学位

压缩感知块稀疏信号贪婪算法结构特性重构概率

基于多标准信誉模型的垃圾语音检测

近年来，随着移动通信技术的发展，手机用户规模迅速扩张。在享受科技带来便利的同时，手机由于其隐私性及时间碎片性却也开始成为垃圾语音的攻击对象。根据调查，百分之九十以上的人

学位

垃圾语音多评价标准群学习信誉模型

移动互联网内容相似性研究

其他学术论文