移动互联网内容相似性研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:winbourbit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网络信息呈爆炸式增长。由于众多镜像站点、转载网页、复制网页的存在,使网络中充斥着大量相似内容,这些内容降低搜索引擎结果的质量、浪费硬件存储资源、影响移动用户的使用体验。近年来移动互联网的发展,问题越加严重。针对目前在移动互联网相似性方面研究的不足,本课题集中于网页正文抽取技术和网页相似性计算。在网页正文抽取技术方面,首先比较了基于统计的网页正文抽取技术、基于视觉分块的网页正文抽取技术及其他网页正文抽取技术,然后本论文提出一种基于主题相似分块的网页正文抽取技术。在网页相似性计算方面,首先比较了基于向量的相似性技术、基于特征的相似性技术、基于网页文本结构的相似性技术和基于语义的相似性技术,然后提出一种基于特征词的网页相似性算法。基于主题相似分块的网页正文抽取技术以标题标签和分块内容的相似性为基础,通过构建网页树,抽取网页的正文内容。实验表明,该算法对复杂网页抽取准确率高。基于特征词的网页相似性算法首先提取网页特征词,然后利用局部敏感哈希、分块查找等技术,计算网页的相似性。实验表明,该算法提高了短文本网页的查全率和查准率,降低了复杂度,适合大规模数据应用。
其他文献
图像匹配(Image Matching)是计算机视觉和图像处理中的重要研究内容,主要用于将不同时间、不同传感器、不同视角及不同拍摄条件下获取的两幅或多幅图像进行匹配。在图像融合、
随着电子学、光电探测、图像处理和计算机等技术不断成熟和完善,基于数字投影的三维形貌测量技术目前已成为最有发展前景的非接触式光学测量技术之一。这一技术具有设备要求简
随着通信与信息技术的高速发展,朝气蓬勃的互联网行业以其良好的实时性和动态性广受欢迎。而网络媒体凭借着网络对信息传播的迅速和低成本,使得用户更加青睐于这个新兴的行业
在传统的信号处理系统中,采样率需要遵循奈奎斯特采样定理才能在接收端正确的恢复信号。随着信号带宽的不断增加,对采样设备的性能提出了很高的要求。压缩感知的出现大大缓解了
学位
视网膜是人眼最里层的结构,包括人体一些重要的生理结构。血管是视网膜图像中最主要的结构。许多疾病可以引起视网膜血管的形状和结构的改变,所以可以通过视网膜血管进行分析对
随着EOC技术的不断进步,EOC技术逐渐被应用到解决广电双网改造中遇到的宽带接入最后一百米难题,然而,如此一来EOC技术的应用,使得对同轴网络的管理面临着困难。随着SNMP网络管理
摘 要:随着我国科学技术的发展天然气已经开始代替煤气进入千家万户。天然气是一种多组分的混合气态化石燃料,主要的成分为烷烃,其中甲烷的含量较多,还含有少量的丁烷以及乙烷。天然气主要在页岩层、油田以及气田中。天然气燃烧后不会产生废渣废水,对于煤炭以及石油等安全性更高。本文主要针对天然气制乙炔工艺展开研究和分析。  关键词:天然气 制乙炔 工艺研究  乙炔是一种非常重要的化工生产的中间体,在聚乙烯、丁二
近些年出现了针对原信号具有特殊结构特点的压缩感知重构算法研究,例如块稀疏信号,由于现实中很多的原信号都具有该结构特点,因此,针对该信号的结构特性,探索出一种高效的恢
近年来,随着移动通信技术的发展,手机用户规模迅速扩张。在享受科技带来便利的同时,手机由于其隐私性及时间碎片性却也开始成为垃圾语音的攻击对象。根据调查,百分之九十以上的人