网络内容分级索引结构研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:zch_kitty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和通信技术的发展,互联网已经成为人们发布和获取信息的重要渠道。然而,由于互联网信息发布的无地域性和匿名性等特点,各种信息难以进行有效的监督和管理。互联网信息的内容安全问题日趋严重,对公众生活和社会生产造成了严重的影响。为了保障互联网信息的内容安全,研究和开发网络内容过滤工具具有重要的现实意义。   目前,网络内容过滤技术可以归为标签过滤、关键字过滤、URL过滤、分类过滤和内容过滤等几大类。URL过滤技术由于其灵活性和高实现效率,在网络内容过滤系统中得到了广泛的应用。然而,互联网的发展使得URL过滤技术不得不面对存储空间增大和查询效率降低等问题。为了解决这些问题,本文结合网络媒体内容过滤系统(IMCF,InternetMultimediaContentFiltering)的设计框架,提出了一个基于CPat-Tree结构设计的网络内容分级索引模型。   本文主要讨论了内容分级索引结构模型的设计和实现。该模型负责存储和维护定期发布的URL和信息矢量列表,向用户终端提供快速的URL信息矢量查询服务。内容分级索引结构模型采用散列函数对URL进行编码,然后通过CPat-Tree模型对URL编码实施存储、索引和查询操作。本文的创新之处在于提出了基于CPat-Tree存储和索引URL及其信息矢量的方法,对生成算法和查询算法进行了有益的改进。本文还提出了一种在该URL分级索引结构模型上实施的裁剪算法。该算法基于键值相似度比较,直接对存储数组进行遍历删减,以缩减CPat-Tree的存储空间。理论分析和实验结果表明,运用了裁剪算法后,CPat-Tree索引的存储空间减小到原来的10%左右;在URL信息矢量的相似度变化范围内,索引结构的查询效率相对裁剪前提高约30%-60%。
其他文献
近年来,数据挖掘技术的研究引起了国际人工智能和数据库等领域专家与学者的广泛关注。在事务数据库中挖掘关联规则是数据挖掘领域中的一个非常重要的研究课题。目前以Apriori
随着电子通信和计算技术的迅猛发展,网络化嵌入式系统特别是CPS(物理信息系统)已成为国内外研究的重要领域,而节点操作系统是CPS研究的关键方向。其中,文件系统作为节点操作
在过去的十几年时间内,因特网得到了爆炸式的增长。虽然网络带宽容量也有了飞速的增长,但由于用户数量的增加和各种新型应用的出现,使Internet的流量急剧增长,网络负载反而比
微博客(即微博,Microblog)作为一种新兴的Web2.0应用,已经成为信息分享和传播的重要工具和平台,微博用户通过固定和移动设备,能够方便地发布、转发、与其他用户共享信息。由
本文针对分布式多数据库节点间的数据传输,设计了一种基于点对点的通信协议DACP(DuplexandAsynchronousCommunicationProtocol),该协议包含两部分:一部分是异步串行通信,基于PSTN
本文提出一种图像纹理特征提取的新途径——人工生命。文章研究出一种名为“人工爬虫”的人工生命群体,通过这些爬虫在纹理图像所对应的生存空间中生长进化所形成的特征曲线,实
采购管理是供应链管理中的重要一环,是实施供应链管理的基础,正在逐渐受到国内外学者的广泛重视。采购的成本直接影响到企业的利润和资产回报率,影响企业流动资金的回笼速度。采
组件对象技术COM是Microsoft提出的一种基础的软件重用技术。“储层地质统计分析系统GASOR”是一个应用于油气储层随机建模的工作站版本的商品化软件系统。随着计算机技术的
我国加入WTO使中小企业有了更加广阔的发展前景,但竞争也日趋激烈。中小企业一方面要在激烈的竞争中站稳脚跟,另一方面还要寻找机会发展壮大自己。在这样的背景下,中小企业信
随着中国石油勘探与生产公司企业信息门户的建立,需要将勘探与生产的应用系统集成到信息门户中,并实现用户身份的统一认证。本论文就如何实现中国石油勘探与生产公司企业信息门