论文部分内容阅读
随着计算机和通信技术的发展,互联网已经成为人们发布和获取信息的重要渠道。然而,由于互联网信息发布的无地域性和匿名性等特点,各种信息难以进行有效的监督和管理。互联网信息的内容安全问题日趋严重,对公众生活和社会生产造成了严重的影响。为了保障互联网信息的内容安全,研究和开发网络内容过滤工具具有重要的现实意义。
目前,网络内容过滤技术可以归为标签过滤、关键字过滤、URL过滤、分类过滤和内容过滤等几大类。URL过滤技术由于其灵活性和高实现效率,在网络内容过滤系统中得到了广泛的应用。然而,互联网的发展使得URL过滤技术不得不面对存储空间增大和查询效率降低等问题。为了解决这些问题,本文结合网络媒体内容过滤系统(IMCF,InternetMultimediaContentFiltering)的设计框架,提出了一个基于CPat-Tree结构设计的网络内容分级索引模型。
本文主要讨论了内容分级索引结构模型的设计和实现。该模型负责存储和维护定期发布的URL和信息矢量列表,向用户终端提供快速的URL信息矢量查询服务。内容分级索引结构模型采用散列函数对URL进行编码,然后通过CPat-Tree模型对URL编码实施存储、索引和查询操作。本文的创新之处在于提出了基于CPat-Tree存储和索引URL及其信息矢量的方法,对生成算法和查询算法进行了有益的改进。本文还提出了一种在该URL分级索引结构模型上实施的裁剪算法。该算法基于键值相似度比较,直接对存储数组进行遍历删减,以缩减CPat-Tree的存储空间。理论分析和实验结果表明,运用了裁剪算法后,CPat-Tree索引的存储空间减小到原来的10%左右;在URL信息矢量的相似度变化范围内,索引结构的查询效率相对裁剪前提高约30%-60%。