基于Web文本内容的信息过滤系统的研究与设计

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:qqboygogogogo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的迅速发展给人们带来诸多方便的同时,也带来了诸如信息过载、信息迷向、不良信息充斥网上等等很多问题,信息过滤应运而生。中文文本信息过滤是中文信息处理的一个分支,它是根据用户的需求,在动态的信息流中搜索用户感兴趣的信息,屏蔽其它无用的信息。 本文从过滤不良信息的实用技术角度出发,对基于Web文本内容的不良信息过滤系统进行了研究和设计。 本文主要工作包括: 构建了基于Web文本内容的不良信息过滤系统的模型。 提取Web页面中标记信息和正文文本信息,组成训练文本集。 按照一定的方法从训练文本集中抽取特征项,并经过反复训练,建立起特征词典。 利用特征词典完成对训练文本和测试文本的表示:正文文本建立VSM表示,标记信息采用布尔模型表示。 建立分级匹配策略,完成两者之间的匹配,以决定是否屏蔽测试文本。
其他文献
IP组播的安全研究是一个相对复杂的课题,这也是阻碍组播得到大规模应用的一个重要原因。本文针对IP组播密钥管理算法进行了深入细致的研究。核心思想是尽量降低组播密钥管理的
随着网络技术的日益普及和发展,网络入侵造成的危害性也越来越大。入侵检测系统是继“防火墙”、“数据加密”等传统安全保护措施后的又一种新的网络安全技术,它用于计算机和
空间连接查询是空间数据库系统中最频繁的操作之一,而且由于空间数据库中数据无序、数据量大等特点,使得其代价评估对于空间查询优化来说具有重要意义。 空间连接代价模型建
内容过滤是网络安全领域中不可或缺的一个重要组成部分。它对应用层协议中传输的信息进行分析,并根据过滤条件,控制信息的转发。网络处理器是新一代用来执行数据处理和转发的
下一代网络(NGN)最大的特点是开放、融合和业务驱动。为了实现这样的特性,软交换需要支持多种协议的接入,比如H.323,STP,MGCP,ISUP等等。协议接入层是软交换系统的基础,协议接入子
随着无线通讯技术的发展,笔记本电脑、手机及各种智能终端技术的迅猛发展,网络对于移动性支持有了新的需求。移动IPv6技术允许移动节点从一个链路移动到另一个链路,而不用改
随着P2P计算模式的兴起、网络带宽的大幅增加和Internet端系统计算能力的迅速增强,原先被忽视的端系统成为了一种宝贵的资源。如何充分利用这些端系统资源,在高动态的P2P网络
进入20世纪90年代后,以因特网(Internet)为代表的计算机网络得到飞速发展。它所取得的巨大成就和未来所蕴涵的巨大发展潜力几乎没有人怀疑。IP业务多样化和快速增长已经成为
真实感图形学是计算机图形学的重要组成部分,真实感图形技术的广泛应用对其算法提出了更高的要求。基于蒙特卡罗积分技术的整体光照计算是生成高质量真实感图像的主要方法。
目前Internet上出现了很多专门的构件库,但是不同的构件库有不同的组织和访问方式,从而导致了对各构件库中的构件访问困难,本文主要研究分布式环境下构件库的系统框架。本文