基于Web文本内容的信息过滤系统的研究与设计

来源 :南京理工大学 | 被引量 : 0次 | 上传用户：qqboygogogogo

【摘要】

：

Internet的迅速发展给人们带来诸多方便的同时，也带来了诸如信息过载、信息迷向、不良信息充斥网上等等很多问题，信息过滤应运而生。中文文本信息过滤是中文信息处理的一个分支

【作者】

：

刘七

【机构】

：

南京理工大学

【出处】

：

南京理工大学

【发表日期】

：

2004年期

【关键词】

：

信息过滤文本过滤文本特征抽取空间向量模型文本分类 K元最近邻算法相关度反馈

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Internet的迅速发展给人们带来诸多方便的同时，也带来了诸如信息过载、信息迷向、不良信息充斥网上等等很多问题，信息过滤应运而生。中文文本信息过滤是中文信息处理的一个分支，它是根据用户的需求，在动态的信息流中搜索用户感兴趣的信息，屏蔽其它无用的信息。本文从过滤不良信息的实用技术角度出发，对基于Web文本内容的不良信息过滤系统进行了研究和设计。本文主要工作包括：构建了基于Web文本内容的不良信息过滤系统的模型。提取Web页面中标记信息和正文文本信息，组成训练文本集。按照一定的方法从训练文本集中抽取特征项，并经过反复训练，建立起特征词典。利用特征词典完成对训练文本和测试文本的表示：正文文本建立VSM表示，标记信息采用布尔模型表示。建立分级匹配策略，完成两者之间的匹配，以决定是否屏蔽测试文本。

其他文献

IP安全组播——密钥管理算法研究

IP组播的安全研究是一个相对复杂的课题，这也是阻碍组播得到大规模应用的一个重要原因。本文针对IP组播密钥管理算法进行了深入细致的研究。核心思想是尽量降低组播密钥管理的

学位

IP组播密钥管理组播安全

入侵检测系统中代理的应用及其容错技术研究

随着网络技术的日益普及和发展,网络入侵造成的危害性也越来越大。入侵检测系统是继“防火墙”、“数据加密”等传统安全保护措施后的又一种新的网络安全技术,它用于计算机和

学位

网络安全入侵检测代理移动代理容错

基于R-Tree的空间连接代价模型的改进

空间连接查询是空间数据库系统中最频繁的操作之一，而且由于空间数据库中数据无序、数据量大等特点，使得其代价评估对于空间查询优化来说具有重要意义。空间连接代价模型建

学位

空间连接R-tree非均匀分布定长缓冲区抽样

基于IXP2400的内容过滤系统的设计与实现

内容过滤是网络安全领域中不可或缺的一个重要组成部分。它对应用层协议中传输的信息进行分析,并根据过滤条件,控制信息的转发。网络处理器是新一代用来执行数据处理和转发的

学位

内容过滤IXP2400网络处理器网络安全IPv4转发

软交换系统H.323协议接入子系统的软件测试方法的研究、设计与实现

下一代网络(NGN)最大的特点是开放、融合和业务驱动。为了实现这样的特性，软交换需要支持多种协议的接入，比如H.323，STP，MGCP，ISUP等等。协议接入层是软交换系统的基础，协议接入子

学位

下一代网络软交换H.323协议通信软件面向对象技术白盒测试黑盒测试

集成AAA的层次移动IPv6协议的研究和实现

随着无线通讯技术的发展,笔记本电脑、手机及各种智能终端技术的迅猛发展,网络对于移动性支持有了新的需求。移动IPv6技术允许移动节点从一个链路移动到另一个链路,而不用改

学位

移动IPv6层次移动IPv6重复地址检测转交地址池AAADiameter

P2P技术在分布式存储中的研究与应用

随着P2P计算模式的兴起、网络带宽的大幅增加和Internet端系统计算能力的迅速增强,原先被忽视的端系统成为了一种宝贵的资源。如何充分利用这些端系统资源,在高动态的P2P网络

学位

分布式存储P2PPNS路由动态副本管理

面向二级运营商的QoS研究、设计与实现

进入20世纪90年代后,以因特网(Internet)为代表的计算机网络得到飞速发展。它所取得的巨大成就和未来所蕴涵的巨大发展潜力几乎没有人怀疑。IP业务多样化和快速增长已经成为

学位

路由器QoS拥塞管理流量整形优先级排队管理调度

基于Tsallis理论的自适应采样算法

真实感图形学是计算机图形学的重要组成部分,真实感图形技术的广泛应用对其算法提出了更高的要求。基于蒙特卡罗积分技术的整体光照计算是生成高质量真实感图像的主要方法。

学位

蒙特卡罗整体光照自适应采样Tsallis熵Tsallis散度

分布式构件库系统框架研究

目前Internet上出现了很多专门的构件库,但是不同的构件库有不同的组织和访问方式,从而导致了对各构件库中的构件访问困难,本文主要研究分布式环境下构件库的系统框架。本文

学位

构件分布式构件库多Agent目录服务构件目录库

基于Web文本内容的信息过滤系统的研究与设计

其他学术论文