基于文本分类技术的信息过滤方法的研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:haohaodezuzut
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的迅速发展给人们带来诸多方便的同时,也带来了诸如信息过载、信息迷失、色情和暴力充斥网上等很多问题,为解决这些问题,信息过滤应运而生。中文文本信息过滤是中文信息处理的一个分支,它是根据用户的需求,在动态的信息流中搜索用户感兴趣的信息,屏蔽其它无用的信息。但传统的基于关键字或基于IP地址的过滤等过滤技术已不能很有效的解决这些问题,由此该课题对基于文本分类技术的过滤方法进行深入研究,希望能对网络信息内容进行分析,达到对网络信息的安全过滤。本课题将文本分类技术应用到中文信息过滤领域,提出了一种基于文本分类技术的信息过滤算法。首先对网络中收集的文本进行预处理工作,改进的预处理方法使两个字以上的纯中文词成为代表文本信息的特征项。其次,该文借助向量空间模型的思想,将文本表示为向量空间的形式,并在此基础上结合词的属性特征来分析文本的整体特征。该系统还根据用户的过滤需求,从用户预先收集的训练样本中提取出信息特征过滤模型作为匹配模板,再根据待测文本与信息特征过滤模型的匹配情况来判定待测文本是否满足用户过滤需求。同时,由于基于统计的文本过滤技术忽略了文本中的语义约束,不能真正达到对文本的智能分析,所以在该算法中还引入了局部语义分析,不仅从整体特征还从局部特征对文本进行分析,综合考虑了文本的统计特性和知识特性两方面因素,从而实现了对文本的分析过滤,经初步测试获得了对特定文本信息安全过滤的较好效果。实验结果表明,论文中所提出的算法能够对文本中的敏感信息进行识别,从而实现了对文本内容的分析,达到对文本安全过滤的目的。但要使信息过滤智能化,是一个复杂漫长的过程,论文提出的算法只是一个开端,有待于进一步研究。
其他文献
网格是构建在互联网上的一种新兴技术,网格的研究是目前新的研究热点。随着网格技术的发展,Web服务概念的提出,网格技术已渗透到社会各行业。网格的目标是把互联网整合成一台
Job-Shop调度问题是许多实际车间调度问题的简化模型,是一个典型的NP-Hard问题,已被证明在多项式时间内得不到最优值。蚁群算法是近年来兴起的一种优化算法,特别在解决组合优
随着网络技术的迅猛发展和网络应用服务的不断深入,针对网络的攻击破坏,非法入侵等安全事件也在持续增长,而且大有愈演愈烈之势。而传统的基于入侵检测和防火墙的防御方式已
实时系统已广泛应用于国防、航空航天、通信、自动控制等领域。随着实时系统的规模和复杂性的增加,为了更好地理解所开发的系统,从而开发出高质量的实时软件,需要对系统进行
骨髓是人体的主要造血组织,对骨髓细胞形态和数量的分析有助于造血系统疾病及其他某些疾病的诊断和鉴别。传统的诊断方式是由人眼完成的,而这种方法存在很多的弊端。基于图像
射频识别(Radio Frequency Identification,RFID)是一种快速、实时、准确采集与处理信息的技术,在零售、物流、交通、医疗、国防等多个领域有着广阔的应用前景。其中,RFID中
服装CAD系统自二维向三维转变,是三维计算机技术成熟与服装个性化定制的一个必然趋势与结果。在整个服装CAD系统中,三维服装设计是最核心的部分。所以服装的褶皱的设计对提高
水平基因转移(Horizontal gene transfer,HGT),又称横向基因转移(Lateral gene transfer,LGT),是指在不同的生物个体之间遗传物质的交流,即从亲代以外的个体中获得遗传物质的
本文在分析国内外分布式信任模型以及P2P中存在的安全问题的基础上,结合现实世界中的社会关系网络,提出了一种新型的信任模型BGTR以及在此基础上设计了激励机制SOIM。该模型
随着语义Web的发展,已经有大量语义Web数据存在。然而许多数据缺少结构和丰富的知识表示,本体的不完备性比较严重。本体学习能够降低本体的不完备性,是语义Web能否成功的关键之