一种用于互动型不良信息过滤的改进方案

来源 :第三届中国数据挖掘学术会议(CCDM2009) | 被引量 : 0次 | 上传用户:feifeichongwx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  信息过滤是文本挖掘领域的重要课题之一。针对互动型网络媒体信息(如BBS),提出一种新的信息过滤方案,该算法主要从特征提取和分类器构造两方面对Bayesian方法进行改进,建立了ANB和F-ANB过滤模型。在对不良信息的特征提取过程中,根据网络论坛的特征,在计算中文不良信息特征项的权重时,根据关键词出现的位置、出现的次数、以及词长等建立了一个特征评估函数,并用它来替换TF-IDF公式中的TF项;同时,考虑到网络论坛中的良性信息与不良信息之间的不平衡分布,采用一种不对称的学习策略来设计Bayesian分类器。实验结果及对比分析表明,本文算法具有较高的过滤准确率。
其他文献
  针对传统支持向量聚类(Support Vector Clustering.SVC)的高耗费和低性能弊端,提出了简约支持向量聚类算法(Reduced Support Vector Clustering.RSVC).RSVC的核心是简约
会议
秋梢是明年开花结果的基础,它的生长状态如何,关系到能否夺取高产稳产。因此,秋季荔枝园管理的最重要工作就是培育高质量秋梢。培育优质的结果母枝必须做好以下几项工作:1、
微量元素是人体生长发育的重要因素,头发是微量元素的排泄器官之一。近年来国外不少学者通过测定头发中微量元素含量来了解或评定体内微量元素营养水平,并指导临床治疗某些
从试管苗到成苗要经过一个从培养基到基质的移栽过程,其生长环境将发生较大的变化。这就给花卉爱好者提出了一个问题——采取怎样的措施才能使幼苗安全过渡呢?笔者是从以下
  MOSES算法是一种新型的自主程序演化方法,结合了hBOA算法进行优化。而hBOA算法在此并不是最有效的优化方法。为改进MOSES效率,本文提出了程序树层次化结构统计模型;该模型通
目的:探讨Kazal 5型丝氨酸蛋白酶抑制剂(serine protease inhibitor of Kazal type 5, n SPINK5)基因突变致新生儿Netherton综合征(Netherton syndrome, NS)的临床特征及分
吊白块,为白色块状物,化学名称为甲醛合次硫酸氢钠[H_2C(OH)SO_2Na_2H_2O],常用于染布、造纸、橡胶等工业,含有原生质毒物甲醛。为了保障广大消费者饮食安全,掌握我市食品中
  选择性分类器通过删除数据集中的无关属性和冗余属性可以有效地提高分类精度和效率.因此,一些选择性分类器应运而生,但它们大都是针对完整数据的.然而,现实中的数据通常
  针对现有的学习方法主要用于一阶转换网,并要求存在具有大量完全时间对称例子的两个相邻时间片数据集,而在现实中很难满足这一条件,且对于多变量复杂转换网,效率和可靠性也很
  限制性贝叶斯网络研究是将贝叶斯分类问题应用于实际的重要环节。以往都是通过对所有网络结点统一控制的,这种限制方法忽略了不同结点的差异性。本文设计了对不同结点有不