基于混合模式的文本过滤系统的研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:linli881203
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类社会已经进入信息化时代,面对因特网上大规模的在线文本信息,如何帮助用户快速、准确的找到自己感兴趣的文本信息成为一个重要的研究课题。文本过滤可以帮助用户获得自己感兴趣的文本,实现个性化的信息服务,因此,文本过滤的研究具有广泛的应用背景和实用价值。文本过滤从形式上可以分为两种,即:内容过滤和协作过滤。内容过滤主要采用自然语言处理、人工智能、概率统计等技术对文本进行内容分析,然后与用户模型进行相似度计算,主动将相似度高的文本发送给该用户模型的注册用户,但是内容过滤难以区分同一主题过滤结果的内容质量好坏,不能为用户发现新的感兴趣的信息。另外一种方法,协作过滤主要利用兴趣相似用户的评价进行预测和推荐。目前它已经被成功的应用到个性化推荐系统中,但随着系统规模的扩大,它的性能会逐渐降低,暴露出一些问题,比如矩阵稀疏性、扩展性以及早期级别等问题。本文首先对文本过滤的两种方法进行了描述,然后分别对这两种过滤方法进行了研究。针对内容过滤,我们重点讨论了内容过滤的学习机制,把在线文本信息过滤表示为强化学习问题,这样可以通过计算用户的隐性反馈自动获取强化信号,然后设计一个自适应信息过滤系统,通过实验证实可以明显的改善自适应过滤系统的功能,提高了内容过滤系统的性能。在协作过滤中,针对其存在的缺点,提出了一种用户-信息项关联模型,利用该模型,有效的提高了协作过滤系统的推荐值的准确性,一定称度上解决了协作过滤中存在的问题,并通过实验,证明利用该模型可使协作过滤系统的性能得到了提高。最后,我们将内容过滤与协作过滤结合起来,提出了基于混合模式的文本过滤系统,由于这两种过滤技术之间不存在内在的依赖性,因此我们让内容过滤和协作过滤分开执行,然后把这两个过滤的预测值结合起来进行推荐,即所谓的基于混合模式的文本信息过滤。我们通过实验,分别对内容过滤、协作过滤以及基于这两种过滤方法的混合模式进行实验,对这三种过滤方法的得到的过滤结果的准确性进行了比较,结果表明混合模式方法可以提高文本过滤系统的准确性。最后,指出了本文存在的问题,以及今后要继续努力研究的方向和目标。
其他文献
通过三则生物课堂教育教学日记,展现了在生物民主课堂上,师生、生生互动,相互纠错,相互启迪,平等交流,集思广益,自由探索,实现了教学相长,增进了师生情感.
高中物理课堂教学是一个动态复杂而互动的过程.每一类的具体条件和后续过程是不同的.每个类都是唯一的、不可重复的、丰富的和特定的.因此,在过去的一年中,我一直在努力建立
介绍了蛇形带式输送机研制的原因、过程和设计原理,以及在新缰焦煤集团内推广使用的一些情况和经济效益分析。 This paper introduces the reason, process and design princ
本文在农户“有限理性”的假定下,在系统理论、行为理论、农户模型理论的基础上,对我国农户的家庭经营进行了分析,对粮食生产的影响因素以及影响因素之间的层次关系、作用方式做
物理是我国初中阶段教育体系中的一个重要组成部分,相对而言比较抽象、逻辑性强,对学生而言是一个重难点科目.随着新课改的不断深入,素质教育理念的发展,在教学中培养学生的
决策理论是管理科学和经济学的重要分支。所谓决策,是指为达到最优目标,对若干个备选方案进行选择的过程。在传统的决策中,决策的准确度很大程度上依赖于决策者的决策水平,而决策者必须经过长时间的经验累积才能达到足够丰富的决策水平,并且决策者在决策的过程中很容易会受到外界因素和主观因素的干扰。因此,准确而客观的定量分析方法对于决策的科学性有着重要的意义。大多数决策问题都可以归结为机器学习的典型问题,如分类问
入侵检测,作为信息安全保障体系结构中的一个重要组成部分,很好地弥补了访问控制、身份认证、防火墙等传统保护机制所不能解决的问题。然而,传统的入侵检测系统(IDS)在有效性
高三阶段是学生们十二年的寒窗苦读的最后一年,是他们能否考上一个心仪的重点大学的重要阶段.所以,对于高三学生的各科复习工作显得更为重要和繁重.高考中物理学科所占分数11
开发乡土资源有助于农村幼儿园美术课程多样化均衡发展,从农村幼儿园利用乡土资源开发美术课程的意义与价值出发,探索开发农村幼儿园美术课程的思路,遵循一定原则以及对美术
实验教学在初中物理教学中是非常重要的一环,如何指导学生有效地进行分组实验教学,也是每一位教师课堂教学的重点、难点;本文从多个环节就教师如何提高学生的实验教学做了各