论文部分内容阅读
人类社会已经进入信息化时代,面对因特网上大规模的在线文本信息,如何帮助用户快速、准确的找到自己感兴趣的文本信息成为一个重要的研究课题。文本过滤可以帮助用户获得自己感兴趣的文本,实现个性化的信息服务,因此,文本过滤的研究具有广泛的应用背景和实用价值。文本过滤从形式上可以分为两种,即:内容过滤和协作过滤。内容过滤主要采用自然语言处理、人工智能、概率统计等技术对文本进行内容分析,然后与用户模型进行相似度计算,主动将相似度高的文本发送给该用户模型的注册用户,但是内容过滤难以区分同一主题过滤结果的内容质量好坏,不能为用户发现新的感兴趣的信息。另外一种方法,协作过滤主要利用兴趣相似用户的评价进行预测和推荐。目前它已经被成功的应用到个性化推荐系统中,但随着系统规模的扩大,它的性能会逐渐降低,暴露出一些问题,比如矩阵稀疏性、扩展性以及早期级别等问题。本文首先对文本过滤的两种方法进行了描述,然后分别对这两种过滤方法进行了研究。针对内容过滤,我们重点讨论了内容过滤的学习机制,把在线文本信息过滤表示为强化学习问题,这样可以通过计算用户的隐性反馈自动获取强化信号,然后设计一个自适应信息过滤系统,通过实验证实可以明显的改善自适应过滤系统的功能,提高了内容过滤系统的性能。在协作过滤中,针对其存在的缺点,提出了一种用户-信息项关联模型,利用该模型,有效的提高了协作过滤系统的推荐值的准确性,一定称度上解决了协作过滤中存在的问题,并通过实验,证明利用该模型可使协作过滤系统的性能得到了提高。最后,我们将内容过滤与协作过滤结合起来,提出了基于混合模式的文本过滤系统,由于这两种过滤技术之间不存在内在的依赖性,因此我们让内容过滤和协作过滤分开执行,然后把这两个过滤的预测值结合起来进行推荐,即所谓的基于混合模式的文本信息过滤。我们通过实验,分别对内容过滤、协作过滤以及基于这两种过滤方法的混合模式进行实验,对这三种过滤方法的得到的过滤结果的准确性进行了比较,结果表明混合模式方法可以提高文本过滤系统的准确性。最后,指出了本文存在的问题,以及今后要继续努力研究的方向和目标。