论文部分内容阅读
随着信息技术的飞速发展,互联网技术已经成为人们日常生活中的一部分。人们用越来越多的时间通过互联网进行信息查询、学习以及休息娱乐。虽然互联网上蕴涵了丰富的、最新的信息,但是互联网的信息量过大,各种信息泛滥,人们在进行信息的查询时往往得到的结果与自己的兴趣不一致。面对海量信息,如何帮助用户选择自己感兴趣的信息成为研究与应用关注的重点。文本过滤旨在帮助用户获取自己感兴趣的文本,实现信息服务的个性化,因此它具有广泛的应用背景和较高的实用价值。文本过滤从形式上可以分为三种,即:内容过滤、协作过滤和价值过滤。内容过滤主要采用自然语言处理、人工智能、概率统计等技术对文本进行内容分析,然后与用户模型进行相似度计算,主动将相似度高的文本发送给该用户模型的注册用户,但是内容过滤难以区分同一主题过滤结果的内容质量好坏,不能为用户发现新的感兴趣的信息。另外一种方法,协作过滤主要利用兴趣相似用户的评价进行预测和推荐。目前它已经被成功的应用到个性化推荐系统中,但随着系统规模的扩大,它的性能会逐渐降低,暴露出一些问题,比如矩阵稀疏性、扩展性以及早期级别等问题。而价值过滤基于不选择某个主题的代价大于选择某个主题的代价,虽然前景很好,但是目前应用还不是很广泛。本文围绕信息过滤模型的查准率技术指标,对于网络信息过滤的研究背景和研究现状做了分析,指出现在基于兴趣度的信息过滤研究的重点在于用户兴趣模型的形成、更新以及内容过滤、协作过滤和价值过滤的结合。在前人工作的基础上,本文的主要研究工作及创新如下:(1)对网络信息过滤的研究背景和现状做了分析,通过对国内外研究现状的分析,指出用户模型的建立、更新,以及内容过滤、协作过滤和价值过滤的结合是当前研究的重点。(2)对网络信息过滤关键技术进行研究,如:网络信息过滤系统基本组成、中文分词、特征提取以及分类算法等。(3)针对基于用户兴趣的信息过滤,提出了一种新型的用户兴趣模型建立、更新方法,使用户模型可以更好的兼顾用户的长期兴趣和短期兴趣。(4)提出将内容过滤与用户行为结合来形成用户兴趣度的计算方法,使其能及时的捕捉到用户兴趣的变化,比较准确的反映用户对所搜索信息的感兴趣程度。(5)分析了内容过滤、协作过滤以及价值过滤结合的必要性,提出三者结合的过滤方法及模型,此模型可以扬长避短,解决单纯使用任何一种方法的缺点,并且可以提高过滤的准确度。