论文部分内容阅读
Internet的迅速发展在给人们的生活带来极大方便的同时,也带来了诸如“信息过载”“信息迷向”等问题,信息过滤技术应运而生。信息过滤就是根据用户的信息需求,在动态的信息流中搜索用户感兴趣的信息,屏蔽其它无用和不良的信息。 本文首先介绍了信息过滤技术的提出背景、发展历史、研究现状和应用价值,随后综述了信息过滤的特点、模型,信息过滤系统的体系结构、分类、实现技术和评估方法。 文本是当前Internet上信息最主要的表现形式,中文文本过滤的相关技术是本文的研究重点。本文在对信息过滤系统的体系结构和文本过滤的原型研究的基础上,给出了一个基于向量空间模型的中文文本过滤的逻辑模型。 中文文本的特征项抽取和表示是中文文本过滤基础。获取中文文本的表示需要经过分词、停用词处理、特征项抽取和特征项权重计算等过程,本文对这几个过程进行了详细的研究并提出了一种基于位置加权的特征项权重计算方法。 用户信息需求是文本过滤的依据,本文探讨了获取用户信息需求的方式和方法,给出了向量空间模型下用户模板的表示方法,并对采用相关反馈技术进行用户模板的优化和更新策略进行了讨论。 针对中文文本层次结构的特点,本文提出了一种基于N层向量空间模型中文文本过滤方法,实验表明该方法比传统向量空间法具有更好的过滤性能。 在文本过滤中,查全率和查准率是一对矛盾。本文在引入了用户主题不相关配置文件和不相关阈值的基础上提出了一种两重过滤方法,并以此方法为基础设计并实现了一个基于N层向量空间模型的文本过滤系统,系统对流入文档进行两重过滤。实验证明,该方法提高了文本过滤性能。