基于向量空间模型的自适应文本过滤研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ncepuwade
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅猛发展和计算机水平的提高带来了信息过载问题,如何快速的从中获取用户所需要的部分,成为一个亟待解决的问题。信息过滤技术可以帮助人们检出感兴趣的信息而屏蔽掉其它部分。而自适应信息过滤技术由于只需要少量的用户需求信息,并且在过滤过程中能够自适应地调整系统,提高性能,更适合于互联网的实时过滤要求,从而成为人们关注和研究的热点。本文在向量空间模型的基础上,主要对自适应文本信息过滤中如何更准确地构建用户模板以及在过滤过程中模板学习算法进行了研究。在初始化构建用户模板方面,本文提出了两种基于查询扩展技术构造用户模板的新方法:基于《同义词词林(扩展版)》的查询扩展和基于网络挖掘的查询扩展,并主要对基于网络挖掘的查询扩展技术进行了深入的研究。该方法以互联网作为信息来源,充分考虑了待扩展词所在的上下文,并融合了句法分析等高层自然语言处理技术,通过扩展和确认两个主要步骤,逐步求精,使扩展的精度很高,从而在只有少量需求描述的情况下,使初始化构造的用户模板更加准确和丰富。在用户模板学习方面,本文提出了一种基于层次聚类的自适应学习机制,通过对伪相关反馈信息进行聚类,选择最相关的一类信息用于更新用户模板,从而解决用户需求初始信息稀疏和阈值估计偏见性问题。经过实验验证,该方法一定程度上屏蔽了初始信息上下文稀疏及语言歧义问题对自适应学习的误导。此外,选择聚类择优后的一类信息参与Rocchio自适应学习与更新,能够有效地削弱阈值偏见性和伪相关反馈排序偏见性造成的负面影响。
其他文献
随着地理信息系统应用的日益普及,它已渗透进入各个行业,人们对它的技术需求在不断的提高。以单机运行的三维地形可视化系统不再满足人们对其应用的要求,基于网络的三维地形
随着软件规模的不断增大和软件技术的逐渐成熟,人们对软件质量的要求也越来越高,软件测试是保证软件质量的有效方法。UML是面向对象的标准建模语言,包括一系列视图和模型,能够系
数据业务量的飞速增长以及光纤传输能力的大幅度提高,对光网络中的交换结构和交换技术提出了更高的要求,多粒度光交换技术因此应运而生。无论从技术的角度看,还是从运营者的角度
近年来,集成了传感器技术、微电子技术和无线通信技术的无线传感器网络已引起各国政府、研究机构和企业的高度关注,它在军事、环境科学、医疗健康和其他商业领域都有着广阔的
XML已经成为网络上数据表示和交换的通用标准。随着XML的应用越来越广泛,对XML查询效率的要求也越来越高。模式树匹配是XML查询的核心操作,在高效处理模式树匹配的各种方法中,结
超分辨率图像重建的目的是利用信号处理和图像处理等方法消除成像时诸因素导致的图像退化,同时恢复出光学衍射极限分辨率所决定的截止频率外的信息,形成分辨率更高的清晰图像。
在现有的网络流量中,TCP数据流占据了绝对优势,针对TCP数据流的测量成为网络测量的研究热点。网络测量以获取测度值为目的,所以,对于数据流测度的研究十分必要。为此,本论文围绕TC
随着Internet应用的普及,电子邮件凭着其方便、快捷、成本低廉的特点逐渐取代了传统的通信方式,成为了人们通信的越来越重要的手段,但是随之而来的垃圾邮件也越来越猖獗。垃圾邮
机器人在未知环境下的自主导航,通常存在着大量的障碍物阻碍着移动机器人的前进,机器人必须在这些有限的工作环境中,寻找到一条无碰撞、时耗或能耗最小的最佳路径,到达指定地点并
随着计算机网络的发展与普及,人们在得到便利的同时,不得不面对各种安全威胁。黑客攻击、计算机病毒、信息非法获取等给网络信息安全带来了严重的威胁,安全事故屡有发生,并造成了