基于混合策略的中文文本过滤技术研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:akljdhnaliuhda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息过滤是自然信息处理中的一个重要课题。近年来,过滤系统在各类应用领域中得到了广泛的应用,它们阻断无用或不良信息,为用户提供定制的信息服务,使得他们在有限的阅读时间内获得最优化的数据。 由于网络上的信息以文本为主,因此文本信息的过滤就成为应用的焦点。目前两种典型的解决方案分别是基于内容的过滤和协作式的过滤。其中,基于内容的过滤通过分析文本信息与用户需求模型间的匹配程度,将满足用户兴趣要求的文本集合检索出来。而协作式的信息过滤根据相同或相近兴趣的用户对相应信息做出的评价,向其它用户进行推荐,主要利用用户之间的相似性来过滤信息。这两种方法各具特点。基于内容的过滤原理简单,可以直接在检索技术的基础上加以改进,从而获得比较有效的查询算法,但是它难以区分资源内容的品质和风格,无法完全解决信息过载的问题。协作式的过滤系统则可以很好地利用资源内容的品质信息,并且能解决新兴趣的发现问题,但是受数据稀疏性问题影响严重,尤其是对新系统而言。 针对上述问题,我们尝试性的提出了一种基于混合策略的文本过滤模型,并对不同策略下各种技术的使用进行了深入的探讨与分析。本文的研究工作主要包括以下几个方面: 1.探讨了基于窗口大小的文本特征表示,对句子窗口、段落窗口以及块窗口下的特征加权方法和匹配方法进行了比较研究,其中块窗口的使用对提高过滤精度显示出一定优势。 2.在传统推荐策略的基础上,改进了基于用户的最近邻算法,提出了基于相似项目的评分预测和推荐方法,缓解了数据稀疏性导致的无效预测。 3.提出了一种基于混合策略的文本过滤模型,结合基于内容的过滤方式和协作式过滤方式,我们首先使用前者生成候选推荐集,在此基础上使用后者产生TopN推荐,有效的提高了推荐的可靠性。
其他文献
当前,世界已进入信息时代,信息技术的发展正逐渐改变着人们的生产和生活方式。这种情况下,对医疗卫生信息化的要求不断提高。中央也将医疗卫生信息化列为医药卫生体制改革“
随着组播的广泛应用,Internet安全问题的日趋严重,组播的安全问题越来越受到国内外学者的重视。因为网络通信的安全问题主要依靠密码学来解决,所以组播密钥管理渐渐成为组播
遗传算法是近年兴起的一种用于解决优化问题的并行寻优算法,已被用于分布式系统的任务调度中。经研究表明遗传算法比启发式算法有较大的优越性。本文提出了一种用广义遗传算
近年来,随着高速计算机网络、数字视频压缩以及大容量存储器等技术的快速发展,视频点播(Video-on-Demand,VOD)服务得到了广泛应用,人们能够快速和方便地从网上获得各种视频信
本文以回采工作面为研究对象,详细阐述了回采工作面顶板动态预测专家系统的分析设计及技术实现,主要研究内容如下: ①应用面向对象的知识表示方法建立专家系统的知识库,以对象
随着图象技术在社会各领域中的广泛应用,越来越多的专家学者关注着图象处理的研究进展。边界在图象中所占比例较小,是图象的一个重要特征;其相关技术可应用于图象识别、工业
随着机器人技术的不断发展,机器人仿真作为机器人设计和研究的安全可靠、灵活方便的工具,在机器人的研制、设计、开发与应用中发挥着越来越重要的作用。本文主要研究了基于三维
组播是一种能使数据流高效的从一点传输至多点的IP技术,具有广阔的应用前景,近年来倍受全球研究人员的密切关注。IPv6是下一代互联网的核心协议,它成功的解决了IPv4协议地址空间
随着Internet的发展,通过网络传输的数据正在以指数形式急剧增加,许多新的多媒体业务正在成为信息传送的重要组成部分。人们对网络的需求由简单的数据传输向综合的多媒体业务
个人身份识别的准确性以及个人隐私信息的安全性,在身份识别中已发展成了亟待解决的重要社会问题。由于传统的身份识别方法暴露出了很多弊端,已经不能适应科技的发展和社会进