基于内容的中文文本过滤关键技术研究

来源 :东北师范大学 | 被引量 : 16次 | 上传用户:wisled
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的迅猛发展,信息处理成为了人们获取有用信息不可缺少的工具,其中,信息过滤是中文信息处理的一个重要的研究领域。信息过滤,就是根据用户的信息需求,利用一定的工具从大规模的动态信息流中自动筛选出满足用户需求的信息,同时屏蔽掉无用信息和非法信息的过程。广义的信息过滤包括对文本、音频、图像、视频等多种信息存在形式的过滤处理,狭义的信息过滤是特指对文本信息的过滤处理。由于目前网络上的主要信息载体为文本形式,文本信息过滤技术首先成为研究的焦点。此外,信息过滤的研究方法主要分为基于内容的过滤和社会过滤两种,本文主要对基于内容的文本信息过滤进行研究。利用向量空间模型表示的基于关键字的过滤系统简单、易于实现,但它不能解决语义方面的问题,影响过滤结果,针对该问题,本文在过滤系统中引入概念因素,利用同义词词典对用户模板进行概念扩充,以解决同义词问题,提高系统查全率。另外,随着文本过滤的进行,用户的需求可能会不断变化。构造一个好的过滤模板虽然可以在没有反馈学习的情况下取得较好的过滤效果,但不论采用什么样的方法建立的初始过滤模板都只是对用户需求的一种粗糙的近似表达。因此,在过滤精度要求较高的情况下,需要在过滤系统中引入机器学习的机制。本文利用用户的反馈信息,采用改进的自适应学习的方法,及时的对用户模板进行修改,以提高系统过滤精度。本文借鉴其它文本过滤系统的优点,充分考虑系统的查全率、查准率及可实现性等,给出一种改进的中文文本过滤原型系统,并利用Java技术对整个过滤系统的功能模块进行尝试性的实践,取得一定的过滤效果。
其他文献
基于视频的运动分析主要针对包含各种运动目标的视频图像序列进行处理,从场景中检测、跟踪、分类识别目标,并对其行为进行理解和描述。其中,目标分类是基于视频的运动分析课
数字图像的边缘检测是图像分割、目标区域识别、区域形状检测等图像分析领域十分重要的基础,是图像识别中检测图像特征的一个重要属性,图像理解和分析的第一步往往就是边缘检
面部特征点检测技术,就是在人脸图像中检测出预先定义的某些点的位置,主要是指面部五官特征的位置。由于面部特征点检测可以为人脸分析问题提供一些重要的基础数据,因此成为
随着Internet和信息技术的快速发展,数字电视、电子书、音乐等数字内容越来越多。由于数字资源具备易于无损复制、分发等特性,数字资源未经授权和非法使用的情况普遍存在,给
随着移动互联网的快速发展,智能手机和平板电脑等移动设备成了现代人们日常不可或缺的电子设备。而基于Android系统的移动设备在目前的移动市场中占据着主要地位,这就给基于A
可拓学是1983年中国的蔡文教授提出来的。可拓学的目的在于通过从定性与定量两方面研究矛盾本身,解决矛盾的方法。该学科广泛应用于多个领域,己取得了一定的成果。可拓检测技
目前,随着我国供热体制的改革,集中供暖分户热计量工作已逐步得到重视。就目前各试点的运行情况来看,无论是供暖效率、热计量原理、温控方式、设备管理方式、还是在热费的计
目前,在MMOG(Massively Multiplayer Online Games)中应用的人工智能技术比较简单,强化学习算法可以实现更加复杂的游戏智能。由于MMOG具有实时性的特点,强化学习算法不能被
科学技术的快速发展,人类知识的不断更新,传播知识图书的数量急剧地增加。各类图书馆特别是高校图书馆,为了适应发展,满足读者的需求,图书馆每年都会投入大量的经费来采购图书。而
本体是使Web具有语义性的关键技术,自从20世纪90年代以来,本体已成为知识工程、自然语言处理和知识表示等人工智能研究界的热点研究领域。近来本体也越来越成为智能信息集成