基于倾向性分析的文本信息过滤技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhgrmlshr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言文字是信息的首要载体。人们日常工作中的信息,绝大部分是以语言文字表达、记载、传播和交换的。因此,随着计算机和因特网的推广应用,由数据处理、信息处理发展到知识处理,对语言文字处理要求的深度和广度越来越高。而要从大规模的网络信息中抽取有用的信息资源,对信息处理的智能性、速度和精度都将提出极为严格的要求。文本过滤所研究的内容就是如何准确地表达用户需求,进而在大规模的信息流中自动地筛选出满足用户需求的信息,使人们更有效地利用信息资源。以往文本过滤的研究主要集中于主题性过滤,然而随着网络的发展,倾向性文本过滤在网络信息安全方面的作用越来越大。由于以往采用基于统计的文本过滤技术对具有倾向性的文本进行过滤的效果并不理想,原因在于基于统计的方法忽略了文本中的语义约束,无法有效识别倾向性信息。本文简要介绍了文本过滤的背景,系统地探讨了文本过滤与文本检索及机器学习等领域的紧密联系。通过分析情境在文本理解中的作用,确定了文本与情境模型间的关系和文本特征与情境模型的相关性,进而提出了一套适用于文本过滤的方法。目前对倾向性过滤研究较少,且一般采用主题性过滤的方法,效果不佳。而本文的倾向性文本过滤,充分利用了领域知识,采用了语义模式分析技术,建立了丰富的语义分析资源,包括各种辞典,规则,权重表示,有效的对具有倾向性的文本完成过滤。在文章的最后,我们提出了基于文本倾向性的信息过滤的方案,对其中的具体细节进行了详尽地阐述,构建了一整套从表示到权重的函数结构,并给出了实验结果,实验证明该系统具有良好的过滤效果,且速度较快。与传统的统计方法相比取得了不错的效果。
其他文献
数据复制是分布式数据库中提高系统可用性和可靠性的一项重要技术。长期以来,数据对象均使用静态复制方式,数据复制计划由分布式数据库管理者指定,该计划是固定的,直到管理者
Ontology是近年来知识工程领域的一个研究热点,鉴于其在知识表示和异构数据处理方面的独到之处,而在企业信息化中得到了广泛的应用。随着信息技术的飞速发展,要求构建的Ontol
对于企业来讲,客户关系己经成为企业生存发展所必须关注的问题,企业以客户为中心,不仅是要单纯的发挥主观能动性为客户提供服务,更要在客户的挖掘上下功夫,只有努力赢取客户,维持客
随着云计算的快速发展,云服务提供商将会为越来越多的用户提供服务,由于单个云服务提供商的能力是有限的,它们为用户提供按需的服务时,可能无法满足用户的服务要求,或者所提
RNA(ribonucleic acid)二级结构预测是分子生物学中的关键问题。利用X射线晶体衍射和核磁共振(Nuclear Magnetic Resonance)等实验方法测定RNA分子的立体结构,可以得到比较精确、
同步距离是对两组事件间依赖程度的定量描述,也是刻画系统动态行为的工具。由于同步距离的计算涉及到网系统的结构和网系统的初始标识,这无疑给同步距离的求解带来了很大的难度
嵌入式系统是由硬件和软件组成的,用来完成特定任务的专用系统。嵌入式系统复杂程度不断提高,特别是集成电路设计进入SoC开发时代之后,传统开发方法已难以适应系统设计的需要。
系统生物学的发展使得生物建模和计算机模拟成为生物过程模拟的重要手段,可以有力地支持生物学家及其他研究人员在医学和制药等领域的研究。为建模和模拟像代谢路径、遗传调控
随着软件产业的飞速发展,软件的规模变得越来越大,同时软件的复杂度也变得越来越高。软件测试作为软件质量保证体系的有机组成部分,其地位在软件开发特别是大型软件开发过程
随着信息技术的飞速发展,在计算机和网络给人们的生活带来极大方便的同时,信息安全问题成为人们关注的焦点,安全评估工作成为保障信息系统安全的重要手段。在信息安全风险评估工