中文网络信息过滤技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:szoysj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的迅速发展,己使它成为全球最大的分布式信息库.用户在享受它方便和快捷的同时,也为它所包含的庞大芜杂的信息所淹没,往往为了找到自己需要的信息花费大量的时间和精力.如何能够更有效、更准确地找到自己感兴趣的信息,滤除与自己的需求无关的信息已成为基于Internet网络信息查询的当务之急.该文以兴趣过滤为出发点,以信息过滤系统的两个关键点:网页和过滤为线索,深入研究了信息在网页中的分布特性和中文网络信息过滤的关键技术,并以此为基础设计了一个中文网络信息过滤系统.Web网页作为文档,除了普通文档具有的内容信息以外,还有一些结构性的标记特征,所以在信息过滤中需要考察信息在网页中的分布特性.该文第二章重点研究了Web文本中信息的分布特性,并根据这些分布特性提出了不同的处理策略,而且通过实验数据验证了这些策略的有效性.在对网络信息过滤的关键技术的研究中,主要探讨了网页表示技术、特征提取技术和四种用于用户兴趣学习的机器学习算法:决策树、规则归纳、贝叶斯和支持向量学习机,并对四种算法的兴趣过滤效率和健壮性进行了分析和评价.评价结果表明支持向量学习机在兴趣过滤中表现了最好的健壮性和最容易接受的过滤效率.文章最后设计了一个基于用户兴趣的信息过滤系统,系统能够通过和用户不断交互,以一个逐步求精的过程,在超量相关文本中过滤掉用户不感兴趣的信息,为用户提供一个较准确的查询结果.它采用向量空间模型作为网页表示的基础,在特征提取的过程中结合了信息在网页中的分布特性,并使用支持向量学习机算法来学习和跟踪用户的兴趣,从而在用户查询时能有效地过滤出用户感兴趣的信息.该系统较好地解决了兴趣过滤问题,同时也弥补了现有过滤系统无法满足用户需求的不足.
其他文献
基于内容的图像检索是指直接根据媒体对象内容的各种特征进行检索,它的研究目标是提供在没有人参与的情况下能自动识别或理解图像重要特征的算法.其所谓的内容包括图像的颜色
软件体系结构技术从提出以来,逐渐成为软件工程领域中备受关注的热点技术;基于构件的软件开发技术在产业界得到快速发展并被广泛地接受.由北京大学软件研究所提出的ABC(Archi
随着计算机技术和网络技术的发展与成熟以及各国对教育重视程度的增强,网络教育在世界各国日益普及。获取信息的途径已由教室、实验室和图书馆,扩展到因特网所覆盖的任何场所。
随着计算成本的大幅降低,各种模拟器技术被广泛地用于嵌入式系统的设计与开发,此项技术对于降低设计成本、工程时间开销有着显著的成效.但是现有嵌入式操作系统开发中系统级
NetworkEducationalResourceManagementSystem(NERMS)项目是由吉林省科委立项、吉林大学计算机科学与技术学院知识工程实验室承建的省级重大大中型项目。NERMS的主要目标是对
集群是由一组通过高性能网络互联起来的计算机系统(节点计算机)组成的、具有单一系统映象的高可用、高性能、高可扩展性的计算机系统.集群的发展与集群并行计算环境的发展是
指纹鉴别技术作为一种身份鉴别方法,是各种人体生物特征鉴别技术(Biometrics)中最重要的一种.通常该技术面向应用时,首先通过指纹传感器采集指纹,再根据实际需要在选择好的处
流程制造企业在中国国民经济中占有相当重要的地位,是中国提高经济实力和综合国力的根本.随着信息技术的发展,ERP软件在中国的制造企业中得到了越来越广泛的应用,对提升企业
数字监控系统正在朝着网络化的方向发展,在带宽有限的情况下,要保证较好的视觉效果,必然对编码和传输提出了更高的要求.该文针对这一需求,着重从MPEG-4编码算法的改进和自适
演化硬件(Evolvable Hardware),简称EHW,是90年代提出的一种新的硬件设计方法,它具有自组织、自适应、自修复能力.演化计算为演化硬件提供了理论与方法学基础,可编程集成电路