信息过滤方法的研究与应用

来源 :华北电力大学(北京) 华北电力大学 | 被引量 : 0次 | 上传用户:daxing_hhx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机及通信技术的发展,信息获取变得越来越容易。Internet的兴起,使整个世界进入了信息时代。面对信息爆炸,如何不浪费时间发现对我们有用、或者有益的信息,免受无用或者有害信息的侵扰,一直是一个值得研究的课题。实际上,那些无用或者有害信息的信息量远远超过了我们所需要的信息量,给人们带来了很多不便。因此,信息过滤系统的出现也就成为了必然。目前,信息过滤使用的技术主要有基于关键字的过滤、基于过滤法则的过滤和少数的一些基于内容分析的过滤技术。本文在对国内外各种用于信息过滤方法进行分析研究、及初步评估的基础上提出了两套信息过滤的解决方案。这两套方案结合自然语言处理(NLP)技术,分别采用了基于内容分析的KNN算法和Naive Bayes 算法。本文将KNN算法应用到了非法网页过滤中,将Naive Bayes算法应用到了垃圾邮件过滤中,并根据垃圾邮件的特性对Naive Bayes 算法做了必要的改进。两套方案都基于Linux 系统进行了实施。本文采用国际上通用的相关评估方法对两套方案的实施进行了测定和评估。评估结果显示,两套方案都取得了较好的过滤效果。
其他文献
阴、阳极电流分布在线检测装置跟踪记录了大量的铝电解槽在平稳运行和发生针振时的阴、阳极电流分布变化情况及方差变化情况的原始数据;从理论上讲,在这两者之间存在一定的对
Web数据挖掘利用数据挖掘技术从网络文档和服务中发现和提取信息。Web上各种形式的文档和用户访问信息就构成了Web数据挖掘的对象。根据挖掘对象的不同我们将Web数据挖掘分为
随着网络技术的发展,网络安全成了新的安全研究热点。网络安全的主要目的是保证网络上存储和传输的信息的安全性,为了实现这个目标,国内外很多研究机构在这方面做了大量工作,主要
本文主要讨论火炮内膛疵病自动识别系统中的软件识别技术,国外尚无相关产品,国内也仅处于起步阶段,对火炮的制造、检测都有着十分重要的意义。 本文研究在利用光电、电子等技
具有自主版权的KerenCAD有强大的自由曲线造型功能,运行速度快、响应迅速、逼近度高,光顺性好,能满足许多领域的复杂外形设计和应用。但是,它的曲线产生系统是当决定曲线的特征点
计算机科学中的协调技术最初是为解决大规模的并行/分布问题出现的,协调管理的是多个活动之间的依赖关系.一般来说,协调模型包含三个元素:协调实体,协调介质和协调规则.协调
本文主要包括以下内容:(1)分析了当前造成网络数字作品侵权的主要因素和网络多媒体课件所面临的严峻形势,论述了通过技术手段构建版权保护系统的重要意义.(2)论证了构建网络
网络技术与多媒体技术的发展,促进了通信技术的综合化、数字化、智能化、个人化的发展,使得在单一网络平台上实现语音、数据、图像等多种业务成为可能。综合了网络技术与多媒体
随着以电子期刊和在线文档形式存在的科技文献的不断增加,对科研教学人员来讲,如何充分利用现有的网络信息资源,从庞杂的电子文档中及时、准确地获知与自己研究领域相关的最
随着因特网技术的迅速发展,网上信息成几何级数增长,如何自动处理这些海量联机文本成为目前重要的研究课题。文本信息抽取是指从一段文本中抽取指定的信息(例如事件、事实),并将