基于文本聚类技术的邮件分类系统的研究与实现

来源 :河海大学 | 被引量 : 7次 | 上传用户:SB502
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的发展,各种网络应用服务越来越多。其中,网络中广泛使用的电子邮件正成为一种快捷而经济的通信手段,如何面对每天各种各样、种类繁多的邮件,就成为一个迫切要解决的问题。 以前的邮件分类系统,由于邮件的主要部分是文本,因此研究方向主要是基于数据挖掘中的文本分类技术的。但是,这类方法主要有两点不足,第一就是分类技术首先要指定各个分类的类别,同时,要形成准确的结果,都需要事先进行大量的学习样本用例的过程。第二就是现有的邮件分类系统只是考虑到邮件的正文,而没有考虑到邮件的其他特征。 因此本文提出了基于文本聚类技术的邮件分类系统,它通过采用基于文本聚类的算法来对邮件进行分类,同时,本系统还结合了邮件的一些特性来提高聚类效果,这样就可以有效的改进上面的两种缺陷。在本文中,本文围绕这种邮件聚类模型来介绍其中的相关的关键技术与方法,其中主要的内容有:通过使用改进的向量空间模型(VSM)方法在计算机中表示文本;在特征项的选择上使用单词权技术;在邮件相似度计算中加入了非邮件正文文本信息的相似度;在聚类算法选择上,将两种算法相结合以适应邮件聚类等等。此外,本文还在此理论基础上进行了实际的实验分析,证明了这个理论的正确性。
其他文献
虚拟现实(Virtual Reality,简称VR),是一种基于可计算信息的沉浸式交互环境,最大特点就是参与者能用人类自然的技能与感知能力与计算机生成的虚拟环境进行自然的交互,因此,要
随着我国卫星导航事业的发展,导航方面的建设和应用将得到规模化的发展,导航的基础是数据,关于数据的处理和应用将是工程发展的核心。本文描述和实现的数据管理软件是某卫星
Internet上流媒体,视频会议和视频点播等多媒体业务的应用日益广泛。点对点传输的单播方式已经不再能适应这一类业务的传输特性,于是组播技术成为研究的热点,它的出现解决了
复杂网络图计算是当今数据挖掘领域最重要的研究课题之一。揭示复杂网络图中高密度子图结构对分析复杂网络的拓扑结构、发现其中隐含的模式、以及预测网络进一步的行为和功能
计算机网络协议测试是可以保证计算机网络各个部分相互连接和可靠操作的重要技术。随着计算机网络的普及,计算机网络协议测试成为日益活跃的科研领域。协议测试包括一致性测试
JMS是由Sun公司开发的一个开放性的编程接口,提供了一套创建、发送、接收和订阅企业级消息的Java编程方法。与传统消息技术如RMI相比较,JMS促进了分布式计算环境中各个组件之
在本论文中,首先通过介绍复杂系统研究的现阶段发展情况,说明了研究复杂系统脆性的重要性。接着在介绍复杂系统的同时,给出了本文对复杂系统的定义及判断方法。其次,在对复杂
本文的研究课题来源于十五预研项目“多媒体群体智能决策支持系统平台”,通过对此课题模型库部分深入的研究与分析,结合相关国内外发展现状、关键技术和现有理论成果,完成了I
近年来,云计算的概念已经在计算机领域内被越来越多的人所熟知,云计算的各种产品也如雨后春笋般涌现。其中,通过物理资源虚拟化的技术,在云计算基础设施即服务层面上展开的应
随着计算机技术的迅猛发展,计算机被越来越广泛地应用于各个领域。而计算机网络的普及和推广,更促使分布式技术向各种应用领域不断拓展。如何满足网络环境下各种应用,尤其是