中文WEB文档自动分类的研究与实现

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:hasfyturnip
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因特网上的信息日益丰富,已经成为知识获取的一个重要来源。信息资源的丰富也使信息的检索有如大海捞针,检索到自己所需要的信息资源效率不高。对信息进行整理,提高信息检索的效率具有非常重要的意义。本课题的研究的内容是对中文WEB文档进行自动整理归类,以提高用户对信息检索的体验,它也是搜索引擎的核心技术。本课题开发的中文WEB文档自动分类工具有较好分类准确度,也为进一步研究打下了基础。 本文首先介绍了文本自动分类的主要方法,分析了中文WEB文档的特点,提出了中文WEB文档自动分类的主要技术问题,介绍了中文WEB文档自动分类工具的总体设计,它主要包括网络蜘蛛、中文分词、特征选取和贝叶斯分类器等功能模块。接着分析了各模块的主要算法和Java实现方法。最后对中文WEB文档自动分类器进行了实验,对我们所构建的中文WEB文档自动分类工具的性能进行了评估,实验表明此工具有较高的分类准确度,达到了设计的要求。 本论文的结构如下: 第1章:对目前的文档分类技术进行了分析,着重指出了中文WEB文档分类的特殊性,提出了研究的主要内容。 第2章:对中文WEB文档自动分类器进行了总体设计,制订了它的各个功能模块及每个模块的主要功能。同时也阐述了所使用的新方法。 第3章:讲述了网络蜘蛛抓取WEB文档的原理,分析了对WEB文档进行结构化解析的主要技术和网络蜘蛛的实现方法。 第4章:分析和比较了多种中文分词实现方法,对最大匹配分词法进行了改进,提高了中文分词的效率和准确度。并给出了实现的技术细节,特别是对中文词典的实现方法作了详细介绍。 第5章:分析了多种特征选取算法,比较了它们的优缺点,提出了文档频度与词条频度相结合的特征选取算法,并对此方法的实现进行阐述。 第6章:分析了贝叶斯机器学习方法的主要思想,对贝叶斯方法用于文档归类的原理进行了剖析。详细介绍了贝叶斯分类方法的算法与实现。 第7章:讲述了文本分类的评价标准,通过实验对本课题所构建的分类工具进行了评估,总结了研究成果,指出了不足并提出了改进意见。
其他文献
为满足部队作战中从师级到连级的指挥、控制、通信、计算、情报、监控和侦察(C4ISR)需要,战术互联网要求实现移动时无缝链接、可生存抗毁、多媒体传播和安全保密。基于IP技术实
笔者在就学期间研究设计并实现了CTI中间件软件,该系统采用面向对象的设计,结合中间件与COM技术,为中小型CTI呼叫中心的设计应用提供可靠的、分布式的CTI应用业务平台。这个平台
随着软件开发规模和复杂性的不断提高,软件危机愈加明显的暴露出来。提高软件生产率成为软件产业的当务之急,基于软构件的软件复用技术成为解决这一危机的重要技术。本文针对教
由于智能手机的迅速普及,社交网络的访问模式正转移到移动设备访问模式。另一方面,越来越多的应用正运行在Open-API的手机操作系统上。这一开放使得病毒及恶意软件可以利用人们
电动汽车以节能、清洁无污染而备受人们关注。作为电动汽车重要组成部分之一的电池管理系统一直是业内研究的热点问题。如何准确预测动力电池的荷电状态是电池管理系统的关键
1998年,Tim Berners-Lee提出了语义Web的概念,目标是通过向数据中添加机器可理解的语义和启发式的使用元数据来实现机器自动处理信息,数据的清楚语义加上领域理论(即本体)将使得
在当今的网络监控、电信数据管理、传感器数据监控等应用中,数据采取的是多维的、连续的、快速的、随时间变化的流式数据的形式,对数据的访问也是多次和连续的,并要求即时的
网格是建立在互联网之上的新一代基础设施,是继Internet之后又一次重大的科技进步。网格的目标是实现异构资源共享,及用来解决大规模计算或数据密集型计算等问题。 网格资
新兴的多媒体社交网络(Multimedia Social Network, MSN)服务与工具为用户之间数字内容(如电子书、数字图像、音视频等)的分享提供了便利。多媒体社交网络平台显著地改善和丰富了
本文对SIP协议的VOIP网关的实现进行了研究。文章介绍了语音通信的现状和VOIP技术的概要知识;研究了VOIP相关的各项关键技术,主要有建立通信会话的信令技术、为了便于传输而产