贝叶斯分类器研究及其在Web文档分类中的应用

来源 :郑州大学 | 被引量 : 0次 | 上传用户:foreverfreedom5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web上的信息资源有着海量、动态、异构、半结构化等显著特点,由于缺乏统一的组织和管理而显得杂乱无章,给Web检索带来了一定的困难。使用Web文档自动分类技术可以更加有效地组织和管理Web资源,提高信息检索的效率,它目前已成为Web挖掘的研究热点之一。 作为数据挖掘中的重要分类算法,贝叶斯分类器有着易于实现、工作效率高等优点。本文从贝叶斯网络入手,研究了各种基于贝叶斯网络的分类器的工作原理,按照网络中属性结点间的依赖关系将分类模型归纳为三类,重点讨论了其中有代表性的分类器的学习方法,并用贝叶斯分类器为工具研究Web文档的分类问题。 网页是Web信息的主要表现形式,其绝大多数以HTML文档形式存在。本文首先分析了Web页面的组织特点,对文本自动分类中使用到的向量空间模型、分词、特征选择等关键技术进行了深入的探讨,并实现了一个多项式朴素贝叶斯分类器对中文网页进行分类。文中在大量实验的基础上对文档频率、信息增益、互信息、开方拟和检验、文本证据权、期望交叉熵、优势率等七种文本特征选择方案进行了对比研究与分析。针对于单分类器的弱点,提出利用两种组合分类技术Boosting与Bagging实现多个文本分类器的集成以提高分类的准确率,并通过实验证实了组合方案的有效性。 最后,本文讨论了一种使用贝叶斯网络对半结构化的Web文档进行表示和分类的方法。
其他文献
随着集成电路技术以及芯片制造工艺的高速发展,在CPU内部嵌入调试功能模块的片上调试技术(On-hip Debugging)应用越来越广泛。在进行SoC芯片的系统开发时,对SoC芯片的调试直接
构件软件在其生命周期中会经历多次演化,在演化过程中会对构件系统进行修改。要验证修改的正确性和新系统的可靠性,就必须对构件系统重新执行测试。构件系统回归测试只需要测试
随着企业合作和管理信息化的发展,许多信息系统要访问异构数据库,这些数据库的异构性体现在数据库类型的不同、数据库结构不同或者数据类型的不匹配。而可扩展的标记语言由于
肾脏和前列腺都是人体的重要器官,近年来肾脏疾病和前列腺疾病对人类健康造成了很大威胁。在肾脏疾病诊断中,医生经常使用CT机来对肾脏的病情进行观察,CTA(ComputedTomographic
文本自动分类是组织和管理文本信息的有力手段,可以在较大程度上解决信息杂乱无章的问题,使用户更容易更准确地定位所需的信息。目前,文本自动分类是信息检索(Information Re
随着人们对信息的各种需求急剧增加,网格计算迅速发展起来,并被认为是信息技术发展的下一波大浪潮。利用网格技术能够实现各种资源的全面共享与连通。目前,Web服务技术和网格
X射线成像是医学诊断中重要的成像手段。成像系统中原始的X射线束穿过人体时会发生散射,这些散射线到达探测器后严重影响成像质量。在探测器前放置滤线栅是防止散射影响图像的
随着网络应用的发展,企业面临的安全威胁不仅仅来自于网络层,更多的是应用层的威胁,如病毒、垃圾邮件、不良Web内容等。网络安全的需求也在发生变化,用户需要能够防御混合型
在网络规模不断扩大、网络应用日益繁多、网络安全隐患大幅增加的背景下,网络管理被上升到计算机网络中一个不可或缺的层面。网络流量识别是网络管理所需用到的技术中的一项,通
随着人类进入"信息社会"时代步伐的加快,信息的海量化和多样化使得人们必须寻求一种能够处理大规模文本数据的技术,全文检索应运而生.从1959年在美国Pittsburgh大学诞生到现