Web文本分类关键技术的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:quintentwc93
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今的世界,信息充斥着各个角落,以电子形式存在的Web文本已逐渐成为人们最重要的信息来源。然而,Web文本是无结构的、动态的,并且Web页面的复杂程度远远超过了文本文档。因此,如何有效的、快速的从浩瀚的网络信息中获取到所需要的、可以利用的知识,已成为近年来人们研究的主要课题,并形成了一门新的技术:Web文本挖掘。它主要包括四个方面的内容:Web文本分类、Web文本聚类、信息抽取和信息检索。本文主要是对Web文本分类进行研究。在Web文本分类中,支持向量机得到了广泛的应用。它是建立在统计学习理论和结构风险最小化原则基础上的一种机器学习方法,能够很好的解决小样本下的学习问题。与传统的机器学习方法相比,支持向量机具有很强的泛化能力,而且能够得到全局最优解,很好地解决了过学习、维数灾难、局部极值等问题,成为现在科学领域的一个研究热点。然而作为一个相对较新的理论,支持向量机还有待进一步的研究、改进。其中,对大规模数据集的分类问题及数据集更新后如何重新分类是研究的重点和难点之一。本文首先对Web文本挖掘分类进行了研究,分析了其关键技术。然后研究了统计学习和支持向量机的基本概念及相关理论,并针对支持向量机在求解大规模数据集时存在的缺陷,如占用较高内存、收敛速度很慢、在数据集更新后又重新对所有样本进行分类等,提出了一种改进的基于相对分离度的算法,用来解决多分类问题。继而,在该算法的基础之上,提出了基于相对分类度的多分类增量学习算法。该算法将支持向量机和增量学习结合起来,当数据集更新后,该算法保留了以前学习的结果,仅对新增加的数据进行再学习,从而形成一个连续的学习过程。最后,将改进的算法应用于Web文本挖掘系统中,并取得了较好的分类效果。
其他文献
图像融合是将同一场景的多幅图像进行综合以得到关于该场景更加准确描述的信息处理过程,而基于小波分析的多源图像融合是该领域的研究热点之一。本文研究了基于小波变换的像素
数据流模型在许多应用中广泛出现,其特征是数据速度快、规模大、实时性强且数据单遍访问。同时由于设备精度、传输丢失、周围环境干扰、设备故障、隐私保护和不同系统之间的集
在计算机网络和信息安全迅速发展的今天,P2P网络技术得到了广泛应用。由于P2P体系结构的开放性,使网络中各个节点间的信息传递和文件共享面临较大的安全威胁。因此,保证P2P网络
从上世纪末至今,对等计算(P2P)及其应用发展迅速。现有的P2P网络模型主要有集中式P2P、全分布式非结构化P2P、全分布式结构化P2P和半分布式P2P等。本文主要对混合层次化P2P(HP
在市场经济条件下,银行要走向成功,就必须建立一套完善的培训、考核、人员管理方面的激励机制、分配机制和用工机制。虽然总分行制定了各类考核办法,但是由于没有一个科学的
XML(Extensible Markup Language,可扩展标记语言)是一种使用标记标记内容以传输信息的简单方法,由于它的可扩展性和跨平台特征,在web服务器和数据库系统中得到了广泛的应用,已经成
移动传感器网络作为特殊的无线传感器网络,已经得到越来越多的重视。拓扑控制算法是网络中路由、MAC协议等的基础,又是定位研究、融合算法研究的先决因素。本文针对移动传感
软件测试是软件开发过程中重要的组成部分,是保证软件质量的有效手段。本文主要研究了基于UML序列图模型的软件测试方法和工具实现。鉴于UML模型是一种半形式化的建模,本文首先
在如今的信息时代中,市场竞争日趋激烈,顾客需求瞬息万变,技术创新迅猛发展,企业面对着内外环境的不断变化,为了保持自身的竞争力,必须高度重视企业信息化建设。不管企业选择何时以
目前在模式识别的分类过程中,基本上都需要利用分类器把待分类数据进行分类,在这个分类过程中,分类器起到了决策机制的作用,对最终的类别判别非常关键,分类器性能的优劣也将直接关