Web文本分类技术研究和应用

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:xh7304
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着Internet的飞速发展,Web上出现了海量的、异构的、半结构化的、动态的信息资源,并且在这些Web信息中有80%以上的信息是以文本的形式存在的。如何从这些浩如烟海的Web信息资源中寻找并获取有价值的信息和知识模式,已经成为信息处理领域的一个亟待解决的问题。Web文本分类是文本挖掘的关键组成部分,它可以提高用户进行网上信息搜索的效率,可以对搜索结果进行分门别类,帮助用户快速的对目标知识进行定位,并且能够从中抽取有价值的知识。   本文在分析Web文本挖掘现状和存在问题的基础上,对Web文本分类中需要的核心技术和相关算法的进行了深入的研究和讨论,并提出了自己的改进方法用于实践证明。主要工作包括:   (1)介绍Web挖掘和Web文本分类的基础理论和相关知识,分析当前研究背景、现状和存在的问题。   (2)对Web文本分类过程中的正文提取、文本预处理、分词技术、文本的表示、权重的计算、特征提取等关键技术,进行详细的分析和讨论。   (3)介绍当前几种常用的文本分类方法:KNN、支持向量机、贝叶斯、决策树方法等,对这些方法的分类思想进行深入分析,并指出它们各自的不足之处。   (4)通过引入“最少出现文档频”的概念,在特征提取环节对特征分布信息计算进行优化,从而提出一种新的特征提取改进方法,即TF-LDF算法。并通过实验,采用KNN(最近邻算法)考察TF-LDF方法的有效性,结果表明该方法分类效果更佳。
其他文献
二十一世纪是海洋的世纪,港口、码头、海上平台是人类利用海洋、开发海洋资源的基础平台。随着人类海洋活动的日益增加,港口、码头、海上平台等关键区域的水下安保和水下资源探
摘要:随着新课程的改革,情景创设法得到普遍应用并取得了良好的成效。高中化学是教学的重要组成部分,采用这种新型的教学方法活跃课堂气氛,让学生的思维能力、创新意识、动手能力得到提升,从而改善化学教学质量。文章先讲了情景创设教学的意义,然后再给出了相关的策略,这是一个进步的过程,每个学生都可以从中受益,增长化学知识。  关键词:高中化学;新课程;情景创设  现在的教育模式更加注重学生个性的发展,从兴趣出
藻蓝蛋白(phycocyanin PC)是藻胆蛋白的重要组分,主要存在于蓝藻、红藻、隐藻和少数一些甲藻中,是这些藻类进行光合作用的捕光色素之一。根据来源不同,一般分为C-藻蓝蛋白(C-PC)
随着上海光源工程开发建设、维护及改进的需要,对信息化系统提出了很高的要求。为了完善SSRF对海量数据的管理,提高研究所管理水平,进一步完善信息化体系,2007年SSRF引进了UGS公
本研究的目的是初步建立桂花(Osmanthus fragrans Lour.)组织培养体系。实验以冬季休眠芽、正在萌发的芽、当年生幼枝的茎尖和茎段、不同发育时期的胚为外植体,着重研究其最佳
合成孔径雷达(Synthetic Aperture Radar,SAR)发展至今已有六十多年的历史,鉴于其全天候、全天时、高分辨率等特点,SAR已被广泛应用于军事、民用和科学研究等领域。早期机载SAR
研究目的:  总结研究逍遥散治疗郁病相关疾病的机制,在逍遥散抗慢性应激损伤的基础上展开相关实验,来明确慢性应激损伤的机制或探求慢性应激损伤可能存在的一些中枢机制。  
随着科学技术的迅速发展,大规模集成电路和计算机的迅速应用,传统的电子测量仪器由于功能单一、便携性差、维修维护费用高且功耗大等自身不可避免的缺点在一定程度上限制了它
浮萍总黄酮是中药紫萍的主要活性部位,具有抗癌、抗氧化、保肝等多种生理活性。有研究表明,黄酮对肿瘤坏死因子诱导的人体肝细胞和大鼠肝细胞的凋亡有抑制作用。也有报道指出
星载微波辐射计已经发展成为对地观测、大气探测与空间探测的重要手段,它全天时、全天候观测以及具有一定穿透能力的特点使得它在遥感领域占有特别重要的地位。定标(校准)是微