Web文本分类关键技术研究

被引量 : 0次 | 上传用户:kency2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
九十年代以来,Internet以惊人的速度向前发展,Web作为信息制造、发布、加工与处理的主要平台,出现了海量的、异构的、动态的、半结构化或非结构化的信息资源,并且在这些Web信息中有80%以上的信息是以Web文本的形式存在的,容量增长迅速,平均每天增加100万个页面。随着Internet这样的扩展和大量在线文本的出现,将标志这巨大的非结构型或半结构型数据海洋中,蕴藏着极其丰富的有用信息即知识。如何在Web所提供的海量信息中发现有用的信息和知识模式并加以有效利用,一直是人们努力探索的问题。搜索引擎的分类浏览模式,检索效果好,能协助用户寻找所需信息,但是需要人工维护,维护成本高,信息更新慢,维护的工作量大,同时搜索结果精度不高,召回率有限,更不能满足用户给出特殊的个性化服务要求。因此,基于Web文本数据的知识发现应运而生。Web文本分类可以有效的解决上述问题,并能依据网页中所包含的文本的语义将大量的网页自动分门别类,从而更好地帮助人们把握Web信息,帮助用户快速、准确的对目标知识进行定位,缩减搜索空间,加快检索速度,提高查询精度。Web文本分类是Web文本挖掘的关键组成部分。本文在分析Web文本挖掘和Web文本分类的研究现状和存在问题的基础上,针对复杂、海量及半结构化与非结构化的文本数据类型的特性,从知识发现内在认知机理研究的角度出发,把知识发现过程视为认知过程,把知识发现系统视为认知系统,建立文本库与知识库的内在联系“通道”——双库协同机制,用知识库的知识去参与、制约与驱动知识发现的发掘过程,构造启发型与中断型协调器来模拟认知心理学的“创建意向”和“心理信息修复”特征,分别实现系统自主发现知识短缺来形成“定向发掘”和实现知识库实时维护的“定向搜索”,模拟人类学习方式,实现文本库信息扩张机制的渐增、递进式的知识发现。从而在Web文本分类进程与知识库的广泛联系中,改进与优化了Web文本分类的结构、过程与运行机制,形成了Web文本分类系统的改进的结构模型——算法——应用一体化的线路。进一步研究了Web文本分类过程中的关键技术,如文本采集、分词、特征降维、特征权值计算、分类等若干关键技术。针对不完备信息、不确定信息、知识发掘认知自主性,分别给出了结合粗糙集、模糊集和内在认知机理的Web文本分类的混合的改进算法。本文主要研究内容和创新点具体包括以下几个方面:(1)构建Web文本分类系统模型。给出了文本预处理模块、分类模块、分类质量评价模块的功能和内容以及整体模型框架,对Web文本分类系统模型中的关键技术:文本采集、分词处理、文本的特征表示、特征降维、权重计算和分类技术进行了研究,同时描述了影响分类性能评价的五个因素和几种常用的分类质量评价方法。(2)给出一种Web文本采集算法和采集系统。针对Web文本采集技术、文本采集系统中的数据库设计方法、采集系统功能设计内容、采集算法进行了研究,描述了从Internet上采集Web文本形成Web的TXT文件集的具体采集过程。(3)提出一种基于双库协同机制与粗糙集的Web文本分类关联规则挖掘算法。采用互信息计算公式进行特征的初步选择和用粗糙集理论进行进一步属性约简相结合,实现了文本特征的更有效降维处理,大大缩减了文本高维特征空间。文本分类规则挖掘结合基于内在认知的双库协同机制进行关联分析方法和有效的进一步规则优化提取,启用中断型协调器,经过这样的处理后,规则中的条件属性数目、规则冲突被尽可能减少,规则的适应性更强。再将两结合的特征降维方法和多结合的分类规则挖掘方法混合使用,更十分有效实现了文本的分类。对混合挖掘算法进行了实验,并结合常用的关联规则分类法和SVM方类法对该改进混合算法进行比较,验证该算法的可行性。(4)提出一种基于模糊综合加权推理的Web文本模糊分类改进算法。模糊推理方法是运用知识规则进行推理,使机器具有思维能力,自动求解问题,它的工作方式与人类的认知过程极为相似。通过模糊推理来对文本模糊分类,建立起了样本对于类别的不确定性的描述,使归类结果比精确分类更有效地反映Web文本的真实信息。针对基于最大——最小合成法模糊推理归类这种方法在模糊运算的过程中只能保持主要信息,忽略很多次要因素,虽然能减少运算工作量,但其分类结果适应性、可信度不很理想的情况,提出一种改进模糊综合加权评判算法。使用了本文给出的一种“综合加权型”算子(?)(·,(?)),基于有界和——代数积进行推理运算,根据权重系数综合考虑每个因素的影响建立的模糊分类系统的模糊推理机制,能确保推理结果的准确性及可信度。对该算法进行了实验,同时结合基于最大—最小合成模糊推理方法对该改进算法进行比较,验证该算法的可行性。(5)提出一种基于内在认知机理的带反馈的质心Web文本分类改进算法。结合认知科学,针对只有训练与分类两阶段的分类方法,不具备不断学习的能力和分类能力在将来的分类过程中是固定不变的情况,在文本训练及分类阶段的基础上增加了自动反馈阶段,实现模拟人类学习方式的渐增、递进式知识发现方式,实现分类器自识调节和修正来提高文本分类智能化程度和分类有效性。并对该改进算法进行了实验,与传统的质心文本分类作比较,验证该算法的可行性。
其他文献
初中少先队教育是我国教育体系中的重要环节,目前部分基层初中少先队工作中存在着的主体地位模糊、活动内容单一、保障机制不健全等问题。在实地调研的基础上,通过实证研究和
目的:通过整体动物和体外细胞生物学实验,从整体动物、组织、细胞和分子生物学的不同水平,观察中药健脑颗粒对脑动脉硬化的防治及对受损神经细胞的保护作用,并初步探索其作用
汽车轻量化对节约能源减少尾气污染具有显著的效果,优质的铝合金材料在汽车上应用的研究是当前人们关注的热点,其中铝合金汽车面板成形性能及烘烤硬化是具备重要工程价值的研
随着社会的发展和人民生活水平的提高,大学生消费价值观发生了很大的变化。本文在文献综述的基础上,从心理学的角度提出了操作性定义:即作为消费者的个体从自身的消费需求出
目的:探讨中医中药治疗小儿急性肾炎的临床疗效.方法:八正散加减,清水煎液,每日一剂,分二次服.结果:治愈率为84.1%,显效率为10.1%,好转率为4.3%,总有效率达98.6%.结论:小儿急
运用词频统计法分析了2005-2004年国内12种高等教育研究核心期刊所发表的4800多篇论文的题名,在一定程度上显示出了2005年国内高等教育研究的现状和发展动向。分析结果表明:"
杨二车娜姆以一个摩梭人的自传方式,于1997年出版了《走出女儿国》。但是,书中大量的对情爱和性的描写,让许多摩梭人认为这本书扭曲了摩梭文化。"许多男游客经常会半真半假地
学校气氛是个体对学校整体物理环境和心理环境感知的集合。以往关于学校气氛的研究偏重于学校组织气氛的研究,而忽视了学校组织内部不同成员之间学校气氛感知的差异性,造成了
采用自制的动态旋转冲刷腐蚀装置 ,以含硅湿法磷酸为液固冲刷腐蚀介质 ,考察了该流动体系中 316L和 90 4L不锈钢在不同攻角下冲刷腐蚀的行为。材料的电化学极化曲线表明 ,两
第二次世界大战以后,资本主义迎来了新一轮的高速发展,致使资本主义社会呈现出许多新情况、新特点,与马克思当时的语言相悖,资本主义不但没有垂死,反而更显活力。但也与断言