基于支持向量机的Web文本挖掘研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:hscyg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网等信息技术的发展和广泛应用,Web已经成为人们获取信息最重要手段之一.互联网提供了到足够丰富的信息,而人们所需要的通常只是一部分信息,如何从这海量的信息资源库中快速、准确地进行分类并提取出有用的信息,显得异常迫切,当前广泛应用的搜索引擎技术,基于关键字搜索往往检索的网页达数万条,其中很大一部分与主题无关,而有用的信息则淹没在这些无关的信息中,这使得寻求通过数据挖掘技术在Web领域开辟新的途径.中文文本分类是中文信息处理领域的重要组成部分,目前,广泛应用于Web中的搜索引擎技术、信息过滤技术等都是文本分类技术的应用. 支持向量机技术是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力.它是专门研究有限样本集的情况,算法最终转化为一个二次型寻优问题,通过非线性变换转到高维的特征空间,保证机器有较好的推广能力,同时它巧妙地解决了维数灾难问题. 本文首先介绍了Web挖掘的研究内容,探讨了Web挖掘的内容挖掘、结构挖掘和使用挖掘的常用技术及其存在的问题;随后对文本分类的研究进行了讨论,总结了文本分类的一般处理过程,并就相关的算法步骤进行了深入的分析,提出了一种基于语义引导的特征选择方法,对小样本集下的文本进行了分类实验,结果表明,基于语义引导的特征选择方法有较高的查全率和查准率,具有较好的分类性能.随后对支持向量机技术进行理论上的分析,探讨研究在有限样本集下,支持向量机技术在文本分类中的优势.对多类文本分类的问题,进行了分析,给出了集中解决方案,对多类文本分类问题,在变换成高维的特征空间中核函数选取的问题进行了深入的讨论,分析核函数的选取对分类的精度可能造成的影响. 最后,采用支持向量机技术,对有限样本集文本进行了分类实验.采用了分类问题常用的评价算法查全率和查准率等进行了评估,比较研究了多项式核函数参数的选取以及惩罚参数的变化对文本分类效果的影响.
其他文献
目的:研究稳定表达亨廷顿蛋白(Huntingtin,Htt)氨基末端片段Htt-586片段的PC12细胞在衣霉素诱导的内质网应激的条件下,对Htt586片段的剪切与蓄积的影响。  方法:采用慢病毒表达系统建立高分化PC12细胞稳定表达野生型与突变型Htt-586片段的亨廷顿舞蹈病的细胞模型,并用衣霉素处理制作内质网应激模型。运用MTT法检测衣霉素对细胞存活的影响,Western blot检测CHO
学位
目的:为了揭示神经退行性病变中神经元损伤的潜在胞内病变机制,我们研究小胶质细胞在喹啉酸介导的神经兴奋性毒性模型中发挥的作用,并对其作用机制进行研究探讨。  方法:本实验首先将1mM喹啉酸作用于BV-2细胞12h后,采集培养基上清液,制备BCM(BV-2 Conditioned Medium)。然后向体外培养的原代皮层神经元,分别加入喹啉酸和BCM,建立兴奋性毒性模型。通过Hochest染色和β-t
学位
期刊
文化旅游是未来旅游发展的必然趋势,平山县文化资源丰富,是河北省的文旅资源大县,为发展文化旅游提供了良好的基础。本文就平山县目前仍存在的景区基础设施不完善、宣传力度不够、乡村文化旅游缺乏等问题提出合理建议。
目的:观察不同部位腧穴配伍电针对肥胖大鼠胃肠运动及瘦素(LEP)、胆囊收缩素(CCK)的影响,探讨针刺减肥的相关机制。方法:从70只Wistar雄性大鼠中随机挑选10只为正常组,予以普通饲料饲养,其他大鼠采用高脂饮食饲养法造模,共8周。造模成功的40只大鼠随机分为模型组、腹部电针组、下肢部电针组及标本电针组,每组各10只。腹部电针组取"关元""中脘""天枢";下肢部电针组取"足三里""丰隆";标本
通过共聚法合成苯乙烯及丙烯酸酯改性醇酸树脂。介绍了其合成工艺、影响因素以及技术指标;分析了醇酸树脂和丙烯酸改性醇酸树脂配方的设计要点:醇超量R≥15%、醇酸常数K≥1.05时各类丙烯酸单体之间的配比。