【摘 要】
:
随着互联网的发展,人们对于网站检索的需求日益增大。将网站进行分类可以极大地提升检索效率,研究中文网站的自动分类技术具有较高的实用价值。基于网页关键词词频的支持向量机SVM算法是解决高维特征向量分类问题的最好方案之一,需要设定的参数较少且具有出色的学习能力。目前SVM算法已经应用于各类网站分类工作,但因分类信息老旧,效率低下,更新速度慢等种种问题,无法完成对目前数百万的庞大的中文网站的大范围覆盖。针
论文部分内容阅读
随着互联网的发展,人们对于网站检索的需求日益增大。将网站进行分类可以极大地提升检索效率,研究中文网站的自动分类技术具有较高的实用价值。基于网页关键词词频的支持向量机SVM算法是解决高维特征向量分类问题的最好方案之一,需要设定的参数较少且具有出色的学习能力。目前SVM算法已经应用于各类网站分类工作,但因分类信息老旧,效率低下,更新速度慢等种种问题,无法完成对目前数百万的庞大的中文网站的大范围覆盖。针对上述问题,本课题对SVM机器学习模型进行了改进以解决大规模中文网站分类的问题,并基于上述方法实现针对百万规模数据集的国内中文网站的分类系统。本课题针对百万数据量下的网站分类准确率进行了相关探索,研究SVM算法相关参数对分类准确率的影响。针对传统SVM算法中存在的非均衡样本集对分类准确率产生影响的问题,本论文对算法模型进行调整,通过引入新的参数控制模型的超平面位置,将超平面向正类样本靠近,为负类样本留出更大的存在可能性空间,从而缓解非均衡样本集对分类准确率带来的影响。通过对照实验测试,改进的算法应用于非均衡样本集时,在一定的参数取值范围内对于负类样本的分类准确率有了较为明显的提高,从而提升了整体的分类效果。基于以上改进的SVM算法,本课题构建了大规模中文网站分类系统用以完成国内百万数量级规模的网站分类工作。系统包括数据采集、数据处理与存储、数据计算、数据分类、结果展示与查询这五大基本模块,完成了从网站信息爬取、信息存储、数据预处理到算法测试调优,再到算法应用及结果展示的一体化分类工作。系统模块经过测试,满足了应用需求,取得了不错的分类效果。
其他文献
阿尔茨海默病(alzheimer’s disease,AD)是一种神经退行性疾病,具有强烈的遗传倾向。单核苷酸多态性(single nucleotide polymorphism,SNP)是指基因组中单个核苷酸的变化引起
MEMS传感器的室内定位系统,实现一种完全自主无盲区,具有数据采集、数据处理以及显示终端的功能,本文主要对采用了MEMS传感器模块进行测量行人运动参数,并通过定位计算机进行
对比研究了古尔班通古特沙漠与绿洲交错带8种土地利用类型的土壤特性变化.结果表明:不同土地利用类型的土壤粉砂含量差异性显著(P5a)与时间成正比.不同土地利用类型的土壤养
在水稻的种子世界里,黑米、紫米是一类特殊生态类型的品种,由于米皮呈黑色或紫色,故得名。我国黑米、紫米品种源远流长,资源丰富,历来是中华民族引以为自豪的农业遗产,值得
就我国寒冷地区建筑物施工阶段可能发生的混凝土和基础冻胀问题,探究其发生机理和典型现象,对于预防冻害的发生,具有重要意义。
<正>项目名称:STOCK共享办公空间业主:Warehouse TERRADA建设地点:东京都港区高轮设计单位:尾形良树+SALT建筑事务所合作设计:Watase Ikuma+Dugout建筑面积:1 084 m~2建筑层
要按照引领中原乃至全国的高度和格局谋划产业发展,强化精深加工配套,打造知名品牌,聚集资源要素,打造一批引领全国的农业高质量发展高地。$$党的十九大报告明确指出:“我国经济已
长江经济带是以流域为基础,以长江为纽带,以长三角城市群、长江中游城市群以及成渝城市群为依托的宏观协作经济带,具有重要的战略地位。其横跨我国地理三大阶梯,资源、环境、交通、产业基础等发展条件存在较大差异,区域发展与保护矛盾突出,环境污染形势严峻。土地利用变化作为全球环境变化中最明显的表现形式,间接影响着气候变化、生物多样性、生物地球化学循环以及资源可持续利用等地表物质循环和生态过程,引起生态系统功能
基因治疗是通过调控特定细胞内的基因表达,以达到治疗疾病的目的。这种调控通过基因转运的方式引入外源基因,如DNA、mRNA、siRNA、microRNA及反义寡核苷酸等。将外源基因转运
三维超声造影技术(3D-CEUS)在三维超声成像的基础上,再利用sonovue超声造影剂很好的血流示踪作用,增强组织器官内血流的散射信号强度,评价组织的血流灌注情况。因此三维超声造影通