一种融合多种信息的Web文档分类方法

来源 :信息技术与网络安全 | 被引量 : 0次 | 上传用户:xingzhewei1123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前的Web文档分类方法大多以正文的文本分类为基础,没有很好地利用网页中所蕴含的多种信息。为提高Web文档的分类精度,提出一种融合Web文档中多种信息(如正文、描述信息、关键字、图片相关文本、标题以及文章中加粗等特殊字体)的文本分类方法。鉴于不同信息对于分类的贡献不尽相同,采用遗传算法给各种信息设置合适的权重,最终采用支持向量机对Web文档进行分类。实验结果表明,与仅使用正文文本进行分类的方法相比,所提出的融合多种信息的方法能有效提高分类精度。
其他文献
针对基本蝙蝠算法存在的易陷入局部最优、后期收敛速度慢等问题,提出动态双子群拟梯度蝙蝠算法。该算法利用蝙蝠脉冲发射频率将蝙蝠种群动态地划分为自由搜索种群和局部搜索种群两个子群,在局部搜索子群中利用拟梯度方向指导蝙蝠搜索。为了验证算法的有效性,通过对4个基准函数的实验测试,实验结果表明,该算法相对于基本蝙蝠算法具有较好的全局搜索能力和优化精度。
可分级高效视频编码(SHVC)可实现对视频序列的分层编码,正是因为实现了分层编码,编码的时间复杂度也会大大增加,尤其是在帧内预测过程中,需要从35种模式中通过率失真优化(RDO)选
描述了当前突发公共事件中社会认知管理的现状,针对当前突发公众事件中社会认知管理水平不高,没有统一的认知管理水平评价标准等问题,提出了应用网页排序打分的方法来对突发
货运列车运行故障动态检测系统TFDS在铁路行业得到广泛应用,在方便列检员及时地对故障零件进行排查的同时,节省了传统人工检测成本,降低了误检率。传统的货车图像在线浏览系统采用C/S架构依赖于Active X控件设计,需要安装插件,不方便使用,而且如果图片清晰度较低,难以对故障作出准确判断。针对上述问题,设计了一种B/S架构下基于HTML5 Canvas技术的货车图像在线浏览及增强系统,充分发挥B/S
随着信息产业的发展,信息、数据的传输存储已经遍布每个领域。在图书馆、档案室、电视台等单位每天都会产生大量数据,并将数据存放于纸张、磁带或光盘等介质(统称"媒资")中。为了
社交媒体和移动服务的增长以及客户端设备的多样性大大增加了媒体服务器的存储成本和网络流量。针对多码率视频点播服务(VOD)提出了一个能耗低、存储高效的HTTP直播流媒体服务
Small Cell是一种低发射功率、小范围覆盖的基站。Small Cell作为3G/4G宏蜂窝的补充,能够使运营商以更低的代价为用户提供更好的无线宽带语音及数据业务。为了减少用户与蜂窝
无线记分系统的设计分为发送端和接收端两部分。发送端控制程序通过RS232串口通信发送比分数据到单片机控制的下位机,并经由nRF24L01无线射频模块天线进行数据发送;接收端通过
TCP/IP作为通用协议栈虽被广泛应用,却并不适用于某些特殊的网络环境,如高可用的动态集群系统、强实时性的嵌入式系统。提出将TIPC作为新的板卡问通信协议代替TCP/IP移植到热插拔
学生评教留言经过逐年累积,已经形成一个巨量的信息资源,如何进行挖掘和分析这些资源已经成为一项紧迫的任务。本文采用频率、信息增益、条件概率比、期望值差异等四种特征选取方法对留言进行分析,采用ICTCLAS分词软件进行分词,利用MATLAB软件进行矩阵奇异值分解和降维,使用支持向量机进行训练和预测数据,从而能够对学生留言的情感倾向性给出很好的预测结果。最后通过实例说明了文中算法的有效性。