基于链接分析的web组合分类器研究

来源 :海南大学 | 被引量 : 0次 | 上传用户:BB8120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
论文从网页自身的结构化信息出发,分析和改进Web分类的相关环节:网页表达、特征选择和分类算法;从网页之间的链接信息出发,讨论了结合分类技术的排序算法,并在此基础上,综合考虑结构化信息和链接信息,将基于链接分析的级联组合分类器作为研究重点.主要工作包括以下方面: (1)提出了标签词频加权标引法,综合考虑不同标签中的特征词反映网页主题的差别以及特征词在整个特征空间中的比例,对网页表达进行改进. (2)研究一种基于一定类别空间阈值的MI+CHI联合特征选择法,该算法弥补了CHI选择法的缺陷:过滤指定类别中出现频率低,其它类别中出现频率高的词;提高特定类中出现的低频词的权重. (3)提出了基于N-Gram模型对NaiveBayes的改进算法,一定程度上改进NaiveBayes的特征相关性问题. (4)研究一种使用分类技术改进的排序算法.借助预分类技术增强PageRank与Hits算法在计算网页中的链接所指向页面的重要性的能力,使得重要程度高的网页对于同一类别或相关类别的其它网页具有更好的类别调整能力,进而提高网页分类的精确度. (5)提出了两种可行的组合分类器策略(SVM+NB、NB+NB),分类器由两层分类器级联组成,传统纯文本分类器作为一级分类器,基于超链接分析的分类器作为二级分类器,前一级分类器的分类信息用于指导下一级分类器的训练和分类过程. (6)研究一种基于类别归并的组合分类方法,对训练集的一些小类别和交叉类别进行归并,重组类别集,采用二级分类器对原始训练集和新训练集进行分类,解决由训练信息过少,类别信息交叉带来的训练不均衡问题.
其他文献
随着网络条件的不断改善,在互联网上进行音频和视频的传输成为可能,VoIP就是在这样的背景下应运而生。虽然VoIP相对于传统的电话有其自身优势,但它也面临着一些难题,如互通互
快速发展的网络技术和不断增长的网络带宽在给人们带来极大便利的同时,也给网络设备带来了巨大的压力,能否安全快速的实现报文处理已成为影响网络发展的一个重要因素。传统的
随着全国数字电视的普及,传统的模拟电视将逐步退出历史舞台。数字电视节目源的制作就成为了一个非常重要的问题。在当前的数字电视制式中,绝大多数都是以MPEG2标准规定的TS
网络技术的快速发展推动了企业信息化的进程,企业信息管理系统的应用通过各部门共享信息,提高了企业的运作效率。但随着企业业务的不断变化和复杂度的提高,原有的系统无法满
通过在国家科技重大专项评估中应用技术成熟度方法,评价专项关键核心技术成熟度的基线状态、当前状态和预期状态,了解专项技术攻关进展情况和存在的差距,对专项调整和聚焦下一步
教育教学管理过程的信息化是当前高校管理发展的主要趋势,进入21世纪后,高校管理信息化正以前所未有的速度走进我们的校园,极大地改变着传统的信息管理方式,促使学校教育管理
现有的无线Mesh网络是朝着多种无线接入技术融合方向发展。在无线Mesh网络中可用的无线资源非常有限,如何提高无线资源利用率,增加网络容量是设计无线Mesh网络的一个关键问题
网络流量异常是指网络的流量行为偏离其正常行为的情形,具有发作突然、先兆特征未知的特点,有可能在短时间内给网络及其设备带来极大的伤害。快速、准确的检测出网络异常流量
随着网络业务越来越流行以及互联网对服务质量需求的日趋提高,运营商不得不对现有网络进行频繁更新,然而网络配置信息的更新通常引发一系列造成网络性能下降的问题。本文对IP
WiMAX标准定义了无线城域网的MAC层和物理层技术规范。在MAC层,标准将不同的业务流归类为UGS,rtPS,nrtPS和BE四种类型,分别对四种业务流进行QoS保证。在物理层,采用OFDM等技