基于链接关系的网页分类算法优化

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:Lavenderws
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络技术的发展和推广,使我们进入了一个信息极其丰富的时代。在这种时代背景下,搜索引擎以其高效和便捷的特性获得了人们的青睐,成为主流的信息获取方式。但是搜索引擎的结果中总是包含很多主题无关的网页,这严重影响了搜索质量,是一个亟待解决的问题。网页分类不仅能够有效的解决这一问题,而且可以使信息资源的组织更合理,对问答系统、信息过滤等都有积极的意义。网页分类已经成为一个重要的研究课题。所以本文对基于链接关系的网页分类算法进行研究,实现一个改进后的网页分类系统。本文的主要研究工作如下:(1)提出利用网页间的相似度对基于链接关系的网页分类算法进行优化。为了解决该算法中存在的噪声邻域网页干扰问题,在分类时为不同链接关系的邻域网页分别设置相似度阈值,只有满足条件时才能参与计算,减少了噪声邻域网页的干扰。(2)使用支持向量机来改善分类效果。网页中的文本内容包含了丰富的信息,利用得当可以继续提高分类的准确性。支持向量机是一种十分有效的分类算法,通过对支持向量机对文本内容分类的结果进行权重计算改进原算法。(3)根据提出的优化方法,设计并实现了一个网页分类系统。在概要设计部分,从宏观上说明了实现系统的原理、目标、开发环境和总体结构。在详细设计与实现部分,按照分模块的方式进行,论述了各个模块的功能、包含的子模块以及具体处理的过程和实现细节。(4)为了验证提出优化方法的有效性,实现了两个参照分类器,其分别以支持向量机和原链接关系分类算法为原理。依次对实验数据进行分类,计算三种情况下的查准率、召回率和F1值并进行对比分析。实验结果表明,优化后的算法效果良好,比改进前性能有所提高。
其他文献
该文介绍了国家高技术研究发展计划(863计划)"智能化农业信息系统集成开发平台"课题中贝叶斯网推理方式的设计及其C#语言实现,完成了"贝叶斯网交互式建造模块"和"贝叶斯网推理
人才市场多媒体网络信息服务系统正是根据行业发展的需要而设计的集数据处理、网络通信、媒体制作、多媒体通讯、数据挖掘等多种信息技术于一体的管理系统.该文就数据库技术
提出了基于Agent的P2P协同计算模型,给出了一种组织分散的计算资源的行之有效的方法,解决了分布计算中的各计算实体之间的协作问题.从三个层次阐述了模型的设计:扩展的分布式
该文对网络故障的监测、报警、记录、分析和处理等方面进行研究与探索,并对大型校园网的运行环境和维护管理人员的实践经验进行分析与总结,提出了一套实用而有效的解决方案,
近年来,多媒体技术以及因特网的迅猛发展使得我们的生活被数以亿计的数字图像充斥着,并且这些数字图像的容量还正在以惊人的速度不断增长着,如何对这些图像资料进行智能化的管理
该文的主要研究工作围绕这两个问题,针对演化算法的特征,研究与之相适应的局部搜索策略,以及基于局部搜索策略的混合演化算法.该文首先提出了一种"两阶段交替"搜索策略以防止
该文首先对计算机网络及其发展与现状做了一个简单的介绍,并且在此基础上介绍了网络内外的计算机通信和三种重要的能够用于远程数据交换的计算机网络服务:电子邮件服务、FTP
网络安全一直是被人们忽视而又最难解决的问题,特别是那些由恶意用户所发起的网络攻击,如DoS和DDoS.虽然DoS/DDoS网络攻击能被看作是一个拥塞控制问题,但大多数这样的拥塞是
入侵检测(Intrusion Detection),是一种新型的网络安全技术,作为信息安全保障中的一个重要环节,很好的弥补了访问控制,身份认证,防火墙等传统机制所不能解决的问题,它作为一
该文以国内整个粮食行业为背景,建造一个专门解决粮食决策问题的粮食智能决策支持系统.从总体上设计了粮食智能决策支持系统结构和功能模型,整个系统由人机交互界面与问题求