基于邻接特征的网页主题传播算法

来源 :南京大学 | 被引量 : 0次 | 上传用户:lqlq2323
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文围绕邻接特征的选择、表示和使用进行相关研究,提出了基于邻接特征的网页主题传播算法。该算法基于网页超链接构建的有向图模型,针对网页的主题局部性特点,实现了邻接网页的主题传播,并最终得到各网页的主题概率分布。本文的主要工作如下:1)利用网络爬虫对互联网数据进行采集,经网页正文提取、网页去重、超链接分析等数据预处理后,构建基于网页超链接的有向图;2)利用潜在狄利克雷分布计算超链接有向图中网页节点的初始主题概率分布。所得主题概率分布作为网页节点的特征表示,一方面可以起到降维作用;另一方面可以用来衡量网页间的语义相似度;3)针对邻接特征的表示和引入问题,本文提出了虚拟节点和虚拟链接的概念。虚拟节点由目标页面的双亲页面转化而来,并包含所有指向目标网页超链接的扩展锚文本信息。虚拟链接可以将目标网页的其他邻接特征以人为链接的形式引入到模型当中。通过虚拟节点和虚拟连接,本文实现了网页邻接特征的有效表示和引入;4)针对网页主题局部性特点,本文提出了基于邻接特征的网页主题传播算法,该算法基于网页超链接构建的有向图模型,实现了邻接网页的主题传播,并最终生成各网页的主题概率分布。实验表明,在困惑度指标下,相较于网页的初始主题概率分布,基于邻接特征的网页主题传播算法对于网页主题概率分布的计算有明显提升。
其他文献
计算机信息系统的安全措施包含了认证、访问控制、审计和存储等内容,作为重要组成部分的访问控制可以分为网络层、主机和操作系统以及应用层访问控制三种。传统的访问控制模型
电子政务新模式的探讨一直是一个热门话题,本课题就是在对财政部门传统的政务模式进行深入分析后,提出了一种将网络办公自动化与财政监管相结合的新模式。 本文主要介绍基于
高性能计算技术在全世界范围内受到了高度重视,在众多高新科技领域中的应用都取得了巨大的成就。集群系统的出现更给高性能计算的研究增添了一个极具吸引力的生力军,它以无可替
近年来,随着个人计算机性能的大幅度提高,人机界面越来越向着人性化、自然化、智能化方向发展。笔式用户界面(Pen-based User Interface,PUI)作为Post WIMP(Window+Icon+Menu+P
该文在民用航天预研项目——"远程空间非合作性飞行体的会合与附着问题研究"、"远程空间探测会合与附着技术及仿真演示系统"和"十五"863计划项目——"深空探测器自主技术与仿
随着我国经济的发展,信息技术得到广泛应用,网络与信息系统的作用进一步增强,成为国家的关键基础设施。与此同时,信息安全问题日益增加、日渐突出。作为网络分布式计算环境中
医疗保险制度改革是一项复杂的系统工程,政策性强、涉及人员范围广,在各项保险改革中最为复杂。目前在医疗保险制度实施的过程中存在一些问题,其中医疗保险费用支出增长过快的问
网络的发展带来了现代远程教育的迅速发展。现代远程教育以网络教育为主,它以互联网为依托,采用计算机多媒体技术,这使其具有“双向交互性、个性化学习、反馈迅速、移动性”的特
作为分布环境中网络异构问题的解决方案,中间件备受关注。中间件开发中一个重要的问题就是网络通讯服务的设计与开发——任何一种中间件都必须依赖通讯服务来完成其自身各部
本文对基于离散元法的精密排种器分析设计软件开发进行了研究。文章在对国内外该方面的研究现状及存在问题进行分析的基础上,提出了由CAD模型建立其离散元法分析模型的方法,并