一种面向盲人的门户网站导航结构提取方法的研究与实现

来源 :浙江大学计算机科学与技术学院 浙江大学 | 被引量 : 0次 | 上传用户:lxh5310
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息爆炸的时代,门户网站作为互联网信息的主要载体,它们的资讯也日益丰富。当前主流的门户网站频道与栏目众多,层次关系复杂,对于盲人用户而言,理解这些页面的内容是一个巨大的挑战。当前主流门户网站中,大多数网页含有起导航作用的链接,即导航链接。把这些导航链接提取出来并重构成代表当前站点内容结构关系的树状导航结构,能辅助盲人用户浏览网站,这是本文工作的出发点。现有的门户网站中,一部分页面的导航链接数量较多,例如某频道的首页,该类页面起着导航的作用,可称为导航页面。该类页面有一个很明显的特征,即导航链接的位置与内容长期不变,而其他部分的内容变化则相对频繁。也就是说,这些导航链接存在于该页面不同时期版本的模板内容之中。基于以上观察,本文提出一种基于网页模板检测与提取的算法,用于提取网页中的候选导航链接。由于当前页面的各时刻快照模板中往往包含上级层次的导航链接,而它们一般不能作为当前层次的导航链接,本文提出分层提取的策略,以减少上级层次模板里的导航链接对本层导航链接提取的影响。此外,本文通过机器学习分类的方法识别出导航页面以及候选链接中的导航链接,以完成整体的流程。算法分析与实验结果表明,分层的提取策略能显著提高导航链接抽取的准确率。结合分类器技术以识别导航链接和导航页面,导航结构提取的效果良好。
其他文献
随着软件产业的蓬勃发展,软件的规模和复杂度越来越高。在软件开发过程中,调试工作的难度也随之提高。使用一般的调试方法,往往会遇到这样的困境:第一,由于系统的并行性和外
TD/GSM双模手机需求的多样性,使得传统的双模手机软件架构已达不到系统和用户的需求,为了有一个稳定、先进、可扩展的TD/GSM双模手机软件架构供开发商使用,利用分层模型和“框架
近几年,Spark作为下一代通用大数据计算平台,因其高效的海量数据处理能力得到了越来越多企业和研究人员的关注。Spark SQL作为Spark上的结构化数据查询引擎被越来越多的企业
随着科学技术的高速发展以及信息量的急速膨胀,在大规模信息可视化、虚拟现实和仿真、数字影院、展览展示、会议及教育等诸多领域,人们对显示技术的要求越来越高。主要需求表
通讯管理机是变电站自动化系统的信息中心,其对下负责管理各种电力系统二次侧的保护、测控装置和其它智能设备,对上为变电站当地后台和远方调度提供信息,并负责传递操作命令,是变
现实生活中很多系统结构都能抽象成网络,比如关系网络、新陈代谢网络、电子邮件通信网络、移动电话网络等。这些网络能够根据内部的相互作用表现出某些结构特征,其中社区结构
随着计算机视觉技术的发展,使用机器视觉技术进行杂草识别已经成为当前的研究热点。本文利用支持向量机在处理小样本,非线性问题方面的优势,将支持向量机应用于杂草识别中,以
车型自动分类系统是ITS(Intellegent Transportation System)的重要组成部分,它在智能交通领域中有着广泛的应用,相关技术的研究正受到普遍关注。当前国内外学者侧重于研究车
无线Mesh网是一种基于多跳路由、支持多点对多点技术的新型网络结构,具有动态扩展、自组网、自管理、自修复、移动宽带的特性,是一种大容量、高速率、覆盖范围广的网络,可以
随着全电力推进船舶电站自动化的提高,船舶电力负荷预测逐渐成为研究热点。越来越多的人工智能方法被应用到电力负荷预测中,使电力负荷的预测更加精确。本文以全电力推进船舶