中文URL信息自动提取算法的研究与实现

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:a753159456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网在全球的迅速普及,互联网上信息的数量以几何级数的数量增长,人们能够获取的信息量超过了人工搜索的能力。搜索引擎的出现正是顺应了这个潮流。搜索引擎的功能就是返回给用户最接近用户查询结果的网页。搜索引擎在返回给用户结果的时候,最重要的一步是对网页的排序。而排序的重要依据之一是网页本身与查询关键字之间的相关度。网页的URL是网页的一个重要组成部分。如果能从网页的URL上提取出跟网页本身有关的相关信息,对于关键词的相关度的计算是一个很有力的帮助。本文分析了网页URL的组成规律,主要是中文网站URL的构成特点,对这些URL的构成方式进行了详细的分类,并且在此基础上提出并实现了一种高效的中文信息自动提取算法。
其他文献
中国邮路问题是图论经典问题之一,在软件测试、邮件投递等诸多领域中都被广泛应用。时间依赖中国邮路问题是对中国邮路问题的扩展,它考虑了时间因素,在实时软件测试等当前许
近年来,无线局域网正在被运营商大规模推广、布设,具有广泛的市场前景。然而,鉴别、鉴权、计费和网络的安全性问题对于电信运营商的网络运营是十分重要的,这就给无线局域网的
随着网络通信技术的发展,无线网络已经成为人们日常生活中不可或缺的一部分。无线Mesh网络(WMN)作为一种新兴的无线网络通信技术,由于其建设成本低、可扩展性强、应用范围广
随着互联网的深度发展和电子商务的迅猛发展,移动支付以其方便易行、支付成本低等优点受到消费者的欢迎,并逐渐成为一种流行的支付方式。当然其安全问题也越来越成为人们关注的
互联网的高速发展给人们带来诸多便利的同时也有很多安全问题出现。大至国家,小至个人,信息安全已经变为当今时代急需面对和处理的问题。信息隐藏是解决安全问题的重要技术手
图形用户界面GUI(Graphical User Interface)是现代软件的重要组成部分。由于软件的功能主要是通过图形用户界面调用的,所以GUI测试是现代软件测试的关键环节。快速原型软件
随着信息时代的不断发展,计算机应用技术随之不断更新,各类技术已经广泛地渗透于各个高技术领域和生产、经营、管理等过程,计算机软件的规模也在不断提高,复杂度也在不断增加
传统的办公系统利用纸张记录文字、数据和图形,利用照相机或摄像机胶片记录影像,利用录音机磁带记录声音。所利用的各种设备之间没有相互的配合,难于实现高效率的信息处理、检索
滑坡、泥石流等突发性地质灾害,发生突然,可预见性差,容易给人民生命财产造成重大损失。人类目前尚不可能全部防治地质灾害,但应当认识掌握地质灾害发生与发展的基本知识,以
迭代学习控制是智能控制理论的一个重要分支,它针对具有重复运行性质的被控对象,利用前次迭代时的输入信息和输出误差的校正项,通过迭代的方式修正控制信号,实现在有限时间区