网页自动分类和存储管理系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:kllllllll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展,Internet上的Web页面数量呈指数增长。如何有效的组织和处理这些海量信息,如何更好地搜索、过滤和管理这些网络资源,已经日益成为信息处理领域里一个十分重要的研究课题。传统上是依靠人工的方法对网页进行分类,即专业人员在分析网页的内容后,将它分到一个或若干个比较合适的类别中。随着网页信息容量的快速增长,不可能再依靠人工的方式来进行大量的网页分类。网页的自动分类已经成为信息检索领域的一个很重要的研究方向。通过自动分类可以将网页按照类别信息分别建立相应的数据库,提高搜索引擎的查全率和查准率,同时网页分类技术还可以应用到信息过滤技术中,如保存的URL分类库可以用于URL过滤系统,网页分类的模型用于内容过滤等。因此,研究如何对网页进行高效准确的分类,并将网页分类结果进行永久的保存将有着重要的意义。本文从网页自动分类的原理和过程出发,在系统要求分析的基础上,进行了系统的总体结构设计。详细研究分析了分类各个阶段的技术和方法,主要包括文本表示模型、中文分词算法和特征提取算法等,并分析、比较了几种应用普遍的特征提取算法。针对网页分类结果的存储查询需求,提出了增量存储和反馈查询的策略,有效节省了存储空间,同时反馈查询弥补了网页收集范围的局限性。鉴于存储查询过程中的URL规范化需求,提出了一种基于嵌套FSM的URL解析方法,提高了解析的效率和容错性能。在对网页自动分类和存储技术研究的基础上,提出了网页自动分类和存储管理系统各模块的设计与实现方法,最后通过程序设计语言来实现,并进行测试和验证,重点测试了系统中的网页信息提取、特征提取算法、权重计算算法以及存储查询功能。测试结果表明,系统能够有比较高的分类准确率,达到设计的要求。
其他文献
在当前的网络体系结构中,IP地址存在着语义过载问题,即它既作为主机的身份标识符,又作为主机的位置标识符。由此导致主机在移动性和多穴的实现上遇到一系列难题,同时这种语义
随着人类经济、政治及文化活动的不断发展和科学技术水平的不断提高,人们之间的信息交流日益频繁。通信的形式和种类也越来越多,声音和图像具有直观性强、承载的信息内容丰富
随着计算机技术的发展和网络技术的进步,以提高软件灵活性、扩展性为目的的中间件技术得到越来越多的关注。同时,国内城市监控系统的需求也在日益增长。为了适应国内城市监控
在信用卡欺诈检测、股票和证券市场交易(金融分析)、网络入侵监测、社交网络分析等现实世界的行为活动中,数据以无限的、实时的、动态的流形式出现。根据数据流无穷、实时、
3GPP于R8中提出了基于IMS的融合多媒体会议需求,该需求定义融合多媒体会议是融合了消息、语音、视频和数据的多媒体会议,并且具有会议策略、会场控制、子会议等高级功能的多
作为Internet主要载体的网页(Web Page),其内容丰富多彩,很多与网页主题无关的内容,如网页模板、文字链广告、版权信息等网页噪声对信息提取的准确性造成了很大影响。目前已
大学英语教学是高等教育的一个有机组成部分,其中词汇在英语学习中发挥着重要的作用。网络教学本身有其方便、快捷、灵活的优势,本系统正是基于结合大学英语教学与网络教学的
QR码是由黑白模块组合的矩阵二维码,随着QR码的应用越来越广泛,QR码的美化需求和安全问题受到研究者的关注。本文将主要围绕QR码美化,以及基于美化QR码的防篡改这两个方面进
医院医疗质量关乎患者的诊疗康复以及社会公众对于医院的认知形象。评价医疗质量是医院医疗质量管理的关键部分。医院医疗质量主要根据医疗质量指标进行评价。目前评价医院医