基于URL特征的网页分类研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:shuizhongcanyue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网提供了大量的广泛分布和高动态资源信息,网页信息分散且不方便管理。网页分类能有效解决这些问题。在网页分类过程中,选取特征是其中重要一环,传统的特征从网页正文、锚文本、标题等网页文本中选取,这样的选择方式耗时且代价很高。同时,特征冗余,特征维数过高也是网页分类中常见的问题。如何快速鉴别网页类别同时提高分类精度以及特征降维成为了急需解决的问题。论文系统地分析了网页分类的产生背景、发展现状及研究意义,对网页分类的关键技术进行深入的学习和研究,并在已有研究成果的基础上,主要完成了这些方面的创新:URL是网页唯一的标识,直接根据URL特征进行网页分类可以省去处理网页正文的时耗。论文分析了URL的结构,提出了n-gram方法处理URL得到特征,n-gram法通过分割URL得到一系列字符串,充分利用URL上所包含的信息,选用weka工具做分类实验。通过选择不同的n值对比,得出从提取到分类所需的时间比传统的正文要快很多,并能达到较高的精度。实验通过URL的n-gram特征提取法和传统的URL特征提取法比较,得出n-gram效果比较好。并且在不要求时间的前提下,n-gram和正文文本特征相结合效果比单独使用n-gram和网页正文锚文本标题特征有所改进。
其他文献
随着人们对于软件质量的要求越来越高,软件测试在软件开发中的地位变得越来越重要,软件测试成为软件开发周期中必不可少的、耗时较多的一部分。现在很多面向客户端的软件很大
由大量网格模型所构建的三维世界在人们的现代生活中已经扮演着重要的角色,随着人们对三维世界越来越多需求,出现了大量的网格数据需要处理,对计算机的存储、计算、显示、传
在许多现实世界系统中,对象与对象之间的关系都能够建模成复杂网络进行分析。其中社团结构是复杂网络的重要属性,通常能够解释复杂网络系统的拓扑结构与功能模块。复杂网络社团检测旨在挖掘这种具有复杂网络结构的系统中的模块化结构,研究这种模块化结构有助于更好了解并挖掘网络系统的潜藏功能。近年来,多个领域的研究者们提出了众多社团挖掘算法,在不同学科领域上对复杂网络社团检测进行了深入研究,随着重叠社团结构这一概念
学位
本课题为基于深度学习的司法智能研究,任务主要以司法领域的自动量刑、相关法条预测和相似案例推荐为主。旨在以深度学习技术为主,解决司法领域智慧化问题,开展人工智能与法
无线传感器网络覆盖控制技术不仅反应了无线传感器网络对物理世界的监测能力,而且直接决定了网络采集外界信息的完整性和准确性。目前大多数的覆盖协议都是基于理想环境下提
较为准确的气温预报对农业生产,国防建设有着重要的意义。大气场中影响气温的因素很多,温度变化具有长期的不确定性,具有典型的混沌特征,其短期具有一定的可预测性。因此,预
目前我国城市交通拥挤现象日趋严重,为解决交通不畅问题,城市公路隧道日益增多,公路隧道的智能监控系统是隧道正常高效运营必要条件。虽然当前隧道监控的设备及监控方案己基
随着网络技术的日益发展,网络安全问题也变得日益严峻。异常行为检测作为一种积极主动的安全防护技术,在网络系统受到危害之前拦截和响应入侵,对网络主体进行纵深、多层次的
随着互联网的快速发展产生了海量数据,按照数据结构可以将这些数据划分为:高结构化数据、半结构化数据及以原始文本。其中结构化数据由于其具有完整的逻辑结构以及描述信息,
网络准入控制系统通过对于接入点的控制从而实现对整个网络的防护,准入控制技术层出不穷,其中以IEEE802.1x技术最为业界所认可。802.1x作为准入控制业界标准具有高度的灵活性