论文部分内容阅读
随着互联网技术与产业的急速发展,网络中的数据量越来越庞大,涉及的领域、网站的种类与日俱增。在享受海量信息的同时,获取特定目标信息的难度也不断增加。对网站的标签标识是对网站主题精准全面地概括,有助于有效地分析互联网网络,对人们更快捷准确地寻找信息具有巨大意义。基于网站标签标识的研究现状,本文深入研究了网站标签标识相关技术,并针对已有技术的不足做了改进。本文的工作主要分为以下三个方面:第一,给出了一个网站关键资源动态提取策略。关键资源是网站中最具有代表性的网页。本文将针对关键资源的分类器与限定爬虫相结合,有针对性地抓取最能代表网站主题的网页。该策略能够下载较少页面而获取大部分关键资源。第二,提出了一种改进的网站多标签分类算法。针对网站多标签标识的需求,本文改进了现有的多标签分类算法,用于网站标签标识领域。该算法对网站的多数据域特性和数据域完备性问题都有较好的适应性。实验结果表明,使用此算法对网站数据进行多标签分类的效果得到了明显提高。第三,设计并实现了网站标签标识系统。结合前两方面的研究结果,实现了网站标签标识系统。输入一个网站种子链接,系统动态地提取出该网站的关键资源,然后使用改进后的多标签分类算法为网站标识多个标签。运行结果证明,网站标签标识系统的性能良好,准确率得到提高。本文改进了现有技术,实现了对网站的标签标识,具有减少所耗资源,提高准确率的优点。