论文部分内容阅读
Web按照信息隐藏深度分为暗网(Deep Web)和浅层网(Visible Web)。传统搜索引擎(如BaiDu,Google等)仅能索引到浅层网的页面上信息;暗网即指在线填写表单并提交至后台服务器才能获得的页面。据BrightPlant的调查得知暗网所蕴含的信息量是浅层网几百倍,同时信息的质量,领域专业主题性都优于浅层网。基于这些特点,暗网数据适合进行相关的信息采集和利用。但是,实际利用中,由于暗网信息分布广泛,规模大及其相关业务变化迅速等特性,因此,有效数据集成分类、挖掘知识并加以利用还需要有大量的研究工作,其中,海量暗网数据准确的分类是这些研究工作中重要研究内容。本文主要关注暗网数据源的分类,目前有对暗网数据进行集成利用的网站都是采用手工方式进行分类,由于手工方式成本高,更新慢并且涵盖的类别有限,所以如何摆脱手工分类的弊端,对各个数据源自动别类,规划所属的类别,从而将暗网资源有效的进行整合一直是现在研究者的热门研究课题。目前对暗网数据源分类相关的研究都是基于表单文本特征,并假设文本特征之间没有关联。这与实际情况不符,并且相关的分类算法没有考虑训练样本的分布情况,对一种分类算法在训练样本丰富时能取得较好的分类效果,但是对训练样本稀疏情况下并不一定能取得很好的分类效果,针对以上的不足,本文提出如下的改进方法。本文首先研究了Web和搜索引擎相关内容,为暗网数据源分类提供了理论基础和本论文研究价值的参考。对现有的暗网数据源分类算法加以研究,提出了暗网数据源分类算法应该针对不同的训练样本分布情况提出不同的分类策略,即考虑暗网数据源样本丰富和稀疏两种情况,解决了分类模型的适用性问题。通过统计观察得知,不同领域类别的数据源所包含的控件类型总体分布存在很大差异,而同一类别的数据源在结构上有极大的相似性,本文提出在暗网数据源特征提取阶段同时提取数据源文本信息和数据源结构信息的特征提取方法,以充分利用数据源结构信息与领域类别之间的联系。在数据源接口丰富的情况下,本文引入数据挖掘思想,挖掘特征之间的频繁模式,挖掘特征之间的联系,克服了现有分类算法基于特征之间无关联的假设,提出了改进的贝叶斯分类模型,并且在TEL-8数据集上对提出的分类算法加以验证,通过与采用传统贝叶斯模型在相同实验数据下得出的实验结果在Recall,Precison和F-measure指标上进行对比,证明本文提出的算法的有效性。在数据源接口稀疏的情况下,本文引入语义词典,客服了由于训练集稀疏造成的数据源接口特征不足的弊端,提出了基于概念的特征空间模型,最后提出了改进的基于语义的KNN分类模型,并且在相同的实验条件下验证本文所提出的分类算法的有效性和准确性。