暗网数据源分类算法的研究和实现

被引量 : 5次 | 上传用户：cailing12530

【摘要】

：

Web按照信息隐藏深度分为暗网（Deep Web）和浅层网（Visible Web）。传统搜索引擎（如BaiDu，Google等）仅能索引到浅层网的页面上信息；暗网即指在线填写表单并提交至后台服务器才能获得的

【作者】

：

李亚

【发表日期】

：

2013年01期

【关键词】

：

暗网数据源分类贝叶斯 KNN 语义数据挖掘 WordNet

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Web按照信息隐藏深度分为暗网（Deep Web）和浅层网（Visible Web）。传统搜索引擎（如BaiDu，Google等）仅能索引到浅层网的页面上信息；暗网即指在线填写表单并提交至后台服务器才能获得的页面。据BrightPlant的调查得知暗网所蕴含的信息量是浅层网几百倍，同时信息的质量，领域专业主题性都优于浅层网。基于这些特点，暗网数据适合进行相关的信息采集和利用。但是，实际利用中，由于暗网信息分布广泛，规模大及其相关业务变化迅速等特性，因此，有效数据集成分类、挖掘知识并加以利用还需要有大量的研究工作，其中，海量暗网数据准确的分类是这些研究工作中重要研究内容。本文主要关注暗网数据源的分类，目前有对暗网数据进行集成利用的网站都是采用手工方式进行分类，由于手工方式成本高，更新慢并且涵盖的类别有限，所以如何摆脱手工分类的弊端，对各个数据源自动别类，规划所属的类别，从而将暗网资源有效的进行整合一直是现在研究者的热门研究课题。目前对暗网数据源分类相关的研究都是基于表单文本特征，并假设文本特征之间没有关联。这与实际情况不符，并且相关的分类算法没有考虑训练样本的分布情况，对一种分类算法在训练样本丰富时能取得较好的分类效果，但是对训练样本稀疏情况下并不一定能取得很好的分类效果，针对以上的不足，本文提出如下的改进方法。本文首先研究了Web和搜索引擎相关内容，为暗网数据源分类提供了理论基础和本论文研究价值的参考。对现有的暗网数据源分类算法加以研究，提出了暗网数据源分类算法应该针对不同的训练样本分布情况提出不同的分类策略，即考虑暗网数据源样本丰富和稀疏两种情况，解决了分类模型的适用性问题。通过统计观察得知，不同领域类别的数据源所包含的控件类型总体分布存在很大差异，而同一类别的数据源在结构上有极大的相似性，本文提出在暗网数据源特征提取阶段同时提取数据源文本信息和数据源结构信息的特征提取方法，以充分利用数据源结构信息与领域类别之间的联系。在数据源接口丰富的情况下，本文引入数据挖掘思想，挖掘特征之间的频繁模式，挖掘特征之间的联系，克服了现有分类算法基于特征之间无关联的假设，提出了改进的贝叶斯分类模型，并且在TEL-8数据集上对提出的分类算法加以验证，通过与采用传统贝叶斯模型在相同实验数据下得出的实验结果在Recall，Precison和F-measure指标上进行对比，证明本文提出的算法的有效性。在数据源接口稀疏的情况下，本文引入语义词典，客服了由于训练集稀疏造成的数据源接口特征不足的弊端，提出了基于概念的特征空间模型，最后提出了改进的基于语义的KNN分类模型，并且在相同的实验条件下验证本文所提出的分类算法的有效性和准确性。

其他文献

四川省矿产资源利用现状调查成果与储量库衔接及关键技术研究

四川省矿产资源分布广、现有采矿权多、地质构造复杂,导致矿山资源储量、矿山位置等信息都不准确。因此,四川省针对该情况在2009年开展了矿产资源储量利用现状调查。随着储量

学位

矿产资源储量两库衔接坐标转换位置核查

利用形象思维促进高中美术特长生语文学习策略的研究

随着人们对右脑的认识，使脑的开发出现了新的发展趋势，开始注意右脑的开发，注意发展人们的形象思维。本文通过斯佩里大脑分工理论和加德纳多元智力理论阐述，说明形象思维是人类右

学位

美术特长生形象思维语文教学

对韩精品班口语课教学实验报告

第二语言教学的目的是培养学习者运用目的语进行交际的能力,因此口语课应该针对教学对象把最贴近实际生活的内容教给学生们。对外汉语教学的传统教学模式是不分课型的，用一本

学位

韩国口语课受试者精品班

基于MCNP对燃料包壳厚度测量影响因素的分析研究

本论文来源于中国核动力研究设计院的生产性科研项目,其研究是基于目前快速发展的MCNP模拟技术,对现有燃料包壳厚度测量系统中影响测量结果的因素进行模拟分析,以解决系统测

学位

燃料包壳238Uβ射线MCNP

内蒙古资源型企业社会责任实现机制研究

内蒙古经济利用其丰富的自然资源取得了快速增长,其中资源型企业的发展构成了现阶段内蒙古经济增长的主要推动力。资源型企业在推动内蒙古经济快速增长的同时也带来了一些社

学位

内蒙古资源型企业企业社会责任实现机制

论我国证券投资基金持有人权益保护的完善

在金融市场比较完善的资本主义国家，证券投资基金因为其投资管理的专业性往往成为人们首选的投资方式。在中国这一逐步发展的金融市场，证券投资基金成为金融投资的首选产品,这

学位

基金持有人合法权益法律制度

不同增氧方式及沉水植物修复河蟹池塘养殖环境的研究

在贯彻落实科学发展观,发展资源节约型、环境友好型水产养殖理念的指导下,本文以江苏代表特色的河蟹养殖池塘为研究对象,比较了2种增氧方式的增氧效果及对池塘水质和底层沉积

学位

池塘河蟹养殖环境增氧沉水植物修复

BNP与高血压左房内径的相关性研究

目的：高血压是心脑血管疾病的重要危险因素。高血压病是最常见的心血管疾病之一，也是导致人类死亡的常见疾病如脑卒中、冠心病、心力衰竭等疾病的重要危险因素。高血压可以引发

学位

B型利钠肽高血压左房内径左房内径指数靶器官损害

低分子肝素钠防治儿童紫癜性肾炎临床疗效观察

目的:观察低分子肝素钠防治紫癜性肾炎临床疗效。方法:将86例过敏性紫癜患儿随机分为观察组与对照组各43例,均给予常规治疗,观察组在常规治疗上加用低分子肝素钠,100 IU/(kg

期刊

过敏性紫癜紫癜性肾炎低分子肝素钠

气相色谱仪温度控制算法研究

本课题是与企业合作开发气相色谱仪项目的一部分,课题主要以保证仪器稳定性和精确性为目的,对气相色谱仪温度控制方法展开深入研究。气相色谱仪作为一种现代化分析仪器,是重

学位

数学模型PID算法Smith算法模糊控制

暗网数据源分类算法的研究和实现

与本文相关的学术论文