深层网中查询入口的填充策略研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户：mysunmoon

【摘要】

：

目前搜索引擎索引的绝大部分是表层网的信息，限于一些技术原因，搜索引擎几乎无法索引深层网中的信息。但是深层网具有容量大、质量高和专业性强等诸多优点，它的意义及重要性无法

【作者】

：

马建华

【机构】

：

南京师范大学

【出处】

：

南京师范大学

【发表日期】

：

2009年期

【关键词】

：

深层网查询入口表单填充爬行器语义相似度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前搜索引擎索引的绝大部分是表层网的信息，限于一些技术原因，搜索引擎几乎无法索引深层网中的信息。但是深层网具有容量大、质量高和专业性强等诸多优点，它的意义及重要性无法被人们忽略，于是找到一种能够爬行深层网的方式是非常必要的，所以构造一个深层网爬行器来获取深层网中的数据是非常有意义的,而表单自动填充是深层网爬行器的重要组成部分。　　本文首先介绍了深层网的价值及难以搜索深层网的原因，分析对比了国内外研究现状，介绍了HTML 表单、文档对象模型(DOM)、抽取方法、本体知识和相似度计算方法，在此基础上本文提出了一套填充深层网入口表单的策略。首先使用改进的启发式规则识别深层查询入口表单，再通过本文提出的就近原则算法提取表单标签，在进行最后的匹配填充之前对抽取到的标签进行标准化，最后通过改进的基于语义的相似度匹配算法对深层网表单标签和本体领域知识库的属性进行匹配，这样就可以模拟用户填充深层网入口表单的过程了。　　结尾对整个算法进行了实验验证。选取了图书领域的深层网入口表单进行实验，先识别表单查询入口，实验结果表明使用本文总结的启发式规则准确率能达到90.76％。对表单提取时，使用就近原则算法提取表单标签的准确率能达到94.23％。接着，使用改进的基于语义相似度计算算法寻找与表单标签相匹配的属性，找到匹配的属性之后，用属性的值对表单控件进行填充。结果表明，匹配的成功率达到88.83％，填充的成功率达到95.43％。也就是说，本文提出的填充深层网入口表单的策略是有效的。

其他文献

高职院校物联网专业建设研究--以南京两所高职院校为例

学位

江苏省普通高校体育教育本科专业田径类课程现状及发展对策研究

本文运用文献资料法、专家访谈法、问卷调查法、数理统计法和综合分析法等研究方法,对江苏省普通高校体育教育本科专业田径类课程现状进行了研究。通过研究力求发现江苏省普

学位

普通高校体育教育本科专业田径类课程现状发展对策

假若我有那么一箱子画

在各种艺术作品中，我特别喜爱图画。我不懂绘画，正如我不懂音乐。可是，假若听完音乐，心中只觉茫然，看罢图画我却觉得心里舒服。因此，我特别喜爱图画——说不出别的大道理来。　　虽然爱画，我可不是收藏画。因为第一我不会鉴别古画的真假；第二我没有购置名作的财力；第三我并不爱那纸败色褪的老东西，不管怎样古，怎样值钱。　　我爱时人的画，因为彩色鲜明，看起来使我心中舒服，而且不必为它们预备保险箱。　　不过，时人的

期刊

子画艺术作品纸本白石翁钤印胡絜青老舍先生舒乙女弟子傅抱石

深层网中查询入口的填充策略研究

其他学术论文