论文部分内容阅读
目前搜索引擎索引的绝大部分是表层网的信息,限于一些技术原因,搜索引擎几乎无法索引深层网中的信息。但是深层网具有容量大、质量高和专业性强等诸多优点,它的意义及重要性无法被人们忽略,于是找到一种能够爬行深层网的方式是非常必要的,所以构造一个深层网爬行器来获取深层网中的数据是非常有意义的,而表单自动填充是深层网爬行器的重要组成部分。
本文首先介绍了深层网的价值及难以搜索深层网的原因,分析对比了国内外研究现状,介绍了HTML 表单、文档对象模型(DOM)、抽取方法、本体知识和相似度计算方法,在此基础上本文提出了一套填充深层网入口表单的策略。首先使用改进的启发式规则识别深层查询入口表单,再通过本文提出的就近原则算法提取表单标签,在进行最后的匹配填充之前对抽取到的标签进行标准化,最后通过改进的基于语义的相似度匹配算法对深层网表单标签和本体领域知识库的属性进行匹配,这样就可以模拟用户填充深层网入口表单的过程了。
结尾对整个算法进行了实验验证。选取了图书领域的深层网入口表单进行实验,先识别表单查询入口,实验结果表明使用本文总结的启发式规则准确率能达到90.76%。对表单提取时,使用就近原则算法提取表单标签的准确率能达到94.23%。接着,使用改进的基于语义相似度计算算法寻找与表单标签相匹配的属性,找到匹配的属性之后,用属性的值对表单控件进行填充。结果表明,匹配的成功率达到88.83%,填充的成功率达到95.43%。也就是说,本文提出的填充深层网入口表单的策略是有效的。