Hidden Web上的自动信息抽取

来源 :南开大学 | 被引量 : 0次 | 上传用户:youzhangyale
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网中蕴含着大量可用的信息,但其中越来越多的内容需要通过填写HTML表单的方式才能获得。从用户和数据管理的角度来看,这是合理的,但是对于收集网络信息的自动化工具来说,无疑制造了很多的困难。这部分被隐藏在查询表单后面的Web也因此被称为Hidden Web。由于其中信息的巨大价值,在Hidden Web中的自动信息搜索已经成为热门的研究课题。 本文将提出一个在Hidden Web中进行信息搜索的方法,不同于其他针对页面的方法,它以Hidden Web中的信息为目标,通过自动填表、制定查询计划、结果页面处理、重复信息过滤等步骤,力争高效地实现对隐藏在表单后面信息的覆盖。 为了有效利用所获得的信息,本文还将提出一种在页面中抽取信息的方法。这种方法没有针对Web页面的整个结构进行解析,但仍然提取出了表格结构,在效率与灵活之间找到了一个平衡。 在此基础之上,我们构建了一个系统。针对典型的搜索引擎,它可以实现自动登录、自动发起查询、索引页面处理、详情页面处理等功能,通过查询界面尽可能多的获取信息,并通过信息抽取的方法,将其转化为结构化的数据放入数据库中,以便进行类似于数据挖掘的后续处理步骤。 此系统被应用在一个欧美软件项目中,利用目标网站提供的简历搜索引擎获取简历信息。本文将对其应用及实验结果进行总结与评价。
其他文献
为了解决计算能力有限的对象(用户)所面临的大维数方阵的高次幂计算问题,作者利用云计算平台(云服务端),提出了一个方阵幂可验证安全云计算外包方案。该方案中包含两个不同的
蒙特卡罗马可夫链(MCMC)算法是概率推理中的重要方法,在统计学、人工智能、图形学、统计物理等有重要应用。MCMC算法对机器的计算速度和存储空间有很高的要求。并行计算机能
在现代社会中,随着科技与经济的飞速发展,人们对身份识别技术的重视程度也进一步提高。但是,传统的身份识别技术由于其自身固有的缺点已经不能满足社会发展的要求,生物特征识
随着网络信息技术、移动通信技术以及移动数字终端技术的快速发展,移动商务应用越来越广泛,尤其在企业级的应用更是前景无限。OLAP(Online Analyical Processing,联机分析处
随着互联网的出现和普及,在互联网上传播的资讯浩如烟海。面对海量的互联网媒体资讯,人们需要一种手段能够快速、准确地获取自己感兴趣的有关某一话题的相关信息。话题检测与追
随着实时系统在各个领域的广泛应用,新的实时通信问题、异构问题便逐渐显现出来。新一代动态实时系统日趋大型化、复杂化,并且要求更高的灵活性、自治性、可靠性和适应性,这
随着Internet的发展,各种信息飞速增长,人们对信息的反应速度远远低于信息的传播速度,大量无关的冗余的信息严重干扰了受众对相关有用信息的准确分析和正确选择,搜索引擎在一
物联网是科技和生活的结晶。在物联网生活中,各种智能设备已经成为了应用的主角,其中之一便有无线传感器网络,它受到的关注度越来越高,被广泛使用在生活、环保、军事等活动中
当前信息化技术的高速发展给人们的日常生活带来极大的便捷。一方面互联互通的互联网所具备的开放特性在很大程度上方便了各种信息资源的共享,开创并且拓宽了共享资源的途径;
论坛中含有大量有价值的、由用户讨论生成的数据,从中可挖掘出大量的问答数据,而这些数据可进一步用于改善问答系统的性能、扩充聊天机器人的知识库等。本文研究从论坛中挖掘