论文部分内容阅读
随着互联网的不断发展,人们可以从中获得越来越多有价值的信息,并且这些信息的数量仍在迅速的增长。按照信息的“深度”,可将互联网分为Deep Web和Surface Web。相对于Surface Web,Deep Web中的信息数量更大、结构化程度更高、专业性更强,也因此具有更高的价值。目前,Deep Web相关的问题已成为Web领域研究的热点。
Deep Web信息的自动化获取是其中非常重要的一个问题,因为虽然有大量的信息分布于Deep Web,但传统搜索引擎由于其自身的技术障碍无法获取,通过手工方式获取不但效率低下且成本高昂;此外,没有Deep Web信息的自动化获取,后续的信息抽取等工作也很难体现出价值。由此可见,Deep Web信息自动化获取技术的研究至关重要。
本文提出了一种基于XML和Web信息抽取技术的、针对特定领域DeepWeb信息的自动化搜索方法。利用该方法能够实现对某一领域多个。Deep Web信息源的自动化搜索,并且可以灵活扩展信息源的数量。
本文介绍了该方法的理论模型与系统实现,并对该方法的应用及实验结果进行了总结与评价。