论文部分内容阅读
21世纪是网络的世纪,网络已经完全融入了人们的学习、工作和生活。随着Internet技术的高速发展,Web已经成为人们获取信息的一个重要途径。Web上图片资源日益丰富,人们对Web图片检索的需求也日趋强烈。现在成熟的商业图片搜索引擎都是使用基于文本检索的方法,主要原因是受系统性能的限制,以及庞大的用户群,密集的查询请求,以及较短响应时间等系统要求。目前有大量的研究集中在基于内容的图片检索上,提出了很多模型和算法,但都大多处于实验室研究阶段,离商业化应用还有很大差距。如何提高基于文本的图片检索性能,特别是从链接分析以及从环境文本分析图片语义的角度,这方面的研究很有价值。基于文本的相关检索技术已经非常成熟,经过很多年的实践验证和改进,其知识积累和相关工具值得在图片搜索中借鉴和重用。基于文本的图片检索中,难点在于确定图片与文字之间的关联联系。Web图片存在于网页中,周围有很多有用的相关文本信息,这些信息对于表达图像的语义属性有重要作用。而基于链接分析的图片检索目前还不够成熟,处在起步发展阶段,如何利用链接关系结合图片周围的文本,实现Web图片检索具有重要的研究价值和意义。另外,一个网页一般包含有多个语义块,每个块的重要程度也不相同,所以在块一级上做链接分析更加合理,语义相关度更高。本文着力于对Web图片检索的研究,从检索基础理论、网页语义分块、链接分析等方面着手,主要做了以下几方面的工作:①研究传统的图片检索理论和图片检索方法。在研究信息检索理论基础上,重点研究图片检索的概念,体系结构,图片检索的分类以及各自特点等。分析Web图片的环境特征。研究网页的页面特征以及网页中的图片特征,分析对比当前主要的Web图片检索方法。②通过分析HTML的组织结构特点,针对当前越来越流行的Web标准,提出了基于Web标准的语义分块算法。该算法实现了对网页的正确分块,是整个Web图片检索研究工作的重要基础。③建立基于分块的图模型,分析网页、块、图片之间的关系。在此基础上,对网页进行块一级别的链接分析,通过块级PageRank提高链接分析的语义相关性。④研究基于分块和链接分析的Web图片检索框架模型,并开发原型系统,对Web图片检索进行尝试。提取出图片的关联文本信息,分析查询词与图片环绕文本的相似度,根据Web图片关联文本的权重定义块的重要度,对块级的图片作链接分析,尝试提高Web图片检索的准确性。