论文部分内容阅读
随着在线和离线多媒体新闻数据呈爆炸性的增长,如何很好的分析这些多模态信息以实现更精确的跨媒体新闻检索,已经在当前成为一个重要的研究热点。通常情况下,这些多模态信息是以一张带有文本标注的新闻图片的形式展现的,而这张带有文本标注的新闻图片大多数都是用于描述某些特定人的相关故事。因此,在这种情况下,用户通过一个有效的检索系统来检索某个特定人的相关新闻图片,这一需求变得越来越紧急和普遍。对于该检索需求,一般的解决方式是通过以用户的输入人名作为文本查询条件,对新闻图片带有的文本标注进行文本查询,返回文本匹配的新闻资源。然而,仅仅通过一个简单的文本查询,得到的查询结果往往是不精确的,而且也很有可能返回较多不相关的结果。因为在此类新闻图片中,可能在文本信息(例如,文本标注中的人名)和视觉信息(例如,图像中的人脸)之间仅存在很弱的关联。因此,在大规模的带有文本标注的新闻图片中,获得更为有效和精确的跨媒体检索结果,自动有效的进行人脸—人名之间的对齐,已成为当前十分有必要和具有挑战的工作。本文提出了一种有效的自动人脸—人名对齐框架,能够更有效和更精确的支持跨媒体新闻检索。首先,本文重点分析文本和带有文本标注图片的人脸图像内容,研究并使用相关技术,从中提取有价值的文本信息和图像视觉信息。对图像及其伴随的文本,进行多层次的分析,能够有效的分析文本中哪些人名具有更高的相对重要性以及人名和人脸之间的内在关联性。同时,对于些在数据集中出现次数很少的人名,为了弥补这些人名对应信息的不足,通过WebMining这一方法,来获得这些人名额外的多模态信息,这些获得的多模态信息,将对于分析这些稀有人名和他们对应人脸之间的关联性,十分有用。此外,本文还特别着重描述了一种有效的度量和优化机制:改进的自适应遗传模拟退火算法(ISSAGA)。通过该机制,能够有效的验证人脸—人名之间可能的各组合所对应的可行性。为提高这些方法的整体性能,本文将人名重要性评估(NSR)、人脸—人名内聚度度量(NFCM)、基于Web的多模态信息挖掘以及改进的自适应的模拟退火遗传算法进行结合,共同构造成一种新颖的人脸—人名对齐框架,该框架能够有效的挖掘人脸和人名之间的内在关联性,进而提高跨媒体检索的性能。最后,本文在官方公开的来自雅虎新闻的大规模数据,进行了大量的实验,这些实验取得了不错的性能结果。