论文部分内容阅读
随着互联网和多媒体技术的不断发展,图像与文本已经成为不可或缺的信息载体。每天互联网上都会产生海量的图像与文本数据,如何对它们进行有效地管理成为了人们迫切需要解决的问题。面对海量的数据,传统的人工标注的管理方式不仅耗时而且耗力。于是,本文针对目前存在于图像和文本内容理解中的问题,提出了若干机器学习的算法,旨在能让计算机更加智能化的自动进行图像和文本数据的管理。本文中所指的图像内容理解主要指的图像分类和图像语义自动标注技术,文本内容理解是指文本的信息抽取技术。事实上,无论是图像语义分析还是文本信息抽取,最终都可以建模为模式识别的问题。图像和文本只是信息的传播媒介,而对机器而言,低层特征才是它能理解的语言。换言之,本文始终围绕着的一个中心思想就是如何利用机器学习算法更好地构建低层特征到高层语义之间的映射关系。以此为中心,本文的主要研究内容包括:1.提出了一种多尺度融合的低层特征构造方法。算法首先基于传统的BOW(Bag-of-words)模型通过对不同尺度下的图像进行稠密采样获取视觉词,然后通过pLSA(probabilistic Latent Semantic Analysis)算法获取不同尺度的图像的主题模型,接着采用简单的级联操作将特征拼接起来作为图像的特征表示。在实验中,通过与在单一尺度下进行特征提取的算法进行对比,证明了本方法的有效性。2.提出一种优化SVM(Support Vector Machine)训练数据集的方法。当我们对训练图像进行稠密采样及特征提取后,将会产生许多训练样本。实际上,每幅图像都包含了很多重复的特征点以及一部分离群点(outliers),其中包含了冗余和噪音信息。因此,如果用所有的特征点对SVM分类器进行训练的话,将会非常耗时甚至可能影响到分类精度。相反地,如果我们从这些海量数据中挑选出一部分代表点作为SVM的训练样本,则不仅会加速训练过程,而且有可能提升分类精度。基于此,我们首先使用LVQ(Learning Vector Quantization)对训练数据进行约简,然后再通过SVM进行图像语义标注。实验发现基于AP(Affinity Propagation)算法的LVQ比基于SOM(Self-Organizing Map)网络的LVQ无论在时间开销还是在样本点选取的有效性方面都更胜一筹。3.提出一种全新的基于低秩和局部编码的图像分类算法Locality-constrained Low-rank Coding,缩写为LCLR。LCLR通过联合编码和局部约束,很好地把握了流形特征空间的特点。相比于其他的基于低秩编码的策略,LCLR没有选择?1范数作为正则项,而是选择了效果更好的局部约束项。大量的实验也验证了LCLR算法的有效性。同时,为了解决该算法在优化时遇到的问题,我们也提出了一种基于在线学习的优化策略。实验证明,LCLR算法在很多标准数据集上的效果达到了世界一流水平。4.提出了一种无监督的,对搜索日志进行自动挖掘可比较实体对的抽取算法。算法通过对包含10亿条英文搜索词条的搜索日志进行信息抽取,最终构建了一个包含630,121个实体顶点以及300万条边的可比较实体图。在实验部分,我们充分且详细地验证了所提出的算法以及所构建的图。据我们所知,这个图是目前最大的关于可比较关系的拓扑图。5.在以往的研究中,文本库都是事先给定的,这使得人们更加注重对信息抽取算法本身的研究而忽略了文本库的重要性。事实上,文本库的质量将会对信息抽取算法的效果产生很大的影响。为了进一步提高信息抽取算法的效果,本文提出一种构建大规模高质量文本库的算法。我们将互联网上所有的网页按照他们的知识含量由高到低进行排序,然后优先对排名靠前的网页进行信息抽取。实验证明,常用的信息抽取算法在本文提出的算法所构建的文本库上能取得更好的效果。