特征构建算法及其在图像语义标注与信息抽取中的应用研究

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:biuesnow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和多媒体技术的不断发展,图像与文本已经成为不可或缺的信息载体。每天互联网上都会产生海量的图像与文本数据,如何对它们进行有效地管理成为了人们迫切需要解决的问题。面对海量的数据,传统的人工标注的管理方式不仅耗时而且耗力。于是,本文针对目前存在于图像和文本内容理解中的问题,提出了若干机器学习的算法,旨在能让计算机更加智能化的自动进行图像和文本数据的管理。本文中所指的图像内容理解主要指的图像分类和图像语义自动标注技术,文本内容理解是指文本的信息抽取技术。事实上,无论是图像语义分析还是文本信息抽取,最终都可以建模为模式识别的问题。图像和文本只是信息的传播媒介,而对机器而言,低层特征才是它能理解的语言。换言之,本文始终围绕着的一个中心思想就是如何利用机器学习算法更好地构建低层特征到高层语义之间的映射关系。以此为中心,本文的主要研究内容包括:1.提出了一种多尺度融合的低层特征构造方法。算法首先基于传统的BOW(Bag-of-words)模型通过对不同尺度下的图像进行稠密采样获取视觉词,然后通过pLSA(probabilistic Latent Semantic Analysis)算法获取不同尺度的图像的主题模型,接着采用简单的级联操作将特征拼接起来作为图像的特征表示。在实验中,通过与在单一尺度下进行特征提取的算法进行对比,证明了本方法的有效性。2.提出一种优化SVM(Support Vector Machine)训练数据集的方法。当我们对训练图像进行稠密采样及特征提取后,将会产生许多训练样本。实际上,每幅图像都包含了很多重复的特征点以及一部分离群点(outliers),其中包含了冗余和噪音信息。因此,如果用所有的特征点对SVM分类器进行训练的话,将会非常耗时甚至可能影响到分类精度。相反地,如果我们从这些海量数据中挑选出一部分代表点作为SVM的训练样本,则不仅会加速训练过程,而且有可能提升分类精度。基于此,我们首先使用LVQ(Learning Vector Quantization)对训练数据进行约简,然后再通过SVM进行图像语义标注。实验发现基于AP(Affinity Propagation)算法的LVQ比基于SOM(Self-Organizing Map)网络的LVQ无论在时间开销还是在样本点选取的有效性方面都更胜一筹。3.提出一种全新的基于低秩和局部编码的图像分类算法Locality-constrained Low-rank Coding,缩写为LCLR。LCLR通过联合编码和局部约束,很好地把握了流形特征空间的特点。相比于其他的基于低秩编码的策略,LCLR没有选择?1范数作为正则项,而是选择了效果更好的局部约束项。大量的实验也验证了LCLR算法的有效性。同时,为了解决该算法在优化时遇到的问题,我们也提出了一种基于在线学习的优化策略。实验证明,LCLR算法在很多标准数据集上的效果达到了世界一流水平。4.提出了一种无监督的,对搜索日志进行自动挖掘可比较实体对的抽取算法。算法通过对包含10亿条英文搜索词条的搜索日志进行信息抽取,最终构建了一个包含630,121个实体顶点以及300万条边的可比较实体图。在实验部分,我们充分且详细地验证了所提出的算法以及所构建的图。据我们所知,这个图是目前最大的关于可比较关系的拓扑图。5.在以往的研究中,文本库都是事先给定的,这使得人们更加注重对信息抽取算法本身的研究而忽略了文本库的重要性。事实上,文本库的质量将会对信息抽取算法的效果产生很大的影响。为了进一步提高信息抽取算法的效果,本文提出一种构建大规模高质量文本库的算法。我们将互联网上所有的网页按照他们的知识含量由高到低进行排序,然后优先对排名靠前的网页进行信息抽取。实验证明,常用的信息抽取算法在本文提出的算法所构建的文本库上能取得更好的效果。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本文主要针对冯梦龙的“三言”观进行分析,分析其对现代社会的启示,希望为建设社会主义精神文明提供借鉴。
人际语言交流是一个多模态信息处理过程。除了承载语义信息的语音以外,人的面部表情和肢体动作也对语言的理解和交流起到一定的作用。认知心理学的实验结果表明,相比于单一的
目前,随着中国零售市场的全面开放,中国零售企业面临的问题是,如何在国内激烈竞争中打造国际竞争力,提升国际竞争水平,并积极寻求开拓国外零售市场途径,拓宽自己的生存空间,
通过工程实例研究Fenton高级氧化对TDS≈3×10^4mg/L的高含盐工业废水的处理效果及运行成本,得最佳工程运行参数:pH=3.6~4.0,停留时间50min,H2O2投加量982mg/L,FeSO4投加
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
近年来,大健康产业对国民经济增长的贡献越来越明显,在国民经济发展中逐渐成为一个新兴产业。本文将对大健康产业的体系结构进行分类和研究,从而促进我国大健康产业的发展。
目的 探讨平消胶囊抑瘤乳腺癌细胞MCF-7的分子机制及其作用靶点。方法 平消胶囊按照每只大鼠1.656g/d灌胃给药,连续7d。末次灌胃1h后,动物乙醚吸入麻醉,心脏采血,无菌分离血清,经56
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield