【摘 要】
:
随着互联网应用的不断发展,传统的基于文本的音频搜索引擎在用户体验上已经无法满足人们日益增长的使用需求。近年来,基于内容的音频检索(Content-Based Audio Retrieval,CBA
论文部分内容阅读
随着互联网应用的不断发展,传统的基于文本的音频搜索引擎在用户体验上已经无法满足人们日益增长的使用需求。近年来,基于内容的音频检索(Content-Based Audio Retrieval,CBAR)技术越来越成为国内外学者关注的焦点。然而,面对海量的互联网音频数据,基于内容的音频检索技术在检索速度、噪声鲁棒性等方面依然亟待加强。本文将主要着眼于以上两方面问题,在音频表示级层次的样例检索方面展开相关研究,主要包含以下几方面工作:在检索系统前端的音频特征提取方面,简要回顾了理论系统完善、检索速度较快的局部敏感哈希(Local-Sensitive Hashing, LSH)索引的音频检索方法,针对其依然需要在对应桶(Bucket)中进行高维向量比较的缺点,提出了一种音频特征压缩的方法,并将其作为检索系统的压缩音频特征。该方法与适当的匹配方案结合,可以有效避免局部敏感哈希索引方法中高维向量的比较过程。在检索系统后端的音频特征匹配方面,简要回顾了自然语言领域被广为使用的倒排索引,针对其无法体现整个音频时序性的缺点,引入了k-字近邻搜索方法,提出了一种压缩音频特征域下基于倒排索引的音频检索方法。实验表明该方法与本文提出的音频特征相结合,在查询音频较纯净的情况下检索速度和准确率均优于局部敏感哈希索引方法。针对LSH方法噪声鲁棒性不强的问题,提出了压缩特征域基于滑动窗的音频检索方法,并在速度上对算法进行了优化。实验表明:该方法的噪声鲁棒性优于LSH索引方法,且速度与LSH索引方法较接近。
其他文献
企业服务总线(Enterprise Service Bus, ESB)支持异构环境中的服务、消息以及基于事件的交互。Web服务客户端为企业服务总线中集成的服务调用提供了一种能力。然而,现有的Web
传统的计算机体系结构中,运算单元一般可以分为两类:一类是通用处理单元,该类运算单元依循特定指令集,通过软件编程方式进行运算,其特点是通用性强但性能不高;第二类是采用ASIC
遗传算法是一种基于概率导向的随机搜索算法,已被成功地应用到多种学习任务和最优化问题中。对于遗传算法,策略(包括算法流程、算子及其控制参数)的设计和选择至关重要,会对
随着语义Web技术的标准化,关联数据在各领域得到广泛推广和应用,使得关联数据的发布达到空前规模,这导致了关联数据的存储和传输难度增大。通过压缩技术减小关联数据体积的方
图像的超分辨率重建是指从相同场景的单幅或多幅低分辨率图像中重构出一幅包含更丰富细节的高分辨率图像的技术。这一技术突破了硬件成像系统的限制,经济且有效地提高了图像
当今的大数据应用往往具有一个共同的特点,同样的计算往往在不断变化的数据上重复执行,例如社交网络数据和网页数据。在这些应用中只是少量数据发生改变,如果重新计算则工作
近年来,随着互联网和分布式计算的发展,海量数据处理的性能有了很大提升。在许多应用领域中,都需要从海量数据中提取出增量数据来满足某种业务需求,尤其是对于不断更新的源数
企业的信息资源具有分布式和异构性等特点,随着通用数据访问提供多源、异构数据源的统一访问方式,用户通过统一访问接口可以访问数据源中的数据,继而通过可视化建模工具对数
鉴于传统语音应用系统获取信息手段单一、信息量少、成本高等缺点,本文在分析SIP协议和VoiceXML技术的基础上,采用软交换技术设计并开发了基于SIP协议的语音浏览器,实现电话
百度指数发布的《中国网民科普需求搜索行为报告》表示人们最关注“健康与医疗”科普主题,但是目前大部分有关医疗的语义搜索、查询理解和自动问答都需要依赖于其背景知识图