【摘 要】
:
随着多媒体网络和GPS全球定位服务系统的发展和相关应用普及,海量且多维度的数据呈现爆发式的增长,包括大量带有关键词属性的空间文本对象数据。目前主要通过空间数据库查询处理技术对这些数据进行分析处理,其中最重要的核心问题就是空间关键词查询技术,它能够利用兴趣点本身的空间属性与文本属性并综合考虑他们与查询之间的相关性,快速返回给用户满足查询需求的兴趣点。现有的空间关键词查询技术主要集中在经纬度坐标之间的
论文部分内容阅读
随着多媒体网络和GPS全球定位服务系统的发展和相关应用普及,海量且多维度的数据呈现爆发式的增长,包括大量带有关键词属性的空间文本对象数据。目前主要通过空间数据库查询处理技术对这些数据进行分析处理,其中最重要的核心问题就是空间关键词查询技术,它能够利用兴趣点本身的空间属性与文本属性并综合考虑他们与查询之间的相关性,快速返回给用户满足查询需求的兴趣点。现有的空间关键词查询技术主要集中在经纬度坐标之间的距离计算以及精确的文本匹配,忽略了用户在查询当中排斥的关键词属性,且在此查询过程中仅仅依赖于文本之间的精确匹配,对于查询中文本信息与兴趣点信息不能完全匹配的查询,极有可能造成在一定区域内没有返回结果的情况。对此,本文的具体工作如下:(1)针对查询中忽略了用户排斥属性的问题,本文提出了一种新的带否定关键词约束的查询模式。首先,采用Geohash字符串表示兴趣点对象,对字符串排序后插入B+树作为二叉树的叶节点,通过二叉树过滤带否定关键词的对象,构建了基于Geohash的混合索引结构BGIB-Tree。在此索引基础上,基于Geohash编码的递归性,设计了前缀匹配搜索算法,采用区域编码和对象编码前缀匹配的剪枝策略,使得无需进行距离计算通过字符串比对即可快速找到满足空间约束的对象,通过这些对象的id在倒排索引中双向搜索即可完成查询,从而能够有效处理用户在查询当中输入的否定关键词信息。将此算法与R树法相比,准确率提高了29%。(2)针对一词多义现象或者用户输入错误易导致不能返回给用户最精确的查询结果的问题。本文提出了结合空间、语义、文本三层结构的聚类混合索引树(GB~2-Tree,Geohash Binary BC-IDistance Tree)。首先在空间维度使用降维算法使得剪枝效果达到最优,并且在语义层运用BC-i Distance索引将高维语义向量进行聚类,按照其主题分布距离即可快速准确地找到与查询语义相近的对象。将此算法与NIQ算法相比,平均查询效率提高了19.6%。
其他文献
近年来,随着大数据相关技术的发展,不光数据维数在增加,计算量也呈指数倍增长。特征选择是解决该问题的方法之一。根据数据的来源,特征选择分为单视图特征选择与多视图特征选择,根据分类模型中是否使用标签,特征选择分为监督、半监督、无监督三种类型。由于多视图数据能够发挥各个视图的优势,因此收到了广泛关注。而有监督特征选择方法因标签的获取成本很高,因此无监督特征选择方法受到了广泛关注。但是目前的无监督多视图特
音频水印算法将表示特定含义的信息(音频创作者的相关信息、音频文件的下载及传播记录)嵌入到音频文件中,不影响原始音频文件自身的品质;在发生版权纠纷的情况下,能够将嵌入音频中的水印信息正确地提取出来,即使嵌入水印后的音频受到信号处理攻击,水印提取的正确性也不会受到影响。在音频中嵌入水印可以实现音频版权的追踪,它的有效性不仅取决于嵌入水印后算法的不可感知性,还取决于提取时的鲁棒性。两者之间是相互制衡的,
随着移动互联网技术的不断发展,网络结构及其拓扑日益复杂,数据规模爆炸式扩张,使得如何迅速而准确地从海量信息中搜集和获取更多有价值的数据及其特征已经成为当前关注的热点。个性化推荐算法就是一种通过对用户历史活动资料进行分析,挖掘用户潜在偏好信息的有效方法。协同过滤推荐算法作为经典的个性化推荐算法,可以准确发现其喜好与倾向,并对其倾向的商品进行筛选、预测与推荐。然而,面对数据规模快速增长,以及日益复杂的
滚磨光整加工是一种广泛应用的提高零件表面质量的机械加工技术,加工时将零件、滚抛磨块、水和磨液等放入滚筒中,通过滚筒转动使滚抛磨块和零件产生碰撞、摩擦和滚压等作用力,从而去除零件表面的毛刺、划痕,达到提高零件表面光亮度和表面质量的目的。滚抛磨块是滚磨光整加工中的研磨介质,对零件加工效果有重要影响。烧结型球状滚抛磨块是滚磨光整加工中应用最为广泛的一种磨块。但目前国内磨块生产厂家由于生产工艺、设备等因素
脑网络分析已广泛应用于神经影像领域的研究。传统功能连接网络大多是基于两两相关构建大脑区域之间的二阶关系,为有效构建大脑区域之间的高阶交互关系,基于超网络的脑功能构建方法被提出。超网络是基于超图概念下的复杂网络,超网络中的超边可用来表示多个脑区之间的交互作用。超网络是根据静息态功能磁共振成像时间序列通过稀疏线性回归模型构建。现有的稀疏线性回归模型大多是采用套索的方法解决的。虽然套索方法应用广泛,但也
小规模数据集和有限的带标签样本是医学成像领域的主要挑战。训练成功的深度学习算法需要大量的有标签数据作为支撑,但由于医学图像数据难以获取且标签注释需要昂贵的人工成本,这大大限制了其在医学领域中的应用。在医学成像任务中,高级放射科医师会根据他们的专业领域知识制作病变标签,但是医学图像的大多注释都很耗时。当数据匮乏的时候,神经网络极易出现过拟合问题,这种现象在小规模数据集上尤为明显。传统的图像数据增强方
近年来,随着电子商务的不断发展,用户评论已成为各大线上消费平台的重要组成部分,其往往反映了用户的态度、意见以及情感等大量有价值的信息,能很好地进行商业反馈。因此,如何从这些评论文本中高效地提取有用信息,对消费者、商家以及消费平台都具有重要意义。现有研究主要通过“粗粒度情感分析”和“细粒度情感分析”两个方面来实现对文本信息的情感分析研究。粗粒度情感分析主要计算给定文本的整体情感倾向,细粒度情感分析则
近几年,卷积神经网络在医疗领域发挥着越来越大的作用,解决了医学上很多棘手问题,将卷积神经网络应用在医疗图像识别方面,可以很大程度上提高图像识别率。糖尿病视网膜病变在实际诊断中会出现病变特征难以用肉眼区分,识别率较低,并且依赖于眼科医生的临床经验等问题。目前,使用卷积神经网络对糖尿病视网膜病变进行分类可以为医生提供可靠的判断依据,本文提出了一种基于注意力卷积神经网络的方法对糖尿病视网膜病变进行分类,
在音频信号中嵌入所有者的有效版权信息的技术称为数字音频水印技术,这种技术可以有效的解决数字音频的版权问题,已经成为信息安全领域内的重要研究之一。而且同步问题对于音频信号的研究十分重要,所以音频水印技术的发展较慢;随着互联网技术的不断发展,大量出现的各种各样的破解工具导致了数字音频的被侵权问题越来越严重,如今对音频水印算法的性能也就有了更高的要求。但是,由于音乐音频类型的多样性,对于现有的基于频域的
煤炭在我国的发展中占据着重要的战略地位,因此煤矿的安全开采对于我国的社会和经济发展都具有重要的意义。随着计算机行业的迅速发展,使用智能设备监控煤矿井下的开采以及员工生命安全都取得了巨大进步。但是由于煤矿井下不是非常理想的环境等原因,对管控等技术的发展主要遇到两个瓶颈。首先是监控设备采集的图像照明度普遍偏低并且受到较大噪声干扰,其次矿道较为狭长,在目标跟踪过程中容易出现目标丢失的现象现有的目标跟踪方