【摘 要】
:
在许多网上社群管理系统中(CWMS),为了管理其中的稀疏数据,大规模稀疏数据表(LST)相关的存储结构正在被越来越多的采用。一个LST通常含有数千以上的属性,并且一条记录仅在少
论文部分内容阅读
在许多网上社群管理系统中(CWMS),为了管理其中的稀疏数据,大规模稀疏数据表(LST)相关的存储结构正在被越来越多的采用。一个LST通常含有数千以上的属性,并且一条记录仅在少数属性上有定义。在LST中,定义在几个数字和文本混合属性上的低维结构化相似性查询是最常见的操作。但是许多和LST相关的Web 2.0服务的特性使得已有的大多数多维索引都不能适用。近期关于LST的研究多集中于如何存储数据表和建立一种简单的倒排索引来提高LST上的数据管理效率。到目前为止,还没有针对LST的其他新索引结构被提出。已有的倒排索引可以被很快的访问,但是它不包含任何与数据内容有关的信息,故而不能有效的减少查询过程中对数据表文件的随机访问次数。本文提出了基于过滤-检查策略,维护近似数据内容,且保证访问效率的iVA-file索引结构,设计了nG-Signature作为近似表示字符串数据的近似向量,并改进了已有的针对数字数据的近似向量编码方法。同时,本文还提出了新的基于扫描索引方式的查询执行方法。基于真实数据集的全面的测试证明了iVA-file在查询效率方面明显优于已有的技术,且保持了理想的更新速度。
其他文献
在动态文档集环境中,索引的组织方式需要在检索效率和更新效率上进行调节与折衷。为了提高索引效率,索引的索引项数据用拉链方式分块存放,但会降低检索效率;反之亦然。索引模
RFID(Frequency Radio Identification,射频识别)是一项基于计算机与通信的综合性科学技术,它利用射频信号通过空间耦合对目标物体进行非接触式自动识别。由于标签的灵便性和
无线传感器网络是由一组传感器节点以自组方式构成的无线网络。无线传感器网络的应用前景非常广泛,主要表现在军事、环境、健康、家庭、商业等领域。随着无线传感器网络应用
近年来,流媒体在互联网上大量应用,然而由于传统C/S模式过分依赖媒体服务器的性能和带宽,使得流媒体的播放质量并不让人满意。为了解决这个问题,P2P技术被引入到流媒体应用中
随着实验技术的高速发展,大量的实验数据不断被获得,基于这些实验数据各种心肌细胞模型相继被创建和完善。如何让这些细胞模型发挥更大的作用成为了本文的一个出发点。本文对
纸币识别器已成功运用于各种自助服务设备,如何以一种有效的方式对其进行在线监控与升级(主要升级识别算法,纸币特征数据库)是我们急需要解决的一个问题。本文通过分析比较嵌
当今世界正处于信息化时代,信息网络对人类的经济、政治、军事等方面产生着巨大的影响。空间网络作为信息网络的一部分,对一个国家的发展战略有着特殊重要的意义。因此,如何保证
在科学技术日新月异的今天,人类的发展进程正在大跨步前进。与此同时,世界范围内生产生活的举动也在随着科技的进步而加快频率。伴随着全球生产力的提升,人类的交流活动以及
随着互联网技术高速发展,网络上存在的各种文本数据与日俱增。大量冗余、不规范且内容丰富的文本为我们进行信息过滤、浏览和查询等操作带来了极大的困难。文本聚类在数据挖