论文部分内容阅读
大数据时代下数据查询趋于个性化,查询用户对查询结果集质量的要求更高,如何基于用户偏好快速的从多维数据集中筛选出用户最感兴趣的对象显得十分重要。新时代下数据呈海量多维的特征,已有多维数据查询在支持个性化查询和保证结果集质量方面存在缺陷,因此研究在新查询偏好下的多维数据查询具有十分深远的意义。已有多维数据查询基于查询对象分为单对象查询和组对象查询两类,本文重点关注动态偏好下交互式单对象查询和角色组合下组对象查询的相关问题,具体工作如下:(1)分析多维数据查询最新分支之一交互式查询可得,同一问题的迭代查询之间存在关联。但不同查询间用户偏好可能动态变化,而现有交互式查询算法默认查询间偏好固定不变,提出一种可支持动态偏好的查询处理算法IMQD;定义一种结果集质量度量方法,取值在[0,1]区间内且取值越大越优。IMQD算法通过与用户交互获取偏好阈值,然后更新结果集,使结果集质量更高,其中偏好阈值支持用户动态调整。在模拟和真实数据集上验证IMQD算法的正确性和有效性,一旦用户偏好发生变化,算法可在毫秒级内完成对结果集的自适应调整。(2)基于现有组对象查询算法因基于Skyline算子导致结果集规模不可控的现状,联系现实生活中大量最优组对象的查询场景,用户通常有获取且仅获取一个最优的组对象的需求。结合最优单对象的Top-k查询,提出了面向角色组合的定量偏好下的最优组查询问题,并提出了相应的查询处理算法——GQBRs算法。算法分三个步骤产生最终查询结果,首先依据组成员偏好确定候选集,然后基于筛选后的数据集生成候选组对象,最后GQBRs对全体候选组对象排序,返回指定规模的组对象集合。在模拟和真实数据集上验证GQBRs算法结果集规模可控。(3)归纳已有多维数据查询算法处理流程,设计了一种适用于所有已有多维数据查询的查询处理框架,并在IMQD算法和GQBRs算法上进行验证,并基于该处理框架按照数据集处理、查询偏好设定、查询处理、结果集展示四个子模块实现了原型系统。通过实验验证了原型系统支持IMQD和GQBRs算法扩展的正确性。