大数据多维建模分析平台的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:json03
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据多维分析平台旨在从多个角度、多个侧面观察和挖掘海量数据,经过专业的整合与分析,最后输出可视化数据或图表,帮助分析师和企业用户深入了解包含在数据中的信息和内涵。面对数据量和分析需求的爆发式增长,本文采用MOLAP(Multidimensional OLAP)的预计算技术突破传统ROLAP(Relational OLAP)平台的性能瓶颈,但其应用却存在以下问题与挑战:1)在预计算技术的应用中,多维数据模型的构建和优化过度依赖数据专家,当数据规模不断增加、数据分析需求频繁变化时,这种手动建模的方式会耗费大量人力;2)传统的多维模型优化算法存在由于评价指标单一(仅评价物化时间,过度追求物化视图的查询命中率)导致的超高维度时的维度灾难问题、以及物化视图集频繁抖动的问题;3)MOLAP由于查询场景固化,必须应用在混合引擎的系统中,然而在基于混合引擎的系统中,ROLAP和MOLAP引擎各有所长,系统难以在二者之间做出快速、合理的选择,亟需一种多维模型索引对查询路由提供支持。针对以上问题和需求,本文对大数据多维分析、预计算和多维数据索引等技术进行了深入的研究和分析,主要研究内容如下:(1)研究并实现了多维数据模型的自动构建及持续优化技术。通过分析历史查询任务提取元数据,在后台自动学习沉淀数据间的关联知识、构建数据表关联视图,以此为基础设计多维数据模型并进行物化,打通“原始数据—预计算—数据分析”的路径,并在多维数据模型使用的全生命周期对其进行监控和优化,使MOLAP的使用更加便捷化、智能化。(2)提出并实现了基于带权图的多维大数据模型优化算法。算法引入了新的评价指标:平均查询时延和膨胀率,有效权衡了查询性能和存储空间,解决维度灾难的隐患。并通过挖掘维度之间存在的关联信息划分聚合组,使数据模型适应探索式分析的需求,减少物化视图集的频繁抖动。(3)研究并实现了基于混合引擎的多维数据查询技术。提出了一种基于Cube生成树的Bitmap索引,并给出这种Bitmap索引的检索方法和整体查询路由策略,用于解决查询引擎的选择问题。这种Bitmap索引契合多维数据模型的结构,并且占用空间小、位运算速度快,为混合引擎的查询路由提供了一种高效的索引解决方案。最后,基于以上三方面的研究设计并实现了大数据多维建模分析平台,应用于国家重点研发计划项目“基于大数据的科技咨询技术与服务平台研发”中,验证了本文平台及方法的有效性及实用性。
其他文献
近日,安徽、内蒙古等地农业全产业链标准化试点陆续启动,这是对2021年4月农业农村部开展现代农业全产业链标准化试点工作的进一步推进和落实,标志着农业产业转型升级步伐加快.rn2021年以来,众多重磅政策和文件都强调,要加快健全现代农业全产业链标准体系,提升产业价值,让农民更多分享产业增值收益.专家对此表示,要聚焦短板弱项,通过多方面政策发力,提高农业产业链的经济效率,不断提升国家经济发展质量.
2021年11月,肉鸡鸡苗价格快速上涨,肉鸡养殖企业扭亏为盈.但是多位业内人士均表示,养殖端盈利或难持续,明年鸡苗、肉鸡价格下滑仍将继续,行业应加快去产能速度.值得关注的是,肉鸡行业的头部企业仍在逆势扩大产能,按照这样的扩产节奏,肉鸡市场恐难逃下行风险.
受疫情影响,去年对于食品行业来说是灰暗的一年.不过,由于疫情防控到位,今年各行各业都步入了正常发展的轨道.今年是“十四五”开局之年,也是我国全面建成小康社会,踏上向第二个百年奋斗目标进军新征程的一年,所以,全国上下、各行各业都开始恢复常态、回归初心,为了新目标而努力奋斗.
搭载麦德龙超市,Tim Hortons中国(以下简称“Tims咖啡”)正寻求场景突破.近日,Tims咖啡与麦德龙中国合作后的首批门店已经开业,以店型较小的Tims Go捷枫店模式入驻在麦德龙超市内.据记者了解,至2022年1月,双方计划在成都、大连、青岛、南京、廊坊和上海6个城市的麦德龙超市开设至少9家门店.从选址来看,Tims咖啡这类门店的目标客群是在麦德龙门店日常购物的消费群体.虽然Tims咖啡搭载超市拓展销售渠道,有助于企业节约空间和成本,提高坪效,不过,如何与细分客群以及场景相融合且碰出火花还有待
2020年11月,仲景食品以39.74元/股价格首发上市,首日股价飙至120.8元/股,随后同年11月30日,股价达到目前峰值126.75元/股.时隔一年,仲景食品2021年11月30日的收盘价为49.88元/股,股价与去年同期相比下滑60.6%,市值也由上市之初的120亿元降至50亿元左右.
期刊
老乡鸡似乎又在为上市讲“新故事”.记者近期走访时发现,老乡鸡在新荟城望京店开设了北京首家农场旗舰店,新增烧鸟、精酿、咖啡、奶茶等品类.此前,老乡鸡不同模式场景的门店已在上海、深圳试水.分析认为,老乡鸡在一线城市做出场景布局是希望匹配该市场需求,同时也可能是在为上市做准备.作为一家正在准备上市的企业,老乡鸡仅依靠单一的快餐品类难以兼得利润与流水,而这两者对于企业上市来说都至关重要.
期刊
2018年开出第一家店的蔡澜港式点心,仅用3年多的时间就相继开拓了华南、华北市场,目前已经进入这两个区域的7大城市,成为多个城市早茶品类的人气品牌.2021年,广州老字号品牌陶陶居在北京开出第一家店,从试营业开始便大排长队.随着陶陶居和蔡澜港式点心等在各地走红,是否意味着早茶品类有了全国化发展的趋势?早茶品类的风口要来了吗?
被越秀集团接手重组一年后,昔日乳业老品牌辉山“重新起跑”.12月6日,越秀集团举行了辽宁越秀辉山控股股份有限公司(以下简称“越秀辉山”)的成立仪式,这也是越秀集团重组辉山乳业一周年的关键节点.在成立仪式上,越秀辉山方面宣布,将以2025年实现销售收入超百亿为目标,其中奶粉业务规模力争超过20亿元.
期刊
在上海高调开设门店后,COSTCO一度成为业界关注的焦点,也让大家看到了会员店的潜力.近期发生的家乐福会员店“二选一”风波背后,其实也是一场会员店供应商争夺大战,会员店正成为零售商们的“必争之地”.rn2021年11月25日,COSTCO宣布12月8日在苏州新开门店;麦德龙表示将全面改造升级会员店,调整C端客户战略并大减SKU;麾下拥有山姆会员店的沃尔玛更是不甘示弱,宣布付费会员数量达到400万,未来将持续扩张;开业首日受到打击的家乐福会员店则快速调整商品品类,发力自有品牌业务.一时间,会员店市场硝烟弥漫
期刊
随着经济的高速发展,我国与国际社会的接轨越来越紧密,国内的文化产业得到了充分的发展,产生了大量高活跃度的线上新闻媒体,线上的新闻文本数据量也逐年增长,而且逐渐呈现出主观化多元化的趋势,这使新闻文本的情感倾向分析,尤其是正负面新闻的识别变得越来越火热。为了帮助人们对新闻文本进行更好的了解与分析,本文运用了自然语言处理的最新技术,提出用了一种分析新闻文本正负面情感倾向的新模型,主要研究的内容如下:(1