面向海量数据库的数据流统计研究与实现

被引量 : 0次 | 上传用户:dancy_y
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展,海量数据库应用越来越普遍。数据流技术在数据库领域已经获得了广泛的研究,许多文章提出了优秀的算法和产品,数据流成为一种成熟的数据库模型。数据库加载数据具有连续、快速、随时间变化等一系列数据流特点,可以利用数据流模型对其进行处理。本文从入库之前的数据处理出发,通过研究数据流统计技术,提出了一个数据流统计服务的体系结构,实现了对加载数据流的信息统计处理。本文的应用环境是一个海量统计应用数据库,针对这个特点,本文还实现了对加载数据流中异常数据的统计处理,不仅对数据流中的异常数据进行统计,还保证异常统计结果能够及时更新到统计库中,使数据库后续处理结果与数据库中的数据记录保持一致。同时,为了使添加统计服务之后的加载服务满足性能的需求,减轻后续查询服务的压力,还针对数据流中存在的大量重复数据,提出并实现了一个基于短文本数据库的高效去重方法。本文的末尾对统计服务进行了测试,验证了统计服务工作的正确性。利用数据流统计结果维护语义缓存作为数据流统计服务的具体应用实例是本文研究的重点。数据流统计应用于语义缓存维护,能够降低聚集查询语句的响应时间,实现了处理压力从查询服务器转移到加载服务器,能够提高系统的整体性能和稳定性。本文主要贡献:1.提出了一个面向海量数据库加载的数据流统计服务的体系结构,该统计服务能在对加载过程影响极小的情况下高效率的完成统计;2.实现了对异常数据流的统计方法。通过采取多数据流的处理方法,在正常数据流滑动窗口之外还维护了一个异常数据流滑动窗口,动态分配基本窗口完成了异常数据的统计,并实现了将延迟数小时数据的统计结果合并更新到统计库中和查询结果中;3.研究了语义缓存维护,通过统计结果和语义缓存技术结合起来,提出了一种解决语义缓存维护性能的方法。通过将查询数据库服务器的压力转移到加载过程,提高了系统的整体性能和稳定性;4.研究了数据清洗技术,针对短文本重复数据产生的特点,提出了一个面向海量短文本数据库的高效去重方法。降低了数据规模,提升了数据库后续处理的性能。根据文中提到的技术,我们在大规模事务处理中间件StarTPMonitor上实现了一个面向海量加载的数据流统计服务。该服务通过统计将统计的摘要信息和语义缓存相结合,实现了语义缓存维护性能的提高,使系统整体查询性能得到大幅提升。
其他文献
情绪劳动(emotional labor),指员工为了组织目标,而调整情绪感受与情绪表现的历程。情绪劳动是近二三十年来西方组织行为学一个新兴的研究领域,目前业已引起我国学者的研究兴
介绍用乙醇作为添加剂,加入到硝酸锰溶液中;研究了混合溶液的粘度、表面张力和热分解行为,考察其分解产物的晶型;结果表明:乙醇能降低硝酸锰溶液的表面张力和热分解温度,但溶
本文从世博中心太阳能光伏发电系统的工程设计规模、设计特点、主要技术经济指标、BIPV平面设计、输变电系统及设备布置、并网控制系统设计及太阳电池阵列防雷系统接地设计等
<正>棉花早衰指棉花提前衰亡或北方棉区棉花不能充分利用生产季节、光热资源过早死亡的现象。山东省是我国的传统棉花产区,近年来由于地力下降等原因棉花早衰现象日趋严重。
中国在推行改革开放政策后,社会的宏观结构经历了巨大的历史变迁。随着近年来改革的不断深化,政治民主化和法治化的不断推进,国家与社会关系的转型进入了关键时期,在从传统社
研究背景:创伤性脑水肿是颅脑创伤后最重要的继发性病理生理反应,其产生的机械压迫引起和加重颅内压升高,甚至引起脑移位和脑疝,是导致死亡和致残的主要原因之一。因而对创伤
研究背景:目前中医药治疗银屑病不仅获得了较好的疗效,而且在提高患者生存质量方面显示出一定的优势,但由于目前普遍采用西医疗效评定标准去评价中医药的疗效,因中西医两个医
中国园林动物历史悠久,与园林建筑、山水花木水乳交融,兴衰与共,构成了独具民族特色的中国山水园林景观。探索古代园林动物的发展变化及其与中国园林相互依存,共同繁荣的发展
目的急性咽炎含片组方来源于多年喉科临床经验专家的经验方,具有清热解毒,化痰利咽,滋阴润燥,生津散结之功,在临床上证明对急性咽炎具良好的疗效。本研究拟用现代提取工艺和
城市社区管理模式的创建出现于20世纪50年代。众多国外学者在社区管理模式研究方面做了很多有益的尝试。目前,我国也已进入了典型社区模式的推广阶段,但是对于城市社区管理究