论文部分内容阅读
上证所利用数据仓库促进证券参与人更全面、及时地了解市场,并按市场需求开发成系列信息产品。
上证所数据仓库项目为上证所信息经营提供全面的数据资源,实现深度监管、支持产品创新和服务信息经营三大目标。
沉迷于股市的同事小张最近特爽,因为他在股市最近可谓一路顺,一次聊天得知他在用新版的Level-2行情炒股。“Level-2行情提供许多有用的东西,详细帮助我分析股市走向。”小张告诉记者。什么是Level-2行情?它是上海证券交易所(上证所)8月1日刚刚推出并投入商业运行的新版股票行情。新版的Level-2行情并不是取代上证所已供给市场的即时行情(Show 2003),而是为不同类型的投资者提供差异化服务。也就是说,之前无论是大户还是散户都在用同样的免费交易系统,在系统上获取的交易信息几无二致,但新版的Level-2行情将会给交钱的会员以更多的信息。而这一点对于股市的投资者来说,无疑平添了获利的筹码。
搭建数据仓库
Level-2行情在现有的行情基础上设计新的增值内容,由信息服务商进行再加工,并将其他信息源与之融合而成。在信息内容上,Level-2行情有显著提升,包括从提供五个价位上的委托量增加到十个价位,加权平均委买/委卖价格实时显示,逐笔成交明细从无到有,刷新频率明显加快,由6秒刷新提升到3秒刷新,最佳买卖价位上前50笔分笔委托量及动态成交笔数的提供等。这些内容在很大程度上丰富了交易行情的信息空白,满足了股市投资者差异化信息需求。此外,Level-2行情还具备国际标准的数据接口、数据重发保障机制、信息安全保障等众多优势。
Level-2行情可以说是股市投资者的一大福音,不过,为开发这个系统,上证所早在2000年就开始准备了。2002年10月,上证所启动数据仓库工程。上海证券交易所总经理助理、总工程师,新信息项目组组长白硕说,交易所中最值钱的是数据,就像源代码对微软、保密配方对可口可乐的重要,交易所的数据也是交易所的核心价值所在。数据不仅涉及到几千万股民的利益,还涉及到上千家企业的利益,更是整个宏观经济的一个微观层面的展现。上证所希望通过数据仓库及数据挖掘平台的建设,提升交易所的信息化水平,有效地提高决策支持水平、市场监管水平和服务水平,促进证券市场产品创新,并更好地服务于证券信息产品的所有相关环节。作为上证所三大重要项目之一,数据仓库起着承上启下的作用,与新一代交易系统、消息总线、新网站等共同构成未来交易所的IT基础架构。白硕说,2002年中期,上证所开始进行严格的性能测试和专家评审。性能测试可以看作是整个项目实施过程的预演(概念验证)。本次测试数据量是国内同类测试中数据量最大的一次。通过这次测试,将来在系统建设、生产过程中可能遇到的问题(包括技术层面、实施过程)大部分得到了验证,降低了将来项目的实施风险。最终,上证所采用了NCR Teradata的海量并行处理技术和数据仓库实施方法论。
上证所抽调精兵强将组成项目组,制定了项目管理、文档规范、安全保密、变更控制、汇报制度等,专门设立项目管理委员会,所有重大事项均通过管理委员会进行决策。根据项目内容,划分了介质、数据分析、加载、应用等多条主线。全部实施过程经过了信息调查分析、业务需求分析、逻辑数据模型设计、体系结构设计、物理数据库设计、ETL设计开发、历史数据加载、备份、业务应用设计开发、系统测试、验收移交、用户培训及知识转移等各个环节。
在科学的逻辑数据模型基础上,上证所通过恢复历史备份的数千张光盘和磁带,完成了1990年至2003年这13年交易历史数据的整合与存储。通过对多个交易相关业务子系统的处理,完成了交易相关上市公司、会员、基金、债券、指数、板块、统计数据等信息的整合。通过设计对非结构化数据的整合方案,完成了交易所7大业务部门长期积累的数百万页非结构化文档信息的存储,并且通过建立数据自动加载机制,完成了对于以后日常业务增量信息的自动加载处理。数据仓库项目完成了上证所基本信息平台的搭建。通过集中、统一的数据中心对所有结构化信息和非结构化信息的整合机制,最大程度地保证了上证所自建所以来所积累的全部历史信息,以及以后新增的所有有价值数据的完整性和可用性。这为未来数据深度挖掘分析、信息经营提供了数据来源。
数据深耕与深度应用
上证所数据仓库一期完成了对历史数据的翻录、清洗和加载。利用这些数据,上证所实现了一些最亟需的应用。但是从长期发展来说,上证所需要对数据深度分析,从而实现业务创新。白硕说,数据仓库二期工程在此目标下开始了,之所以分期进行,上证所希望分步实施,“沿途下蛋”,逐步实现成果的释放,同时减少项目风险。
2004年12月,上证所启动数据仓库二期,2005年12月基本完成。从管理角度看,二期建设实际上整合了很多系统各自的建设布局,结束了之前缺乏全局性的无序建设局面。全局数据的关联,将基础性数据工作与增值性工作做出了一个恰当的分工。白硕说,数据仓库二期实现跨系统互联、跨部门共享和跨应用互联,将原来分属的分立技术整合为跨系统的集成。如果各个部门分别在不同的部门进行数据管理的话,会造成总体数据共享的障碍。数据仓库二期的建设帮助上证所实现了跨部门数据的共享。如果每个应用只属于某一小部分数据,那么它所发挥的潜力就会深受限制,而通过数据仓库这个纽带,数据得以集中,原来分属于不同应用的数据,被关联起来。
上证所利用数据仓库强大的海量数据处理能力和计算统计能力,促进证券市场参与人更全面、更及时地了解市场,将其存储的高质量的信息资源按市场需求开发成系列信息产品。Level-2行情正是基于数据仓库的应用之一。
上证所数据仓库项目为上证所信息经营提供全面的数据资源,实现深度监管、支持产品创新和服务信息经营三大目标。
沉迷于股市的同事小张最近特爽,因为他在股市最近可谓一路顺,一次聊天得知他在用新版的Level-2行情炒股。“Level-2行情提供许多有用的东西,详细帮助我分析股市走向。”小张告诉记者。什么是Level-2行情?它是上海证券交易所(上证所)8月1日刚刚推出并投入商业运行的新版股票行情。新版的Level-2行情并不是取代上证所已供给市场的即时行情(Show 2003),而是为不同类型的投资者提供差异化服务。也就是说,之前无论是大户还是散户都在用同样的免费交易系统,在系统上获取的交易信息几无二致,但新版的Level-2行情将会给交钱的会员以更多的信息。而这一点对于股市的投资者来说,无疑平添了获利的筹码。
搭建数据仓库
Level-2行情在现有的行情基础上设计新的增值内容,由信息服务商进行再加工,并将其他信息源与之融合而成。在信息内容上,Level-2行情有显著提升,包括从提供五个价位上的委托量增加到十个价位,加权平均委买/委卖价格实时显示,逐笔成交明细从无到有,刷新频率明显加快,由6秒刷新提升到3秒刷新,最佳买卖价位上前50笔分笔委托量及动态成交笔数的提供等。这些内容在很大程度上丰富了交易行情的信息空白,满足了股市投资者差异化信息需求。此外,Level-2行情还具备国际标准的数据接口、数据重发保障机制、信息安全保障等众多优势。
Level-2行情可以说是股市投资者的一大福音,不过,为开发这个系统,上证所早在2000年就开始准备了。2002年10月,上证所启动数据仓库工程。上海证券交易所总经理助理、总工程师,新信息项目组组长白硕说,交易所中最值钱的是数据,就像源代码对微软、保密配方对可口可乐的重要,交易所的数据也是交易所的核心价值所在。数据不仅涉及到几千万股民的利益,还涉及到上千家企业的利益,更是整个宏观经济的一个微观层面的展现。上证所希望通过数据仓库及数据挖掘平台的建设,提升交易所的信息化水平,有效地提高决策支持水平、市场监管水平和服务水平,促进证券市场产品创新,并更好地服务于证券信息产品的所有相关环节。作为上证所三大重要项目之一,数据仓库起着承上启下的作用,与新一代交易系统、消息总线、新网站等共同构成未来交易所的IT基础架构。白硕说,2002年中期,上证所开始进行严格的性能测试和专家评审。性能测试可以看作是整个项目实施过程的预演(概念验证)。本次测试数据量是国内同类测试中数据量最大的一次。通过这次测试,将来在系统建设、生产过程中可能遇到的问题(包括技术层面、实施过程)大部分得到了验证,降低了将来项目的实施风险。最终,上证所采用了NCR Teradata的海量并行处理技术和数据仓库实施方法论。
上证所抽调精兵强将组成项目组,制定了项目管理、文档规范、安全保密、变更控制、汇报制度等,专门设立项目管理委员会,所有重大事项均通过管理委员会进行决策。根据项目内容,划分了介质、数据分析、加载、应用等多条主线。全部实施过程经过了信息调查分析、业务需求分析、逻辑数据模型设计、体系结构设计、物理数据库设计、ETL设计开发、历史数据加载、备份、业务应用设计开发、系统测试、验收移交、用户培训及知识转移等各个环节。
在科学的逻辑数据模型基础上,上证所通过恢复历史备份的数千张光盘和磁带,完成了1990年至2003年这13年交易历史数据的整合与存储。通过对多个交易相关业务子系统的处理,完成了交易相关上市公司、会员、基金、债券、指数、板块、统计数据等信息的整合。通过设计对非结构化数据的整合方案,完成了交易所7大业务部门长期积累的数百万页非结构化文档信息的存储,并且通过建立数据自动加载机制,完成了对于以后日常业务增量信息的自动加载处理。数据仓库项目完成了上证所基本信息平台的搭建。通过集中、统一的数据中心对所有结构化信息和非结构化信息的整合机制,最大程度地保证了上证所自建所以来所积累的全部历史信息,以及以后新增的所有有价值数据的完整性和可用性。这为未来数据深度挖掘分析、信息经营提供了数据来源。
数据深耕与深度应用
上证所数据仓库一期完成了对历史数据的翻录、清洗和加载。利用这些数据,上证所实现了一些最亟需的应用。但是从长期发展来说,上证所需要对数据深度分析,从而实现业务创新。白硕说,数据仓库二期工程在此目标下开始了,之所以分期进行,上证所希望分步实施,“沿途下蛋”,逐步实现成果的释放,同时减少项目风险。
2004年12月,上证所启动数据仓库二期,2005年12月基本完成。从管理角度看,二期建设实际上整合了很多系统各自的建设布局,结束了之前缺乏全局性的无序建设局面。全局数据的关联,将基础性数据工作与增值性工作做出了一个恰当的分工。白硕说,数据仓库二期实现跨系统互联、跨部门共享和跨应用互联,将原来分属的分立技术整合为跨系统的集成。如果各个部门分别在不同的部门进行数据管理的话,会造成总体数据共享的障碍。数据仓库二期的建设帮助上证所实现了跨部门数据的共享。如果每个应用只属于某一小部分数据,那么它所发挥的潜力就会深受限制,而通过数据仓库这个纽带,数据得以集中,原来分属于不同应用的数据,被关联起来。
上证所利用数据仓库强大的海量数据处理能力和计算统计能力,促进证券市场参与人更全面、更及时地了解市场,将其存储的高质量的信息资源按市场需求开发成系列信息产品。Level-2行情正是基于数据仓库的应用之一。