媒体资产系统中的数据管理 (下)

来源 :传播与制作 | 被引量 : 0次 | 上传用户:qfcywm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  (接上期)
  我频道媒资系统在前期设计阶段,结合频道节目磁带库存量,制订了媒资收录的计划——日常播出节目播出后经上载进入媒资,此外每天定量上载以前的节目入媒资。根据现存的两套非编网络(喜马拉雅专题制作网和大洋新闻网)的通用视音频采集设置(视频采集格式DV/DVCPRO,码率25Mb/s;音频采集格式WAV,48Hz,16Bit),初步按照每天上载DV(25Mb/s)素材节目12小时(部署2个媒资上载站点同时工作),则可以计算出媒资上载的存储量:
  一天存储容量=25×12×3600/8×1000×2=270GB
  一年存储容量=270G×365=100T
  对于媒资系统的在线存储,我们将高低码率的媒体文件在物理上单独规划:高码流视音频方面,我们配置了新奥特AS5000F-1磁盘阵列作为光纤末端的在线存储盘阵,其内置16块500GB的SATA-Ⅱ磁盘。它支持多种RAID模式:RAID0,1(0+1),3,5,6,10,30,50,60,NRAID和JBOD,特别是RAID6的支持,使其容错能力更强;RAID的条带化尺寸和缓存策略都可以根据需要进行调整,而且支持多种智能化处理。由于在搭建系统时已经做了RAID5(第1到第15块硬盘进行RAID5配置,第16块盘作为热备冗余)配置,所以有效存储空间约为6T左右。我们还部署了两台MDS存储管理服务器和一台NAS服务器来对在线存储进行管理、定义相关设备间的互联访问,使在线存储能够适应单网、双网等各种网络架构,针对不同的客户端布局提供相应的开放方式。前面已经计算出理论上每天媒资上载所需存储空间为270GB,所以这个空间完全可以支持一段较长时间内高码流视音频存储缓冲区的应用。
  另外,我们部署了一台流媒体服务器——RAIDSYS(建联)的AS3000N,对低码流素材和媒资流程中产生的元数据进行存储管理,该服务器盘阵也是配备了16块500GB的7200K rpm磁盘,同样进行了RAID5配置(第1到第15块硬盘进行RAID5配置,第16块盘作为热备冗余),有效存储空间也为6T左右。由于媒资系统设定的低码流文件格式为WMV,码率300kbs,所需存储空间很小,元数据的大小更是可以忽略不计,所以这台单独的流媒体存储管理服务器提供了足够低码率文件和相关元数据长期存储的空间,同时还为媒资流程中需要浏览、粗编低码流素材的节点提供相关服务。
  近线带库方面,基于对单个磁带库稳定性和安全性的要求,我们选择了HP EML 103e,带库内部结构及存储节点示意图如图1:
  带库的基础模块包括共103个磁带存储节点,加载箱的5个节点在可以移动的暗盒里,而且可被配置为载入载出节点或存储节点。图中③所示部分可以指定9个节点作为预留,预留节点常用来存放清洗带。固定可用的节点数取决于是否已达到带库的底端,因为带库的底端通常紧邻基础模块,底部限制了机械臂可以移动的距离。如果带库底端紧邻基础模块,最下面的两排(16个节点)就不可用。由于我们前期并没有进行扩容,而且考虑到放入取出磁带的日常需要,所以目前有效的磁带存储节点共有103-5=98个。
  磁带驱动器和磁带的相关技术已经非常成熟,最为业界熟知的莫过于LTO技术——线性磁带开放协议(Linear Tape Open)。作为当今数据存储业最可靠的格式之一,LTO技术通过使用薄磁性层实现了高密度存储和高输出读取数据,它结合了线性多通道双向磁带格式的优点,基于服务系统、硬件数据压缩、优化的磁道面和高效率纠错技术,以提高磁带的容量和性能。LTO具有两种存储格式:高速开放磁带格式Ultrium和快速访问开放磁带格式Accelis,定制两种格式是因为并不是所有的用户都要求相同的特性和功能性。一些应用程序强调重点在“读”,要求快速的数据访问速度。而另一些应用程序则重点在于“写”,要求最高的磁带存储能力。
  Ultrium磁带格式除了具有高可靠性的LTO技术,还具有大容量的特点。它能够单独操作,也可以在自动操作环境中使用。通过使用单卷轮介质,实现了高容量和高性能的优化,适合于备份、存储和归档应用,并将为大容量数据存储设置新的基准,以满足企业用户的需要。Accelis磁带格式则主要侧重于快速数据存储。它在磁盘中装载了双轨磁带存储器以减少存取时间,提高速度,而且能够很好地适用于自动操作环境,可处理广泛的在线数据和恢复应用。
  


  这两种格式都使用同样的头、介质磁道面、通道和服务技术,并共享许多普通的代码部分。因为广电行业内的存储用户更偏重于对存储容量的需求,所以两种格式相比较而言,Ultrium格式是更值得关注的技术。LTO Ultrium系列磁带存储容量由100GB至800GB(非压缩),并在压缩后能达到1.6TB,最大数据传输率可达120至240MB/秒。当然,Ultrium格式的优势并不仅仅在存储容量上。在数据安全性方面, Ultrlum 960和 Ultrlum 1840对重写(rewriteable),一写多读(Write-Once,Read-Many(WORM))都支持。WORM磁带因为不能擦除或覆盖,所以加强了针对数据篡改的高安全性。
  由于HP EML 103e带库可以使用Ultrlum 460 (LTO 2), Ultrlum 960 (LTO 3)和Ultrlum 1840 (LTO4)的磁带驱动器,在搭建媒资系统阶段,我们结合数据的读写带宽、速度,特别是为了保证媒资写入带库内数据的高安全性,选配了2个Ultrlum 1840 (LTO4)的磁带驱动器,并在后期购买了与之适配的LTO4的WORM磁带100盘,每盘存储容量为800GB,这样80T的总体存储容量使得我们在一个相对较长的时间内可以不用考虑带库的扩容。即便是到使用后期需要扩容,也只需增加带库的基础模块、驱动器和磁带,对系统的改动相对简单。   媒资系统数据库的元数据是保证整个系统正常运行的关键。我们将数据库安装在两台数据库服务器的共享阵列HP MSA2000盘阵上,利用集群技术实现两台服务器互为备份来管理数据库。其内置了10块146G的SAS硬盘,其中第1-2盘进行了Raid1配置,用来安装集群和数据库;第3-9盘做了Raid5配置,存放媒资流程中所产生的大量的非编工程标题信息,这些标题信息是在媒资系统和两套非编网络(喜马拉雅专题制作网和大洋新闻网)进行数据交换时的重要数据,所以也要对其进行更加安全的管理和存储,后面会结合实际流程来阐述;第10块盘作为冷备,平时无需加电。
  上述几部分的数据存储管理单元就构成了媒资系统中的数据存储管理区域(如图2所示)。硬件方面的部署只能尽可能地保证媒资系统作为一个数据仓库其本身的安全性,广电行业的网络技术发展到现在,媒资系统已经不再被定义为一个孤立版块,伴随着全台网业务流程的定义,媒资系统中的数据管理还要做到“动起来”,即把握数据流向,在相关的业务流程节点上来完善对数据的管理,软件上也要做出相应的部署,制定合适的策略。
  


  测试运行——理清业务流程,把握数据流向
  媒资系统应采用统一的工作流管理机制,一方面能大幅度提高系统工作效率,而且业务流程管理方便快捷。成熟的业务流程依附于全台网架构,利用主干系统连接各个业务子系统。主干系统提供统一的管理控制平台,集中进行用户管理、系统管理、工作流管理、编目体系管理及存储区域管理。对于运行当中的媒资系统,其数据管理应该充分考虑数据通信的不同特点:数据通信可能存在不间断的连续性,比如元数据的实时通信和数据“环路”,因为管理元数据的服务器之间需要互相通知;要区别对待元数据的“一对一”和“一对多”通信,前者的数据可以不用进入数据库,只需对其制定安全的存储和访问机制,即点对点的畅通,比如带库管理服务器和带库就是这种关系,而后者就需要部署一个共享性质的数据库,跟随定义好的流程保证数据的安全交互,比如媒资管理服务器,就需要和主干系统、媒资内部的编目、检索、转码等多个服务器进行一对多的通信;还要注意到媒体数据本身带来的管理难度。由于媒体数据较大,一旦需要迁移,除了要注意迁移的效率,还要注意数据在迁移过程中的安全性,软件上还应对文件进行必要的检查校验。此外,流媒体、网络平台、B/S等技术的利用,还可以有效地保护数据安全。
  


  由于业务流程和数据流向是依附于具体的节点定义的,其中数据的形式、存储的方式、备份的选择、管理的策略等等都是需要根据不同的情况和定义来进行规划管理,所以为了更好的阐述数据管理,在此给出一个完整具体的业务流程并对其进行数据管理的分析和讨论。前面已经介绍了我频道全台网的基本组成情况,就选取 “从新奥特专题制作网上载素材——入媒资编目存储——大洋新闻网检索下载入库”这一业务流程。图3给出了该业务流程的完整节点定义。
  在新奥特专题制作网内,上载素材后可以有两种方式入媒资:上载的素材可以直接入库;也允许对素材进行编辑,经审核后打包生成新的素材入库,也叫“标题打包入媒资”。进入审核阶段后,“审核”业务可以灵活配置,提供了多级审核机制。审核完成,提交入媒资请求,开始进行数据迁移。
  素材进入媒资系统后,按照图示的节点顺序进行。“归档”虽然属于媒资内部业务,但此时带库管理服务器已经通知带库进行由在线存储到近线存储的迁移。这里需要进行归档策略的制定,避开归档任务高峰期时可能存在的处理瓶颈。即使迁移没有完成,但“归档”任务已经完成,待“发布”后才能在媒资检索工作站的B/ S界面上进行检索。当用户选定一条素材要进行下载时,媒资系统数据库首先要进行素材所在位置的判断:如果该素材已被写入带库磁带,则进行“回迁”任务,由带库迁移至媒资在线存储;如果该素材并没有被写入磁带,本来就位于在线存储,则直接由迁移服务器将其迁移至大洋新闻网的存储体,同时完成相关元数据的登记数据库操作。“转码”为下载业务提供片段下载、并将其转码为系统预先配置好的低码率视音频文件格式。
  根据业务流程,我们就可以得到与之整个过程完全对应的所有的数据流向(图4所示),这也是进行数据管理的重要依据。图中的每一次元数据通信,每一次媒体数据的迁移,都需要对数据进行管理规划,这个过程不仅需要相关的硬件部署,更需要所
  依附的软件平台来进行数据操作,可以说每一个步骤都是实施数据管理工作的实例。
  新奥特工作站上载素材时,为了应对媒资系统的数据需要,我们也对专题制作网的存储设备进行了分级存储规划。采集的标准视音频媒体文件(DV/ DVCPRO,码率25Mbps)从工作站本地硬盘上拷贝到制作网的存储体EMC CX 700盘塔中的高码率文件存储目录下,同时根据系统预置的低码率文件采集格式设定(WMV,码率300kbs)采集与高码率文件对应的低码率文件,存储在EMC CX 700盘塔中专门规划出的低码率文件存储目录下。在此过程中工作站还产生与之对应的元数据文件(META文件,记录用户信息、素材信息、存储路径等,是新奥特公司非编网络自定义的元数据封装格式)记录入制作网数据库;如需对素材进行编辑,当编辑完成后用户提交打包任务,数据库服务器会通知打包服务器进行打包操作,将时间线上的成片生成新素材。打包过程类似于采集,也有两种高低码率两种媒体数据输出格式,高码率文件存储在EMC CX 700中指定的“打包素材”目录下的高码率文件目录,低码率文件则存储在指定的“打包素材”目录下的低码率文件目录。同样打包结束后会有新元数据记录在数据库中,为传输入媒资作准备。这种分级存储不仅可以提供清晰的存储管理模式,更重要的功能就是便于各种数据的交互和迁移,明确了数据迁移的相关位置,一定程度上降低了数据管理的复杂性。   用户在新奥特专题制作网中提交入媒资请求,此时主干数据库服务器与专题制作网数据库服务器进行通讯获取元数据,并将其封装成XML格式——之所以选取这种元数据格式,是因为单个版块自定义的元数据格式并不具备通用性(如上面提到的META文件),目前系统互联元数据基本都是基于XML的,统一采用这种格式会更适合在全台网多个版块之间进行数据交互,从而简化数据、提高效率。随后主干数据库服务器通知媒资管理服务器,完成对该素材元数据登记入媒资数据库的操作。在这一过程中,媒资数据库服务器会对接收到的元数据进行“查重”分析,如果接受到的元数据所指向的素材或者标题已经在媒资数据库中存在,为了避免数据的重复写入和重复迁移,则不执行该迁移任务,并在用户界面弹出“该对象已存在”提示。元数据确定后,主干通知迁移服务器并提交迁移任务,根据元数据的内容将元数据和媒体数据文件一起迁移至媒资系统。值得一提的是,迁移过程中服务器会对媒体文件进行MD5校验,虽然执行时间较长,但保证了文件的数据完整性和正确性,提供了更为安全的数据管理模式。
  迁移完成后数据进入媒资系统。高码率媒体数据文件存入媒资在线存储体中,相应的低码率文件存入流媒体存储管理服务器中,元数据文件写入媒资数据库服务器。通过编目工作站生成的编目信息成为非数据库元数据文件存入流媒体存储管理服务器的指定元数据存储目录下,与低码率文件并行存储、单独管理。另外编目过程中编目软件会通知流媒体管理服务器来调用低码文件预览等功能,并不是直接对媒体数据本身进行操作,这也在一定程度上保护了媒体文件的安全性;同时支持二次编目,即使编目流程已经执行完成,还可以申请二次编目操作,系统会记录新产生的编目元数据。
  


  编目过后用户提交任务,进入归档阶段。在归档时需要制定合适的归档策略,除了需要考虑归档中心的吞吐效率之外,还要认识到由于媒资管理服务器担负着编目、转码等流程的管理,还有与相关服务器进行元数据通讯等功能,所以还要制定策略时还要考虑媒资管理服务器自身的数据负荷问题,此外还要保证在线存储有足够的空间。我们将归档策略配置如下(图5所示)。
  


  媒资管理服务器根据设定的存储迁移策略,通知带库管理服务器对带库进行写操作,将媒体数据从在线盘阵迁入数据流磁带库中。素材入媒资流程完成。
  大洋新闻网中的用户登录通过媒资系统Web应用服务器检索并下载素材,根据媒体文件重新利用的使用需求,媒资管理服务器首先进行元数据查询,判断该素材是在在线存储还是在磁带库中,如果在在线存储中,直接从在线存储迁出;如果在带库磁带上,就对带库自己的数据库进行查询,找到对应的磁带,执行回迁任务,将媒体数据从磁带中迁移至在线存储中。其次媒资管理服务器还要与检索工作站进行通信,判断用户是否进行打点下载(即片段下载),获取相关数据信息(片段入出点)通知转码服务器对该片段进行转码,重新生成符合用户需求的媒体数据。
  此时媒资系统将等待迁移至大洋新闻网的素材的元数据文件封装成XML格式,通知大洋数据库服务器,同时通知主干服务器有数据需要迁移。主干服务器再通知迁移服务器,根据XML文件中指向的存储位置将媒体数据迁移到大洋新闻网中的EMC CX480存储体中,该迁移过程同样进行MD5校验。迁移完成后,大洋新闻网数据库获取元数据,通过导入的方式重新生成元数据并写入数据库中,完成该素材在新闻网中的登记入库。如图中所示的那样,大洋新闻网的在线存储体为两台EMC CX480,进行了“双读双写”的配置,实现了媒体数据文件的物理上双重备份,大大提高了数据管理的安全性。
  为了更好的进行媒资系统的数据管理,结合行业内一些先进的技术和经验,也出现了许多新的方法和尝试,包括提升数据存储的安全等级,以及越来越被广泛采用的“编目前移”。
  媒体文件在数据流磁带中,即可在非加电的情况下实现长期可靠保存。但是数据流磁带也会因为可能的空气粉尘污染、偶发的磁带驱动器物理故障(绞带等)甚至是外力挤压破损等自然因素造成数据丢失,为避免这些偶然因素对媒体数据带来的存储风险,对近线数据流存储也提供了存储自动双备份、数据流磁带手工克隆、重要对象多实例存储几种安全性措施。其中存储自动双备份是指,可以设定近线双备份存储资料组,当系统对这些媒体资料进行分级存储迁移的时候,自动将一个媒体文件同时存储在两盒数据流磁带中,在存储迁移完成后,只要任何一盒包含相关文件的数据流磁带可用,都可将该媒体数据的完整迁移回在线磁盘供进一步使用。实际应用中从来没有发生过两份数据流磁带同时不能使用的情况,这就保证了双备份资料存储的绝对安全。当系统中需要双备份存储的资料比例不是特别多的情况下,为相对节省存储成本,带库管理软件还可以提供指定数据流磁带的手工“克隆”功能,该功能可对指定的重要数据流磁带创建一份完全相同的“克隆”磁带,从而实现该部分资料的存储安全。此外,由于资料的重要性不一定在归档时完全明确,某些情况下用户很难决定哪些数据流磁带需要完整克隆,或者完整克隆的成本较大,这时媒资系统还可以提供重要对象多实例存储的功能:由用户手工指定某些重要媒体数据需要“多实例”存储,系统会自动将这些媒体数据复制到多份数据流磁带中,只要任何一个包含该媒体数据的数据流磁带可用,系统都能将其安全迁移回硬盘供后续使用。这样既可实现以前未双备份素材的安全存储,又避免了非重要素材的过多存储投入。
  对于系统中存储的低码流、关键帧和媒体数据的附件信息来说,由于其数据量相对比较庞大,一般这些数据是不进入数据库存储的,数据库备份还原措施无法实现对这些数据存储安全的有效保护,所以在客观上要求实现目录备份和分级存储同步关键帧/低码流功能。目录备份功能是通过在归档中心设置备份数据流磁带,指定需备份的目录文件夹的形式,创建系统的目录备份任务。带库管理软件应该制定相关策略,每天定时将指定目录中的新增文件备份到数据流磁带中,在任何需要将数据重新写回硬盘的时候,都可将指定目录的文件完整恢复到管理服务器的硬盘上,从而保证数据库外存储的关键数据的安全性。媒资系统的核心功能是提供对媒体文件的分级存储,扩展系统存储空间,其对媒体数据的存储管理是基于媒体对象的,这就意味着媒体数据不是一个个孤立的文件,而是包含了所有相关文件信息的一个媒体对象集合,在此基础上归档中心提供了对关键帧/低码流文件的另外一种附加安全保障,即在进行媒体文件从在线存储(硬盘)向近线存储(数据流磁带机/数据流磁带库)迁移存储的同时,可同步进行关键帧/低码流文件的拷贝存储。这样只要数据流磁带没有损坏,媒体数据包含的所有文件都可以通过归档中心从数据流磁带回迁到硬盘/服务器中供用户使用。
  随着网络化建设的深入和资料数量的爆炸性增长,编目信息主要在媒资内部依赖人工编目的工作模式越来越不能适应实际需要,编目前移的概念被越来越多付诸实施。完整有效的实现编目前移需要多系统的配合,比如在制作版块内,就可以实现第一手资料的一次编目,开发专门的元数据来记录素材信息、场记、同期声、文联稿件等,规范入库交换元数据的结构。制作版块忠实记录所有引用关系,在提交媒资入库时,媒资系统会对元数据进行有效的继承,重点包括三个层面的内容:素材引用切点信息,素材原始初级编目信息以及与切点相关的素材场记、同期声的制作等元数据信息。入库接收后,在媒资系统内对接收元数据的人工审核和修改完善,同时使用自动化的辅助编目手段减轻人工编目的压力,补充关联信息。最后在用户检索使用时对各类元数据和资料之间的关联信息进行全面的展现,帮助用户更快的找到所需资源。
  (全文完)
  参考资料:
  1. 大洋iMAM媒资系统存储安全操作指导书
  2. 进阶媒资系统设计
其他文献
报道1例以反复上腹部疼痛为主要表现而多次被误诊的成人女性患者,后完善检查示阑尾-盲肠型肠套叠及阑尾囊性病变而行外科手术治疗,术后病理证实为罕见的阑尾黏液性囊腺瘤。
随着教育事业的不断发展,核心素养作为一个新兴词汇走进教师的视野,它的出现引发了教育者们深刻的思考。并且语文学科是语言学习不可或缺的一部分,小学语文核心素养培养策略
目的:针对强迫症患者开展认知行为护理干预对改善病情的效果进行探讨。方法:以2018年10月-2020年10月作为研究时间,将120例强迫症患者遵从随机数字表法分为参照组与实验组,各
【正】AJ-PX800MC定位在经济实用及强大的IT功能。适应面向未来变化的需求,具备IT化连接的能力,可以通过无线、USB、有线连接到PC/Mac/iPhone/iPad等外部设备,设置TC/UB,实现
城市化与生态环境间存在着相互胁迫和耦合的关系,如何使得城市化与生态环境协调发展是影响可持续发展的重要议题。基于城市化与生态环境交互耦合特征,构建了城市化与生态环境
在南京市中心的高层建筑物顶部连续三年逐月采集了大气降尘样品,通过磁化率、饱和等温剩磁、热磁曲线和磁滞回线等环境磁学参数的测量,揭示出降尘物质的磁学特征并探讨其制约
作为全球领先的全媒体解决方案提供商,大洋在CCBN2012展会上不仅展示了云计算与新媒体领域的新成果,同时还准确把握行业热点,为参展嘉宾带来了S3D演播室系统、非线性编辑系统与
本文首先分析现有气象节目中图表信息的制作和应用的现状,并提出了制作复杂和包装简单等方面的问题。通过阐述Morpho3D系统在自动数据链接和三维图形渲染方面的强大功能,来详细说明利用该系统的特点和优势实现气象图表产品的制作能力。最后,重点分析基于该系统在研发和制作气象图表产品的技术难点,介绍图表所表示的输入数据的格式转换以及表现形式的图形模板、设计思路和方法。
<正>从2009年ARRI在IBC展会上发布ALEXA至今,短短三年间,ALEXA已经被广泛应用。当在他概念设计之初,就已对影视行业产生了革命性的影响,他不仅仅具有简易的工作流程和卓越的
在社会经济快速发展中,建筑结构设计要求不断提高。建筑设计人员在房屋设计期间,应将住宅功能当做基础,全面挖掘建筑功能,提升建筑和结构融合度,创新建筑结构设计。因此,本文