论文部分内容阅读
在信息时代,数据库的优势越来越凸显,各类数据库的建立成为各大机构不约而同的选择。数据库本身是一个空壳,必须对其进行填充才能实现其功能,因此对信息的规模化采集不可避免。工程新闻信息库的数据填充需要对所有的纸质、电子、网络等类型的工程新闻信息进行规模化的采集。工程新闻信息规模化的采集工作在网络环境下显得尤为复杂,网络信息的海量性,无序化以及其他各类噪音的干扰,加之采集人员本身的差异,都会增加采集的难度。本文旨在归纳出规模化采集工作中涉及的理论、原则,针对不同类型的工程新闻,采用不同的采集工具、采集方法、采集重点及采集技巧。采集工作包括了工程新闻信息的收集、数字化、标准化录入、质量控制等。在采集环节中,标准化与质量控制是比较关键也是比较困难的一环,本文认为用元素据实现信息的标准化处理是有效的,分析了影响采集质量的因素与解决方法,并以三峡工程新闻信息报道的规模化采集为例,系统地论证了该信息采集与质量控制方法的可行性与有效性,为以后其他类型的资料采集提供借鉴意义。