论文部分内容阅读
专家信息资源由于规模巨大从而在收集过程中存在冗余度高、可信度低且信息描述方式不一致等问题,结果准确性难以保证。因此有效的数据清洗技术成为必须。而清洗中的规范与之后的融合是决定专家信息能否实用的关键步骤。所以如何进行专家信息的规范化与有效融合是本论文的研究重点。针对专家成果类别信息的不规范问题,论文研究传统的数据清洗算法,在此基础上,提出了一种基于特征的数据标准化方法(Feature based Data Standardization,简称FDS)。该方法通过训练集总结出专家成果类别的数据特点,计算出各数据项的特征权值,从而识别出各数据项对应的数据状态,按照需求决定各数据项的排列顺序。分析与实验结果表明,当数据规模较大时,该算法在对识别精度影响非常小的情况下,在时间消耗方面优于现有的算法。针对专家属性值冗余与可信度较低的问题,论文提出了一种基于粒计算的信息自动融合算法(Granular Computing-based automatic Information Fusion,简称GCIF)。该算法通过计算与合理分配各信息来源的可信度,将所有信息样本构造成一个知识粒图,在知识粒图上寻找最大权值路径,路径上的所有知识粒子即为最终的信息融合结果,从而提高融合结果的可信度。分析与模拟结果表明,该算法在数据规模较大的情况下,在不同冲突比例情况下,都能得到较好的融合效果,在融合准确性方面优于同类算法。信息的质量对专家信息资源融合的准确性有很大的影响,所以在融合前应该对信息进行标准化,而传统的数据清洗算法一般都复杂度较高。使用本论文提出的FDS算法对专家信息进行规范化,能在时间消耗较小的情况下提高信息的质量。论文提出的GCIF算法在数据规模较大时能够提高信息融合结果的完整度、准确度,这对于数据挖掘与知识发现等相关工作有一定的研究价值。