专家信息资源收集中数据清洗与融合算法研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:yaohaochang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专家信息资源由于规模巨大从而在收集过程中存在冗余度高、可信度低且信息描述方式不一致等问题,结果准确性难以保证。因此有效的数据清洗技术成为必须。而清洗中的规范与之后的融合是决定专家信息能否实用的关键步骤。所以如何进行专家信息的规范化与有效融合是本论文的研究重点。针对专家成果类别信息的不规范问题,论文研究传统的数据清洗算法,在此基础上,提出了一种基于特征的数据标准化方法(Feature based Data Standardization,简称FDS)。该方法通过训练集总结出专家成果类别的数据特点,计算出各数据项的特征权值,从而识别出各数据项对应的数据状态,按照需求决定各数据项的排列顺序。分析与实验结果表明,当数据规模较大时,该算法在对识别精度影响非常小的情况下,在时间消耗方面优于现有的算法。针对专家属性值冗余与可信度较低的问题,论文提出了一种基于粒计算的信息自动融合算法(Granular Computing-based automatic Information Fusion,简称GCIF)。该算法通过计算与合理分配各信息来源的可信度,将所有信息样本构造成一个知识粒图,在知识粒图上寻找最大权值路径,路径上的所有知识粒子即为最终的信息融合结果,从而提高融合结果的可信度。分析与模拟结果表明,该算法在数据规模较大的情况下,在不同冲突比例情况下,都能得到较好的融合效果,在融合准确性方面优于同类算法。信息的质量对专家信息资源融合的准确性有很大的影响,所以在融合前应该对信息进行标准化,而传统的数据清洗算法一般都复杂度较高。使用本论文提出的FDS算法对专家信息进行规范化,能在时间消耗较小的情况下提高信息的质量。论文提出的GCIF算法在数据规模较大时能够提高信息融合结果的完整度、准确度,这对于数据挖掘与知识发现等相关工作有一定的研究价值。
其他文献
LBSNS(移动定位社交服务)是LBS(基于位置服务)与SNS(社会性网络服务)的结合体,兼有二者的特性。LBSNS的出现为人们提供了一种全新的社会服务形式,与此同时LBSNS的出现也引出了
随着计算机系统和计算机软件发展的日新月异,计算机软件已经应用到很多安全关键系统中。一旦这些系统失效将会导致生命财产的重大损失以及环境可能遭受严重的破坏。与硬件安全
摘要:本文以湖南科技学院仪器设备管理现状为背景,针对目前高校设备管理存在的问题,结合设备相关业务流程,通过对系统主要功能的分析,研究构建一个基于Web平台的高校仪器设备
如何更有效更自然地实现对计算机的操作,达到更好的用户体验,是人机交互领域的一个热点研究问题。基于手势的人机交互与其他交互方式比较,更易被用户接受和使用。通常将手势分为
云制造是借鉴云计算模式产生的一种面向服务的网络化制造新模式,旨在将分布于各企业中的制造资源和制造能力虚拟化并封装成制造服务,从而为广大用户提供制造服务,是近年来先进制
面对计算密集型任务和海量数据处理对嵌入式SoC系统在处理能力和处理资源上日益苛刻的要求,基于纯硬件提速的方式由于受限于摩尔定律已经力不从心,可重构计算的出现成为一种必
随着社会对能源的需求变得日益迫切,因此找到更多的位于地表深层的石油天然气就成了当务之急,油气勘探也就成为十分重要的手段。而地震检波器在油气勘探中,起着十分重要的作用,它
随着经济的发展以及城镇化建设速度的加快,导致城市内流动人口增加,人口密集。引发了城市建设中的交通、社会治安、重点区域防范等城市管理问题,随着国家提出建设“平安城市”项
缓存是弥补CPU与存储系统之间巨大速度差异的有效手段。但受成本和制作工艺限制,缓存与存储系统间的容量差异日益加剧。如何进一步深入挖掘现有缓存系统的潜在性能,是缩短CPU空
云计算在商业和科学研究上的价值已渐渐被社会认可。它可以在搜索引擎、互联网应用技术、大规模数据计算等方面发挥出巨大的能量。Hadoop技术作为云计算技术的开源实现,对云计