论文部分内容阅读
三元概念分析(TCA)是一种新颖的数据分析方法,是在形式概念分析(FCA)理论基础上对三维数据或者多维数据处理的有效扩展,也是顺应大数据时代多样性信息数据的应用产物。目前关于三元概念分析的研究相对较少,对于运用三元概念构建学习模型框架从而进行具体应用的分析也相对匮乏。因此,如何根据三元背景有效提取出三元概念,如何利用三元概念构建模型将其应用于具体实例中等,都成为三元概念分析理论得以成功应用要解决的问题。本文基于三元概念分析,提出MLTCA(Machine Learning Triadic Concept Analysis)学习模型并对其进行验证。具体研究工作如下:首先借助三元概念分析的基本理论和性质,提出构建三元概念的Tri-concepts算法。该算法立足于三元背景,从对象、属性、条件三个集合中提取三元生成算子,经过h诱导算子的闭包运算,将三元生成算子逐渐生成三元-集,再对所有条件的三元-集合并、删除冗余集合,最终得到三元概念。然后在Tri-concepts算法基础上综合考虑三元概念分析对于实际应用的要求,为了更好的运用三元概念表示现实应用中的数据,提出将三元概念与模糊集结合,定义了附有隶属度的三元概念,即将三元背景中的二值关系扩展为[0,1]区间的模糊关系,表示特定条件下属性对于对象的隶属度。基于此可对原信息数据构建带有隶属度的三元概念,根据模糊理论中贴近度的表示,类比得出三元概念之间的相似性度量,从而可计算出训练数据的三元概念和测试数据的三元概念的相似值,达到对待测数据分类的目的。因此,基于三元概念分析的机器学习MLTCA分类模型是一个从数据表示到推理分类的完整的学习模型。最后将模型具体应用于文本分类中,分别在理论与实验中说明其正确性和有效性。经过在不同数据集上测试的结果表明,MLTCA模型具有较好的性能和实用性,可以得到比较好的分类效果。