论文部分内容阅读
人工智能的发展使得计算机能够理解用户的动作、语言等输入,人机交互向人与人间的自然交互发展。然而,自然交互需要系统对多源、多模态用户产生内容进行分析,提取有用的知识,以理解用户的真实意图。本文从粒计算角度出发,提出了以条件信息熵作为不确定性度量的流特征选择方法CIE-OSFS和基于标签粒化的多标签流特征选择方法ML-OSMI。两种流特征选择方法能够应对实时产生、特征空间动态增长的数据,如人机交互中的操作行为数据等,为从用户的操作等行为中获取知识提供了支撑。还提出了基于神经网络的多粒度特征自学习联合抽取方法JMC。该方法能够从自然语言输入中获取实体和实体间的关系等知识,帮助理解用户的真实意图。为帮助人机交互系统理解用户产生的数据提供了支持。本文主要工作如下:1.首先提出了基于不确定性度量的单标签流特征选择框架。该框架从粒计算理论出发,使用不确定性度量来度量特征的重要性。然后基于该框架实现了基于条件信息熵的流特征选择方法。为验证方法的有效性,与fast-OSFS、Alpha-investing和Grafting等流行的流特征选择方法进行了详细地对比,结果表明CIE-OSFS能够在保证准确性的前提下选择出更少的特征。2.提出了一种基于标签粒化的多标签流特征选择方法ML-OSMI。该方法首先将标签通过聚类的方式进行粒化并转化到更低维的空间,然后基于互信息重新定义了多标签场景下特征的相关性和冗余性来指导特征选择过程。实验结果表明ML-OSMI在传统多标签特征选择场景和流特征场景都是有效的。3.将多粒度特征的先验知识用于设计神经网络结构,自动地学习多粒度特征,提出了一种联合抽取方法JMC。为验证模型的有效性,本文在远程监督数据集NYT上进行了实验,分别在实体抽取,关系分类和联合抽取三个任务上与流行方法进行了对比。结果表明,JMC在三个任务上都取得了更优的结果。