用于自然语言分布式表达的联合学习方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:llwjm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言分布式表达(Distributed Representations of Natural Language)技术是指利用深度神经网络算法训练得到自然语言对象(单词、短语、句子、段落和文档等)的向量表达的技术,这种向量也被称为自然语言嵌入向量(Natural Language Embedding Vector)。一般来讲,分布式表达向量是从大规模无监督的语料中学习得来的低维、稠密实数值向量,因为其承载了该自然语言对象的语义信息,所以可以作为自然语言的一种有效的表达,应用于各项自然语言处理的任务中,并取得了非常优异的实际表现。在本论文中,与以往完全从原始文本语料学习(Learning From Scratch)得到自然语言分布式表达的方法不同,我们试图融入更多的信息,达到联合训练自然语言分布式表达向量的目的。这些信息有可能是外源信息(例如字典信息与知识图谱信息),也有可能是原始语料信息的其他抽象、或者高层次表达(例如单词的多义性信息与主题信息)。这种联合训练的方法一方面可以利用更多的信息提升原始分布式表达向量的质量,另外一方面可以利用自然语言的分布式表达更好地帮助相应的任务(例如主题建模),从而达到更佳的实际表现。具体来说,1)我们通过单词多义性信息与单词分布式表达联合训练的方法来克服传统单词分布式表达以单词作为基本语义嵌入单元的限制,所提出的算法可以精确表达多义单词的不同语义,取得了良好的实际效果,同时我们在本文中介绍了该算法的大规模并行实现:2)我们通过知识图谱表示与单词分布式表达联合训练的方法来克服原始文本驱动的单词嵌入向量无法表示复杂知识关系的限制;3)基于这两种联合训练的方式我们提出了一种利用单词分布式表达来完成自动智商测试的方法,在标准词汇智商测试任务上取得了比该测试的人类参与者的表现更高的准确率;4)更进一步,我们提出了一种基于递归神经网络(Recurrent Neural Network)的句子分布式表达模型和主题模型的联合训练方法,利用该方法训练得到的主题模型可以建模单词序列性信息,与忽略该信息的传统主题模型相比在定量任务和定性任务上都有更好的表现。
其他文献
随着3.5GHz固定无线接入系统在我国部分城市投入建网以及今后的进一步发展,对该系统相关技术指标的测试工作也提上了日程,笔者结合自己在工作中的体会介绍一下3.5GHz固定无线
在全国与非典型肺炎这一突发性疾病作斗争期间,加强无线电监测,保证重要业务频率的使用安全,及时查处有害干扰显得特别重要.
当前,信息化浪潮已席卷全球,深刻影响着世界各国的政治、经济、军事、文化和人们的社会生活的.党中央、国务院对此给予了极大的关注,提出了国民经济信息化的战略方针.朱基总
很多人都认为幼儿教师多好呀,每天嘻嘻哈哈,跟孩子在一起……但据调查,幼儿园进行的幼儿教师心理检测结果为:52.1%的教师存在心理问题,其中33.24%的教师属于轻度心理障碍,16.
<正>慢性阻塞性肺疾病急性加重(AECOPD)是慢性阻塞性肺疾病(COPD)患者的重要临床病程,频繁发作的急性加重对COPD患者的生活质量产生巨大负面影响,使患者的肺功能恶化加速,也
系统剩余寿命是机电装备面向多生命周期设计、制造与服役的重要分析指标。基于更新过程理论,通过引入广义发生函数(UGF),提出一种针对元件及系统有限时间区间的剩余寿命概率
采用电感耦合等离子体原子发射光谱(ICP-AES)技术,通过轴向、径向、同步垂直双向(SVDV)三个视角配置,快速检测生活饮用水样本中的As,Ba,Mg和Ni等微量元素。ICP-AES光谱仪在三
飞飓短信,火爆又风光短信,在今年春节真是出尽了风头!据报道,在大年三十辞旧迎新的最后一个小时,中国的手机和互联网用户纷纷发出拜年短信息,仅在北京就有两百万条拜年信息,
<正>近日,汉能集团推出更轻、更薄、造型更灵动、性能更优异的新一代汉瓦产品——单玻汉瓦。该产品是基于汉能全球领先的柔性薄膜太阳能技术将柔性的薄膜太阳能芯片与高透光
目的:比较碘伏药浴与葡萄糖酸氯己定简化药浴在造血干细胞移植患者体表消毒中的应用效果.方法:选择2011年6月~2012年6月收治的52例造血干细胞移植患者为对照组进行磺伏药浴,选择