基于CNN的文本记录分割与命名属性值识别技术的研究与实现

来源 :苏州大学 | 被引量 : 0次 | 上传用户:xliang677
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取关注于从半结构化或非结构化数据中获取结构化信息,是文本理解、信息检索、自然问答和知识图谱构建等很多领域的重要技术支撑。本论文主要关注于开放信息抽取中的一个重要子问题,即文本记录分割与命名属性值识别任务。此任务旨在对一段无分隔符的文本型记录中的属性值进行分割,从而进一步识别和标注该文本型记录中的各个属性值。对于这个任务,目前主流的解决方案是采用机器学习的方法,包括使用人工标注的训练集的监督式方案,或者利用事先存在的知识库辅助实现非监督式方案。监督式方法中,常使用基于图的机器学习算法,比如隐马尔可夫模型和随即向量场,来从数据集中学习到分割模型。在非监督式方法中,常使用事先存在的数据库来代替人工标注的训练集,使用给定的属性值训练一个模型来从输入文本中识别这些属性值。但是,当采用监督式方法时,获取标注好的训练集要花费非常昂贵的代价,并且往往只限制在某个领域内。而在非监督式方法中,则会出现两个主要问题,(1)某一领域文本记录的属性值限制为固定的顺序,(2)匹配准确率低下。为了解决这些问题,本文提出了结合深度卷积神经网络和知识库的非监督式方法。充分利用卷积神经网络强大的特征抽取和组合能力,并有效的结合概率模型,构建了完整的、高效的解决方案。具体研究内容如下:(1)本文着重研究了文本记录分割与命名属性值识别问题,介绍了已有的解决方法,描述了具有代表性的各类算法的优势,并分析了其中存在的问题。介绍了深度学习在相关领域的应用。(2)本文提出了一种新颖的文本记录分割与命名属性值识别算法。本算法基于卷积神经网络,设计出了一种贪婪式的概率标注算法来做全局的标注和分割,在抽取过程中学习出一个双向的序列与位置模型来修正一些错误的结果。这一算法有效的解决了传统方法中的各种问题,抽取质量提高了超过10%,并在抽取效率上也有非常好的表现。(3)构建了一个自动化模型训练和执行抽取任务的系统,可以将本算法更方便的应用到其他数数据集,更直观地查看算法各步骤的结果。我们在三个真实的数据集上验证了本文提出方法的效果。实验结果表明,文本提出的基于CNN的记录分割与命名属性值识别算法在准确率和效率上都要优于以往的各类主流算法。
其他文献
<正> 痛风是一组嘌呤代谢紊乱所致的全身性疾病。高尿酸血症伴痛风性急性关节炎是其临床特征。反复发作易产生痛风结石,可导致关节畸形,并发肾结石。久延不愈,则影
期刊
近年来,随着我国银行卡业务迅猛发展,基于银行卡的风险事件和犯罪行为也逐渐增多,影响着银行卡业务的健康发展。本文通过分析银行卡业务风险成因,从10个方面提出了银行卡业务
目的采用电感耦合等离子体质谱法(ICP-MS)建立化妆品中13种元素的快速测定方法。方法微波消解后,用电感耦合等离子体质谱法同时测定化妆品中铍(Be)、钛(Ti)、铬(Cr)、钴(Co)
民营银行之争由来已久。中国的银行业不缺数量,缺的是结构,缺草根金融。该文回顾了民营银行艰难的探索历程,指出应科学界定民营银行经营范围和服务对象,消除制度障碍和现实阻
癌症早期诊断与根治是医学上的重要课题,新兴的纳米技术为癌症诊治提供了新思路,多种纳米材料具备特殊理化性质,可实现癌症高效诊断与治疗。普鲁士蓝是一类由Fe2+与Fe3+形成
随着经济和社会的快速发展,人们需要高质量的学前教育的愿望不断增强,对幼儿园教师队伍的要求也在不断提高。但是,近年来,由于高校的扩招和职业教育的蓬勃发展,幼师生源质量
我国农村公路桥梁由于建设时代久远、技术标准偏低、养护维修不力等原因,造成大量桥梁呈现危桥的状态,限制了农村公路的交通通行能力,影响了当地农村经济的发展。针对农村公
概括当前文物古建筑群消防安全总体形势,从多个方面分析文物古建筑火灾特点,结合实际提出采取行之有效的消防安全管理措施,就如何做好文物古建筑火灾扑救准备工作提出对策和要求
杯芳烃是继冠醚和环糊精之后广受瞩目的第三代主体分子,它是由多个苯酚单元通过桥联亚甲基连接而成的环状低聚物。杯芳烃易于合成,具有大小可调的独特三维空腔结构,化学稳定
<正> 我厂拟采用 Krystal—Oslo 真空结晶器生产亚硝酸钠。尽管该型结晶器早在1964年引进于我国制碱工业中,但亚硝酸钠的结晶物化性质与纯碱相比差异很大,这决定了用于亚硝酸