基于主动学习的命名实体识别算法

来源 :计算机与现代化 | 被引量 : 0次 | 上传用户:yuxuan423
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别的目的是识别文本中的实体指称的边界和类别。在进行命名实体识别模型训练的过程中,通常需要大量的标注样本。本文通过实现有效的选择算法,从大量样本中选择适合模型更新的样本,减少对样本的标注工作。通过5组对比实验,验证使用有效的选择算法能够获得更好的样本集,实现具有针对性的标注样本。通过设计在微博网络数据集上的实验,验证本文提出的基于流的主动学习算法可以针对大量互联网文本数据选择出更合适的样本集,能够有效减少人工标注的成本。本文通过2个模型分别实现实体的边界提取和类别区分。序列标注模型提取出实体在序列
其他文献
古诗伴随着中华文化的历史进程不断发展,有着数千年的灿烂历史,古诗将丰富的情感、有内涵的灵魂和生动的形式完美结合,表现出了中华民族语言的力量.“自然语言处理是人工智能皇冠上的明珠”,用机器生成语言是机器智慧的核心体现,对机器的语言进行测试是图灵测试的重要内容,用机器生成的中国古代诗词已经可以初步通过图灵测试,在普通人面前得以瞒天过海.本文提出了“镜像图灵测试”框架,其主要设计思想是将图灵测试中的测试者由人更换为计算机,要求测试者在图灵测试的同等条件下对被测试的人和计算机进行识别,若测试计算机不能完成对被测试
在多租户数据中心,来自不同租户的应用程序共享并竞争使用网络资源.网络共享策略会对应用程序端到端的性能(如作业完成时间、吞吐量等)产生直接的影响.为了衡量租户应用程序的整体数据传输速率,本文引入进度(Progress)的指标.该指标被定义为租户应用程序在所有链路上经需求标准化后的最小带宽分配量,反映的是租户能够完成其数据传输的最慢速率.通过最大程度地提高租户进度,可以优化上层应用程序的执行时间等性能.先前的大多数工作都集中在实现网络共享的公平性、可预测性和效率之间的权衡,却忽略了提高租户的长期进度.本文观察
软件定义网络(SDN)将传统网络的控制平面和数据平面解耦,通过控制平面的控制器灵活地对网络进行管理,目前应用最广泛的控制协议是OpenFlow.三态内容寻址存储器(TCAM)查找速度
随着互联网的不断发展,网络上的文本数据日益增多,如果能对这些数据进行有效分类,那么更有利于从中挖掘出有价值的信息,因此文本数据的管理和整合显得十分重要。文本分类是自然语言处理任务中的一项基础性工作,主要应用于舆情检测及新闻文本分类等领域,目的是对文本资源进行整理和归类。基于深度学习的文本分类,在对文本数据处理中,表现出较好的分类效果。本文对用于文本分类的深度学习算法进行详细阐述,按照深度学习的不同算法进行分类,并分析各种算法的特点,最后对深度学习算法在文本分类领域的未来研究方向进行总结。
Extensive studies on aerosol chemistry have been carried out in megacities in China,how-ever,aerosol characterization in Central China Plain(CCP)is limited.Here
作为海量数据快速存储和高效处理强有力的后盾,数据中心成为近年来学术界和工业界关注的热点.传统TCP难以在高吞吐、低时延、无损等方面同时满足当前数据中心传输需求,新的传输技术研究迫在眉睫.本文在对比传统TCP设计目标和数据中心网络中传输目标的基础上,对数据中心流量控制的研究现状展开综述.流量控制是指控制流量的发送速度以及发送规则,本文从基于端到端设计的拥塞控制和基于全局优化的流量工程两个方面对流量控制技术进行介绍,并从控制机制、扩展性、技术可行性等方面对上述技术进行了对比分析.最后本文对数据中心流量控制技术
随着互联网上Mashup服务数量及种类的急剧增长,如何从这些海量的服务集合中快速、精准地发现满足用户需求的Mashup服务,成为一个具有挑战性的问题.针对这一问题,本文提出一种融合功能语义关联计算与密度峰值检测的Mashup服务聚类方法,用于缩小服务的搜索空间,提升服务发现的精度与效率.首先,该方法对Mashup服务进行元信息提取和描述文本内容整理,并根据Web API组合的标签对相应Mashup服务标签进行扩充.然后,用基于功能语义关联计算方法(Functional Semantic Associati
通过对猪牙花的调查发现:在中国有2种猪牙花,还有重瓣和并蒂的植株,均可通过种子进行有性繁殖,也可用鳞茎、鳞座进行无性繁殖;世界猪牙花属约29种。最后还介绍了猪牙花在国内和国外的分布,分子水平和经济用途等方面的最新研究水平。
低资源神经机器翻译的研究难点是缺乏大量的平行语料来给模型进行训练。随着预训练模型的发展,并且在各大自然语言处理任务中均取得很大的提升,本文提出一种融合ELMO预训练模型的神经机器翻译模型来解决低资源神经机器翻译问题。本文模型在土耳其语-英语低资源翻译任务上相比于反向翻译提升超过0.7个BLEU,在罗马尼亚语-英语翻译任务上提升超过0.8个BLEU。此外,在模拟的中-英、法-英、德-英、西-英这4组低资源翻译任务上相比于传统神经机器翻译模型分别提升2.3、3.2、2.6、3.2个BLEU。实验表明使用融合E
融入权重信息的加权链路预测算法大都具有更好的预测效果,现有的大多数加权算法都是基于外部权重信息,基于网络拓扑结构权重的研究较少。针对此问题,提出一种利用无权网络的结构特征生成结构权重的加权链路预测算法。首先计算资源分配指标得到网络局部结构相似性,再利用DeepWalk算法学习网络结构特征生成节点向量得到余弦相似性,将2个相似性结合定义出网络的结构权重。最后在4个数据集上进行实验,将融入权重信息的3种不同类型相似性指标W-CN、W-LP、W-RWR与对应的无权指标进行对比。结果表明,融入结构权重信息的预测算