多信息融入的深度神经网络跨领域中文分词

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:cerlin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是很多汉语自然语言处理任务的第一步,在自然语言处理中拥有举足轻重的地位。对中文分词算法的研究已经持续了数十年,研究表明,基于字标注思想的中文分词模型,在分词准确率和召回率方面,要优于传统的字符串匹配以及概率统计分词模型。近年来,对分词模型的研究聚焦于深度神经网络。相比于传统的基于字标注的机器学习分词模型,基于字标注的深度神经网络中文分词模型无需繁琐的特征工程,并且在分词准确率上也犹有过之。然而,基于深度神经网络的中文分词模型仍存在跨领域分词问题,即当训练集与测试集分属不同领域时,模型在测试集上的分词准确率会大幅下降。本文将训练集所属领域称为源领域,测试集所属领域称为目标领域。目前,已经有很多研究方案被提出,用以解决基于神经网络的中文分词模型的跨领域问题。这些方案大多都在分词神经网络模型中融入了额外的目标领域信息,但往往只关注模型在目标领域的分词准确率,没有考虑模型的通用性。另外,目前对部分标注集的使用方式较为单一,往往只是改变了损失函数,其他使用方法仍有待研究。本文的主要研究内容如下:(1)从跨领域分词模型的分词准确率和通用性的角度出发,提出在BERT模型中融入词典与无标注集信息的中文分词模型。从通用性角度出发,本文使用BERT作为基准分词模型。此外,本文设计了一种词典特征向量,它能很好地体现单个字符在词中的位置信息。从分词准确率的角度出发,本文使用语言模型来学习目标领域的无标注集信息。最后,使用门结构在BERT模型中融入词典向量和语言模型的隐层输出向量。在《诛仙》、SIGHAN2010以及自制数据集上,本文提出的模型都能取得较高的F1值,证明该模型具有很强的领域适应性。(2)本文提出一种利用部分标注集的自训练神经网络中文分词模型。首先,本文设计了一种通过词典和无标注集获得人工部分标注集的新方案。然后,本文通过修改模型的损失函数,使部分标注集能用于训练Bi LSTM分词模型。最后,本文使用自训练的方式,设计了分词准确率置信度和差异置信度,迭代地将满足置信度的部分标注集加入有标注集,不断优化分词模型,从而使最终的模型在目标领域能取得较好的分词效果。在SIGHAN2005、SIGHAN2010数据集上的实验证明,本文的方案能有效提高模型在目标领域的分词准确率。
其他文献
当前分布在互联网上的APK网站数目众多,质量参差不齐,恶意APK泛滥,容易造成用户误下载后遭受隐私泄露、恶意扣费、电信诈骗等威胁,对这些网站的APK进行实时爬取并监控是降低危害的必行之举。但现有常用的识别页码链接的算法,如GL&CSL、BERyL、XPath最长路径探测等,存在识别时间长、准确率低等缺点,目前常见的提取搜索结果算法,如ViPER、CTVS和STEM算法等,也存在提取时间长、
当前国家产业结构的转型升级、实体经济的发展都需要“融资租赁”。融资租赁融合了融资功能与融物功能,可以降低购买力门槛,因而对实体经济的发展能起到杠杆作用,从而有助于
肽核酸是一种脱氧核糖核酸类似物,具有许多优异的特性,包括与结构化核酸靶点结合的能力、优异的生物和化学稳定性、强特异性的识别能力等。此外,肽核酸的不带电主链可进行独特的实验设计,这些实验设计不能用寡核苷酸或带负电荷的主链类似物来完成。近年来,肽核酸在纳米技术中的应用受到了广泛的关注,已逐渐成为脱氧核糖核酸的重要替代物。碳点是一类尺寸小于10 nm的新型荧光碳纳米材料,由于其强发光特性和良好的溶解性受
随着生物科技的发展,越来越多的人类蛋白质被研究者们发现。但是,已知的蛋白质中,可以作为靶标的蛋白质数量稀少,只占所有已知蛋白质数量的很小一部分,导致了大部分药物的靶标蛋白质数量只有两三种。如果可以发现更多潜在的药物靶标相互作用,就可以治疗更多的复杂疾病,从而减少新药物研发的时间、成本和风险,为人类发展提供安全的保障。在探索一个未知的药物靶标相互作用时,传统思想选择使用实验的方法。虽然实验的结果可靠
多智能体系统(MAS)由多个智能体构成,对于单智能体无法解决的问题,即规模较大或较复杂的问题,可以通过系统中各智能体之间进行协作完成。现如今随着问题的复杂化,多智能体系统受到广泛关注。任务分配是多智能体系统中的一个关键问题,其解决的是将复杂的任务分配给各智能体的问题,目的是使得任务整体的效用或收益最大化。如何高效的将复杂任务合理的分配给智能体成为了多智能体系统的热点问题之一。由于神经网络可以挖掘数
视听作品作为一种载体、媒介,它可以对高校思想政治教育产生一定影响。一方面,视听作品可以充实高校思想政治教育的内容,丰富与创新高校思想政治教育的形式,促进高校思想政治教育载体的发展,深化高校思想政治教育对象的认知。另一方面,良莠不齐的视听作品也破坏高校思想政治教育环境,作品随意传播影响高校思想政治教育开展,整体冗杂的作品现状加大了教育者对作品鉴别与应用的难度,一些不良的作品内容会冲击教育对象的思想观
食品是人类生存和生活的必需品,食品安全关系到每个人的身体健康与生命安全。随着我国改革开放程度不断加大,人民的收入不断增加,生活水平也得到了很大的改善,人们对食物的要求也从简单的吃饱就好转向营养与安全。针对不断出现的食品安全问题,我国政府采取了一系列的措施,城市食品安全监管得到有效提高,但是农村食品安全形势依然严峻。因此,研究当前农村食品安全监管问题具有重大意义。本文紧紧围绕农村食品安全监管这一主题
同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)技术的目的是使机器人在未知的环境中,并且不明确自身位置的情况下可以同时进行自身定位与构建周围环境的地图。随着机器人领域的快速发展,对视觉SLAM技术的需求也不断增加,特别是近年来深度相机的广泛应用,极大的方便了视觉SLAM的实现。经典的视觉SLAM分为前端视觉里程计,后端优化,回环检测以及地图
随着物联网的快速发展,物联网设备的数量和传感数据呈指数形式增加。在此状态下,如何更加有效的安全保护这些传感数据的信息安全成为人们十分关切的重点。在物联网中,由于智能传感器具有智能开放的特性,感应数据在传输、存储和身份认证的过程中容易发生数据被盗窃、伪造、欺骗等安全性问题,一旦存储服务器受到恶意攻击者的攻击,那么物联网数据的安全性将会受到极大的威胁,特别是在集中式存储的服务器中。在此状态下,人们对物
区域创新驱动发展作为国家创新驱动发展体系的重要组成部分,关系到新常态下区域经济社会能否可以顺利地从以要素驱动型、投资驱动型为主向以创新驱动型为主的转变,直接关乎到未来的民生福祉能否持续提升。黑龙江省作为东北老工业基地之一,随着技术设备的老化以及化石燃料资源的逐渐枯竭,旧有的发展优势在新科技新产业新模式面前变得越加渺小。新时代的召唤下,黑龙江省应当如何推陈出新,使之能以科技创新高效地带动经济产业转型