基于ELMo的中文地址分词与匹配

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户:tobay1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网信息时代的今天,人们每时每刻都在产生大量与地址有关的信息。中文地址是描述空间坐标最有效的信息,这些信息与人的行为密切相关,可以通过这些信息定位推测出一个人一整天的行为流程和运动轨迹,这些记录普遍存在于网上购物、短视频APP、通信、银行等领域,对于这些数据进行充分的挖掘与分析,会对个人发展和国家经济产生积极的影响。目前,国内对于中文地址的研究还处在刚刚萌芽的阶段,中文地址研究的困难点在于其地址本身的特殊性、语法的灵活性和结构的多样性。不同于国外的地址环境,国内对地址的规划和标准制定发展较晚,使用现存的技术对中文地址匹配会产生很多问题。针对上述问题,本文以中文地址匹配为研究方向,对其进行多方面研究,主要的研究内容和研究成果如下:(1)在原有的地址库模型的基础上进行改进,提出了新的标准地址库模型的构建方案,并将错误的地址进行分类,构建统一地址库体系。(2)在研究了国内外分词现状的基础上,为了提高中文地址分词的准确率和召回率,并为了能够较好的解决中文地址中产生的地址歧义问题,本文设计了一种在长短时记忆神经网络(LSTM)和条件随机场(CRF)的基础之上,与ELMo预训练模型相结合的中文地址分词模型,减少了传统的分词方法中人工设计的特征工程,使该算法更具有通用性,且对有歧义的地址信息有较好的辨识度。(3)引入Map Reduce计算引擎,采用地址树模型对切分后的地址进行地址树模型的匹配,对匹配失败的地址和未登录词补录入库,设计并实现了一套可行的中文地址匹配系统,且对地址归一化结果使用flink实时计算引擎进行数据分析。本文主要的创新点:(1)提出了基于ELMo-Bi LSTM-CRF的中文地址分词的算法。(2)提出了通过地址树模型对地址信息进行匹配。本文在Bi LSTM-CRF模型上提出的改进算法,在原有的基础上性能有稍许的提升,提升了1.15%。
其他文献
图像是视觉信息的主要载体之一,而由于各种因素,获得的图片分辨率往往有限,因此常利用超分辨率方法对图像细节进行推测并重建。但现有方法多是端到端的训练,复杂网络模型对设备要求较高。此外图像不同部位的重建纹理往往与该部位的类别存在很大关系。因此,本文从数据集准备和先验信息提取两个方面进行深入研究,以提高超分辨率重建算法的性能。本文主要工作和成果如下:(1)提出了超像素分割能够将一张图像拆分为多流形数据结
通信网络飞速发展的现状对数据中心的网络质量、运维能力提出了更高的要求。传统骨干网使用的VPLS技术将网络全连接,这样的方式存在消耗网络资源、容易引起ARP洪泛的缺陷,后续的演进中提出了将MAC学习迁移到控制层、使用BGP通告对端的EVPN解决方案,能够有效提升网络性能。NP芯片使用微码编程,具有快速的响应能力和高效的计算能力能够很好地适应转发层要求,所以采用NP芯片与CPU共同参与MAC学习的方案
物联网设备数目庞大且具备一定的网络攻击能力,大多数物联网设备也会涉及用户隐私并关联用户的敏感设备。随着物联网行业的迅捷发展和物联网设备的大规模投入使用,在智慧城市与物联网深度融合的规模化发展的趋势下,物联网设备带来的安全问题引起广泛关注。为了满足智慧消防系统由于应急管理对设备一致性的高要求,本文基于主动式和被动式设备指纹构建方式,将智慧消防系统中的物联网设备分为感知器和执行器进行相关实验研究,验证
机器阅读理解是当前自然语言处理领域最为前沿和热门的研究方向之一,它的研究目的是利用计算机建立模型,使计算机能像人类一样阅读文章、分析语义和回答问题,有着重要的研究价值和实用价值。随着硬件算力的不断提升、大数据的爆炸式增长,以及深度学习技术的不断发展,机器阅读理解研究有了长足的进步,在一些特定的任务中,计算机模型的回答已经可以媲美人类的水平了。机器阅读理解模型需要充分理解问题和文章的语义信息,通常采
模拟画像是由画像师通过目击证人的描述,结合刑事相貌学和画师个人经验,对嫌疑人进行肖像绘画,在刑侦工作中具有重要作用。由于其专业性,使用门槛较高,且现有模拟画像系统依赖图像合成,存在拼接人脸图像生硬、缺失启发性推荐、人脸编辑不够灵活、肖像人脸细节缺失的问题和不便于进行大规模检索的问题。本文针对模拟画像系统存在的问题和关键技术展开研究,具体研究内容如下:(1)目前人脸肖像化和重建主要依靠成对的数据建立
本文采用前沿神经网络算法研究成果,结合追踪算法,在此基础上结合肤色检测、清晰度检测、人脸姿态估计构建一个面向图像序列的人脸检测、追踪、优选为一体的方式,相信可以用于人脸识别的应用里并且发挥很好的改善作用。针对人脸区域在图像中提取问题,采用MTCNN网络算法作为人脸检测算法,能够有效快速地检测出图像中的人脸部分。人脸在图像序列之中,位置可能会随着时间的改变而不断变化,针对人脸区域无法动态锁定的问题,
当今城市中摄像头的数量大幅度增加,这为现场监控和事故的追踪提供了极大的便利。但由于摄像头的监控信息中,有效信息较少,如果需要按照行人属性对行人进行检索或分类,手动整理的工作量将是巨大的。因此,为了节省工作成本,研究一种端到端的、自动地对行人属性进行识别的模型是很有必要的。虽然当前已经提出了许多行人属性识别方法,但存在较多难点需要解决。典型的待解决三个问题有:(1)行人属性空间依赖关系和属性间的语义
近几年移动互联网技术的广泛传播使得移动端应用程序的安全性也逐渐受到人们的重视,而Android系统作为时下流行的智能手机操作系统,它的安全性自然也受到大众广泛的关注。怎样能够高效快捷的实现恶意代码的检测识别成为保护用户信息安全的关键问题。本文主要针对Android恶意代码的图像特征的有效提取以及利用机器学习算法实现分类系统模型的设计做了深入研究,主要工作内容如下:1.本文提出将Android应用程
随着社会的发展,基于位置移动的室内定位服务深入到各个行业和人们的日常生活中。智能家居、机器人、自动驾驶等项目的兴起,促使精准的室内定位的需求也越来越强烈。在技术领域,室内定位技术主要基于射频、蓝牙和声波等媒介,基于视觉的室内定位技术还不像其他技术那么成熟。视觉定位有设备容易获取、成本低、可以充分利用图像信息等优势,所以有着广阔的发展前景。基于视觉的室内定位,首先要从图像中获取有效的像素点,本文借助
软件测试作为一种检查实际软件产品是否符合预期要求并确保软件产品无缺陷的方法,对提高产品质量有着重要作用。目前敏捷开发和持续集成等手段广泛应用于软件开发过程,缩短开发周期的同时也限制了软件产品的测试时间,导致产品质量难以得到保证。并且本着用户至上的原则,软件需求屡屡变更,产品版本频繁发布。测试人员往往需要花费大量时间针对不同版本,做重复的测试工作,极大地浪费时间和人力资源,存在严重的效率低下问题。为