模糊同名判定方法的研究及系统实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:kaixin_ui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的高速发展,互联网中的短文本信息越来越多。如何对短文本中的信息进行挖掘和分析成为了自然语言处理研究领域的一个重要课题。但是因为用词的不规范以及上下文信息较少,短文本中实体的含义往往非常模糊,同名的实体指称在不同的语境下可以指代不同的实体对象,带有强烈的歧义性,这给短文本的研究任务带来了挑战。对模糊同名实体的判定包含两个主要的环节,分别是文本中模糊实体的识别以及模糊实体歧义性的消除。实体链接是消除文本中模糊实体歧义性的重要手段,该方法通过将带歧义的模糊实体链接到知识库中唯一的实体来消除实体的歧义。为了能够更好地分析文本中实体的语义,本文针对模糊同名判定过程中的两个重要环节,实体识别和实体链接展开研究。本文的主要工作和研究成果如下:(1)对维基百科进行预处理,从维基百科中提取了多种实体相关的信息,并提出了一种有效的候选实体生成方法。对于文本中的实体指称,提出了一种结合字典与神经网络的实体识别方法。在人民日报和MSRA语料上的实验表明,本文提出的实体识别方法的F1值分别达到了0.9262和0.9545。(2)根据互联网短文本的特点,提出了结合深度神经网络和图模型的BertRWR(Bert-Random Walk with Restart)算法。该方法能够充分挖掘指称上下文和实体描述文本之间的语义信息,并通过与重启随机游走模型结合进一步挖掘不同指称候选实体之间的关联信息,提升了实体链接的效果。在CNDL、NTF、NLPCC和HQA语料集上,实体链接的F1值分别达到了0.8565、0.9404、0.9200和0.8228,在这些数据集上,本文提出的方法均超过了现有的实体链接模型。最后通过自身特征影响实验和参数影响实验进一步探讨了模型中不同特征和不同参数对实验结果造成的影响。(3)设计并实现了基于前后端分离模式的模糊同名判定系统,该系统可以对歧义文本中的模糊同名实体进行识别与消歧。整个系统分为四个模块,分别是登录模块、维基百科处理模块、实体查询模块和模糊同名判定模块。
其他文献
随着MEMS陀螺仪精度的不断提升,考虑到加工误差对测量精度的不利影响,从减小加工工艺复杂度和降低成本的实际需求出发,将环形谐振陀螺作为研究对象,以正交校正消除刚度耦合和静电调谐实现模态匹配为出发点,设计控制算法,并在此基础上进行仿真和试验验证。研究内容包括以下四个方面:(1)环形谐振陀螺的基本结构和工作原理。讨论环形谐振子模态振型的特点以及基于性价比的振型选择,介绍了环形陀螺仪驱动与检测方法的典型
随着现代社会各种家用电器的普及以及通讯技术的发展,公众受到的电磁辐射量越来越大,电磁辐射对人类及自然界生物的危害引起了社会的广泛关注。国内外针对电磁辐射的生物效应做了大量的研究,发现其生物效应主要分为热效应和非热效应两种,电磁辐射的非热效应会对生物的神经系统、血液系统、内分泌系统和前庭系统等多个系统产生影响。随着在电磁场附近人们出现平衡功能紊乱的报道增多,这种电磁辐射非热效应引起的前庭性眩晕急需进
全球卫星导航系统具有全天时、全天候和高精度等优点,但在室内、楼宇间和地下设施等高遮蔽、多阻挡的受限区域,存在GNSS信号衰减严重、卫星可见性降低的情况而无法提供可靠的定位服务。通过伪卫星技术在此类环境下应用,提升定位服务的连续性和可靠性,实现室内外的无缝定位衔接。本文主要设计并实现一款室内伪卫星收发系统,包括功率与带宽都实时可调的伪卫星信号发射机,以及可以接收处理伪卫星信号的软件接收机,主要研究内
戊糖磷酸途径是糖酵解的第一步,葡萄糖-6-磷酸脱氢酶(G6PD)是葡萄糖磷酸戊糖代谢途径中的关键酶。G6PD能够催化葡萄糖-6-磷酸进行氧化脱氢,产生还原型辅酶Ⅱ(NADPH),这是红细胞中产生NADPH的唯一途径。NADPH有助于谷胱甘肽(GSH)保持还原状态,还原状态的谷胱甘肽可以平衡由超氧化物引发的氧化损伤,保护机体免受氧化损伤,因此G6PD在抗氧化过程中具有非常重要的作用。G6PD低表达可
对于违章建筑物的监管是我国新型城镇化发展过程中的工作重点之一。针对目前我国违章建筑监管手段自动化程度低、易受监控场景气象因素干扰等问题,本文致力于研究复杂天气状况下违章建筑物自动识别的关键技术。主要研究内容如下:(1)提出了一种融合链式SVM及ML-KNN的图像天气识别算法。首先,利用天空区域和非天空区域在边缘、亮度以及分布上的差异,结合Canny边缘检测算法,实现了对室外图像天空区域的有效分割;
研究背景:儿童伤害是全球面临的重要公共卫生问题之一,每年伤害致死儿童数约为95万。在发达国家,伤害导致的儿童死亡约占全部儿童死亡人数的40%,而在发展中及低收入国家因伤害致死的儿童数量则占据全球的95%以上。在伤害的发生类型中,道路交通伤害和跌倒是导致儿童受伤或残疾的主要原因。中国人口基数大,总数约13.4亿,其中儿童占比为16.6%。中国儿童伤害发生率居高不下,儿童伤害病例约占总伤害病例的25%
研究目的:1、探究补血益母颗粒联合雌孕激素预防宫腔粘连分离术后再粘连的临床疗效。2、比较宫腔粘连患者治疗前、后子宫内膜组织中Smad3蛋白的表达差异,探索补血益母颗粒联合雌孕激素对子宫内膜组织纤维化的影响。研究方法:1、选取自2019年05月起至2020年1月我院就诊的符合纳入标准的60例中、重度IUA患者的临床资料进行随机对照研究,设为对照组(雌孕激素治疗组)30例,试验组(补血益母颗粒联合雌孕
目的:验证FAST-ED评分在中国人群中对大血管闭塞型(LVO)卒中的预测作用。方法:收集2014年3月至2019年3月,发病24小时以内,于东部战区总医院急诊科就诊,并确诊为急性缺血性脑卒中的患者,通过患者急诊头颅CTA或DSA检查结果将患者分为大血管闭塞(LVO)组及非大血管闭塞组,并通过急诊NIHSS评分计算FAST-ED评分,从而绘制受试者工作特征曲线(ROC)并计算截断值,计算该评分的灵
研究背景与目的职业性噪声,是指在生产过程中产生的频率和强度没有规律,听起来让人感到厌烦的声音,普遍存在于各种生产环境中。随着全球工业飞速发展,工作场所职业性噪声暴露状况日趋严重,数以亿计的工人因长期处于高水平噪声暴露的作业环境而出现不同程度的健康损害。研究表明,职业性噪声作为一个系统性刺激源,长期接触不仅会损害听觉系统,还可能会影响心血管、内分泌等非听觉系统的功能。目前,职业性噪声暴露所致健康损害
目的(1)通过现场问卷调查,了解南京市某社区老年人群的健康状况及高血压、高血压前期流行情况,分析老年人群高血压及高血压前期的患病相关影响因素。(2)根据高血压相关危险因素构建高血压发病风险评估模型。为社区老年人群高血压的一级预防和健康管理提供依据。方法(1)2016年3月—2016年12月,在南京市某社区医院,采用整群抽样方法调查在该医院进行健康体检的60周岁及以上居民,进行现场问卷调查和体格检查