基于统计模型的中文命名实体识别方法研究及应用

来源 :北京化工大学 | 被引量 : 15次 | 上传用户:gaoyangwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理领域中的许多任务,都需要建立在准确有效的命名实体识别结果上。命名实体识别研究的发展常常与自然语言处理技术相互制约。中文命名实体识别的研究进程大大晚于英文命名实体识别,加之中文因自身没有明确分词符的独特结构特点,也加大了中文命名实体识别的难度。医学领域繁多的专业词汇和句法特征,更加提高了该领域的中文命名实体识别的研究门槛。本文通过对目前现有命名实体识别方法的总结,选择在目前较为成熟的基于统计模型的命名实体方法中进行深入研究。并在分析了当前应用于医学领域的基于统计模型的中文命名实体识别方法研究后,发现由于国内尚无公开统一的医学标注语料,这类研究无一例外均采用了各自进行人工标注训练语料的方法。本文受到深度学习领域中,在模型训练时进行fine-tuning的思路启发,提出在开放领域新闻标注语料进行模型训练的基础上,通过医学专业词典对统计模型进行fine-tuning,以使其能够在对中文临床病历的命名实体识别任务中有良好表现。该方法有效减少了在命名实体识别研究前期,为训练模型而不得不进行语料标注的工作量。并且避免了由于人工标注训练语料带来的主观偏差。经实验证明,该模型优化算法对隐马尔可夫模型和条件随机场模型均有效,分别将其准确率提高了 6.8%和10.5%,召回率分别提高了 8.9%和11.1%。最后,在应用中本文基于对1066份现实中文临床病历的命名实体识别结果,利用规则和字典相结合的方法对病历内容进行了关键信息抽取。并利用医学逻辑规则,对关键信息中的潜在信息进行了深入分析。基于上述的实验过程,通过总结探索出一套可行的辅助研究方法。
其他文献
以邓小平理论和党的十五大精神为指导,坚持“脱钩、分类、搞活”的原则,从“国家用人转变为单位用人”,从“计划经济转变为市场经济”,突破用人制度和分配方式的固定局限,面向市场
金剪一动、礼炮齐响,在花香中,第29届陈村迎春花市昨目正式开幕,为期10天。
根结线虫病是危害仙客来根部的重要病害。在我国发生普遍,尤以北京、上海、天津、青岛等地严重,常使植株生长衰弱,甚至死亡,降低仙客来的产量与质量。
“新艺术“运动追求的是师法自然,运用自然的元素来作为装饰元素。在平面设计、建筑设计、家具设计、陶瓷设计公共设施设计等都具有浓厚的自然主义色彩,都是采用大量的植物和动
目的探究护理安全管理路径对门诊护理管理中的影响。方法选取2016年本门诊接收的患者120例作为对照组,选取2017年本门诊接收的患者120例作为实验组。对照组患者接受传统护理
现代远程教育已经进入第三代网络远程教育阶段,学习支持服务是网络远程教育成功与否的关键。结合江苏开放大学的实际情况,构建第三代网络远程教育学习支持服务体系,包括三个阶段
今年央视春晚,“草根”歌手“旭日阳刚”以一首《春天里》博得满堂喝彩,迅速走红乐坛。然时隔不久,《春天里》的原创者汪峰便有针对性地收回了这首歌的演唱权。而原本是再正常不
不久前,有扬州的学者朋友来杂志社公干,中午就餐时,朋友拿出了特地带来的扬州“盐水鹅”请大家品尝。吮嚼着久违的香鲜老鹅,听着同事津津乐道的议论,联想起近来猪肉价格的不断攀升
自信心对于任何一个人来说都是十分重要的,而在儿童阶段就应该对于自信心的培养和提升给予足够的重视。从儿童阶段就开始对自信心给予培养,建立良好的心理状态,对实现整个儿
建立NGO信用评估体系是培育我国NGO良性发展的重要环节。文章基于北美NCIB慈善组织评估体系的案例分析,认为在我国NGO评估体系建立过程中,首先要建立全国性有影响力、知名度