基于远监督的蛋白质交互关系抽取

来源 :南京航空航天大学 | 被引量 : 1次 | 上传用户:l4511520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质交互关系(Protein-Protein Interaction,PPI)是生物医学领域研究的重要内容之一,对疾病的诊断和治疗以及新药的研制具有重要的意义,目前经过实验验证得到的PPI相关知识主要以非结构化文本的形式存储于生物医学文献中。随着生物医学文献数量的飞速增长,依靠人工挖掘蛋白质交互信息的方式难以满足实际的应用需求。因此,从生物医学文献中自动抽取蛋白质交互关系成为生物信息领域重要的研究课题。目前蛋白质交互关系抽取主要基于远监督的方法,通过将知识库与非结构化文本对齐来自动获取大规模训练数据,在一定程度上减轻了对人工标注语料的依赖。但是这种方法存在明显的缺陷,即在构建训练数据的过程中引入了大量的噪音数据,这些噪音会对模型的抽取性能造成很大的影响。针对这个问题,本文首先建立了基于远监督的蛋白质交互关系抽取基本模型,利用远监督产生的训练数据来训练分类模型,并在人工标注语料上进行测试,通过实验结果进一步分析了训练数据中存在的噪音问题。接下来本文建立了基于主题集合的蛋白质交互关系抽取模型,在交叉预测的基础上利用关键词和句子相似性抽取蛋白质对签名档对应的主题集合,并将主题集合之外的句子视为噪音进行清除,利用去噪后的数据训练分类模型并在人工标注语料上进行测试。实验通过对多个不同参数组合进行测试,得到的最好结果与远监督基本模型相比,有交互蛋白质对和无交互蛋白质对的F1度量分别提高了1.49%和9.18%,去噪效果明显。为了充分利用训练数据中句子类别间的相互关系,本文引入了多示例多标记学习模型用于蛋白质交互关系抽取中,将蛋白质对签名档中的句子及其类别构造为多示例多标记模型,利用最大期望算法来确定句子的类别,进而清除训练数据中的噪音。实验结果表明,基于多示例多标记的迭代算法对于训练数据中的噪音识别更加准确,相比于远监督的基本模型,在有交互蛋白质的F1度量略有提升的基础上,无交互蛋白质对的F1度量提高了14.84%,模型性能提高明显,且抽取结果更加平衡。
其他文献
为装点城市夜景,对既有大跨桥梁进行光彩亮化工程改造已经成为一种趋势,但是安装亮化灯具会显著改变大跨桥梁索结构的气动特性及风致振动响应。为保证桥梁结构安全及长期使用寿命,有必要对大跨桥梁索结构安装亮化灯具后的气动特性及风致振动响应进行研究。本文围绕亮化灯具对索结构的气动特性的影响展开如下研究:首先,介绍了圆柱绕流,计算流体力学和静力三分力的基础理论,建立二维的CFD数值模型,通过对比前人研究成果验证
为改善喷气涡流纺产品结构单一性及提高亚麻纱线蓬松度,开发一款喷气纺麻类混纺纱,为企业生产亚麻喷气涡流纺纱提供工艺数据支撑。本课题以企业实际生产喷气涡流纺亚麻/棉出现的问题为立题目标,对实际喷气涡流纺亚麻/棉纱线过程中出现的亚麻纤维堵塞纺纱喷嘴以及亚麻纤维包覆纱芯难等问题展开研究。首先确定亚麻与棉的混纺比,制备亚麻/棉纤维须条。根据纺纱要求亚麻纱线含量最低为30%以及喷气涡流纺最高纺亚麻极限,将亚麻
投资是一个企业生存之本,投资效率的高低也直接和企业的投资决策相关,并直接影响着一个企业的生死。然而,企业的投资由于受各方面因素的影响,投资并非总是有效的,投资过度与
[摘要]新疆和平解放以来,中国共产党高度重视新疆文化建设,新疆文化事业发展取得重大成就。新疆文化建设以科学的理论为指导,在文化政策制定中贯彻落实党的路线方针政策,在新疆治理的总布局中规划文化建设,将意识形态领域反分裂斗争作为重要任务,以丰富各族群众精神文化生活为重要目标,充分发挥兵团在文化方面的特殊作用。这些历史经验对当前和今后一个时期新疆贯彻落实“文化润疆”方针具有重要的借鉴意义。  [关键词]
在没有躯体运动的情况下,根据记忆在思维中排练特定动作的动态过程称为运动想象(Motor Imagery,MI)。运动想象脑-机接口(Brain-Computer Interface,BCI)是指通过在大脑中想象
近年来,随着智能制造业的崛起与物流仓储系统的扩大,对基于非预定路径导航方式的AGV也有了更多的需求和更高的技术要求。同时定位与建图(SLAM)技术是目前对于非预定路径导航问题最主要的解决方案,研究SLAM的算法优化和应用具有很大的研究价值与实际工程意义。根据所采用的场景扫描感知的传感器类型,SLAM技术大致分为激光与视觉这两种常用的方法。本文对这两种基于单一传感器的SLAM技术进行分析,针对各自在
改革开放以来,我国经济历经近四十年高速增长阶段后正处于转型发展过程中。随着资本流动愈加频繁,在全国范围内形成了以上海为代表的几大金融集聚区域和金融中心。在更普遍意
贫困问题是阻碍经济持续稳定均衡增长的重要因素之一,农村贫困地区是脱贫攻坚的薄弱环节和重点区域,农村贫困人口脱贫是全面建成小康社会过程中最艰巨的任务。习近平总书记在2015年中央扶贫开发工作会议中明确指出,我国要确保在2020年全面消除全国贫困问题。近年来,随着精准扶贫政策的逐步实施,我国扶贫模式发生了较大变化,金融扶贫已成为助力脱贫攻坚的重要途径之一。与此同时,我国逐步完善了金融扶贫框架,金融扶贫
由于上级政府分配的低保名额和实际应保家庭数量存在偏差,为了保证指标落地,上级政府会将低保名额最终分配权移交给基层政府,而基层政府在识别应保家庭中又常常会偏离政策文件规定。因此,本文在对贫困人口的识别中放弃单一收入维度的识别方法,尝试采用线性化倾向值得分来重新定义贫困人口,将“贫困测量误差”从低保政策“瞄准误差”中剥离出来,以更符合现实情景的角度来评价农村低保政策瞄准效果,并对其减贫效应进行分析。利
工业机器人的控制系统具有时变、强耦合和非线性等特征,同时还包含测量误差、随机扰动和负载多变等诸多不确定因素,因此获得一个准确的运动控制模型相当困难,提高运动精度一直都是机器人控制领域研究的重要课题。为了提高控制模型对上述不确定因素的应对能力,本文利用神经网络强大的非线性拟合能力,对机器人的关节扭矩预测、末端负载识别以及碰撞检测展开了研究。针对机器人的关节扭矩预测,首先在负载固定情况下,将机器人工作