基于弱监督的蛋白质交互识别

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:ananjuben
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质交互(Protein-Protein Interaction,PPI)信息对生物和医药研究意义重大。目前在生物医学发现的PPI信息大都放在生物文献中,且以非结构化文本的形式保存。生物学家们试图手工地识别出PPI信息并将其保存于关系数据库中,然而随着文献的激增,手工识别的方式已经难以满足实际的需求。因此,研究如何自动识别文献中的蛋白质对成为了一项新的课题。目前,PPI识别的技术主要是基于有监督的机器学习方法,而基于有监督的方法依赖于大量标注了PPI交互信息的高质量文本集合,而构造这样的文本集合需要耗费大量的人力和时间。为了避免以上问题,本文提出了一种基于弱监督的PPI识别的方法,这种识别方法只需利用少量的标注信息。本文从以下三个方面进行了研究。第一,本文以句子为线索提出了基于弱监督的PPI识别方法。该方法是基于单句进行分析的,对蛋白质关系描述的上下文进行聚类,提取出交互关系描述的模式,利用模式对交互关系进行判断。实验结果表明,采用弱监督的PPI识别方法取得了较好的识别结果。第二,本文在基于弱监督的识别法的基础上,对描述交互关系的特征词进行选择。本文分别采用了基于词向量的特征词选择方法、基于词向量和高频词的特征词选择方法。然后在各种特征选择方法下进行实验,实验结果表明,通过基于词向量法进行特征选择得到的特征词最有助于识别PPI信息,其最佳识别结果的F-Score比没有使用特征选择时的高2.2%。第三,本文在句子级线索(即基于弱监督的PPI识别)的基础上,引入了签名档级的线索,得到一个组合模型,从而识别PPI信息。实验结果表明,在基于弱监督的PPI识别法的基础上,引入了签名档相似性后,在相同蛋白质对得分的阈值下,识别的结果的F-Score更高,识别结果更稳定。
其他文献
[摘要]新疆和平解放以来,中国共产党高度重视新疆文化建设,新疆文化事业发展取得重大成就。新疆文化建设以科学的理论为指导,在文化政策制定中贯彻落实党的路线方针政策,在新疆治理的总布局中规划文化建设,将意识形态领域反分裂斗争作为重要任务,以丰富各族群众精神文化生活为重要目标,充分发挥兵团在文化方面的特殊作用。这些历史经验对当前和今后一个时期新疆贯彻落实“文化润疆”方针具有重要的借鉴意义。  [关键词]
在没有躯体运动的情况下,根据记忆在思维中排练特定动作的动态过程称为运动想象(Motor Imagery,MI)。运动想象脑-机接口(Brain-Computer Interface,BCI)是指通过在大脑中想象
近年来,随着智能制造业的崛起与物流仓储系统的扩大,对基于非预定路径导航方式的AGV也有了更多的需求和更高的技术要求。同时定位与建图(SLAM)技术是目前对于非预定路径导航问题最主要的解决方案,研究SLAM的算法优化和应用具有很大的研究价值与实际工程意义。根据所采用的场景扫描感知的传感器类型,SLAM技术大致分为激光与视觉这两种常用的方法。本文对这两种基于单一传感器的SLAM技术进行分析,针对各自在
改革开放以来,我国经济历经近四十年高速增长阶段后正处于转型发展过程中。随着资本流动愈加频繁,在全国范围内形成了以上海为代表的几大金融集聚区域和金融中心。在更普遍意
贫困问题是阻碍经济持续稳定均衡增长的重要因素之一,农村贫困地区是脱贫攻坚的薄弱环节和重点区域,农村贫困人口脱贫是全面建成小康社会过程中最艰巨的任务。习近平总书记在2015年中央扶贫开发工作会议中明确指出,我国要确保在2020年全面消除全国贫困问题。近年来,随着精准扶贫政策的逐步实施,我国扶贫模式发生了较大变化,金融扶贫已成为助力脱贫攻坚的重要途径之一。与此同时,我国逐步完善了金融扶贫框架,金融扶贫
由于上级政府分配的低保名额和实际应保家庭数量存在偏差,为了保证指标落地,上级政府会将低保名额最终分配权移交给基层政府,而基层政府在识别应保家庭中又常常会偏离政策文件规定。因此,本文在对贫困人口的识别中放弃单一收入维度的识别方法,尝试采用线性化倾向值得分来重新定义贫困人口,将“贫困测量误差”从低保政策“瞄准误差”中剥离出来,以更符合现实情景的角度来评价农村低保政策瞄准效果,并对其减贫效应进行分析。利
工业机器人的控制系统具有时变、强耦合和非线性等特征,同时还包含测量误差、随机扰动和负载多变等诸多不确定因素,因此获得一个准确的运动控制模型相当困难,提高运动精度一直都是机器人控制领域研究的重要课题。为了提高控制模型对上述不确定因素的应对能力,本文利用神经网络强大的非线性拟合能力,对机器人的关节扭矩预测、末端负载识别以及碰撞检测展开了研究。针对机器人的关节扭矩预测,首先在负载固定情况下,将机器人工作
蛋白质交互关系(Protein-Protein Interaction,PPI)是生物医学领域研究的重要内容之一,对疾病的诊断和治疗以及新药的研制具有重要的意义,目前经过实验验证得到的PPI相关知识
在国家“教育兴国”“文旅融合”战略的大力支持下,研学旅游发展炙手可热。研学旅游的开展拉近了学生与社会生活的密切联系,补充学生在学校内无法实现的素质拓展内容。但同时也出现了一些学生“只游不学”、研学旅游同质化的瓶颈问题。当前学者们寻找解决策略,局限在开发原则、开发课程、专业人才建设等方面,尽管在一定程度上能够提供参考,但是笔者认为研究的深度和广度仍有待进一步拓展。基于产业背景和学术背景,笔者以河北省
头孢克洛作为重要的第二代头孢菌素,对多种革兰阳性、阴性菌均具有很强的抗菌活性,多年来一直是全球畅销的口服头孢类抗生素。目前头孢克洛的主要制备方法是化学合成法,有两