基于语言处理模型的蛋白结构分类的实验分析

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:tianbentb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过计算机手段对蛋白质进行空间结构的研究,可以作为实验手段的有效补充,应用于蛋白质空间结构的预测、设计和比对当中。该领域的研究已经成为蛋白质工程的一项重要内容。蛋白质的空间结构是以不同种类氨基酸的排列顺序为基础的,不同氨基酸在肽键、氢键、范德华力以及静电作用等因素的影响下形成复杂的空间结构,但存在一定规律。因此,研究氨基酸序列与蛋白质空间结构的对应关系称为结构生物学中至关重要的内容。本文将语言处理的思想用于研究蛋白结构分类的研究中,将蛋白质结构中的不同氨基酸序列视为一种自然语言。在以前的研究中主要使用生成式模型进行从氨基酸序列到蛋白空间结构的预测,本文选用判别式模型展开研究,这在以前是没有被提出过的。本文选择了UniProt蛋白质库作为蛋白质分子序列的实验数据集,根据PDB数据集中的蛋白质的结构信息进行数据集标注,最终数据集包含2985181个蛋白质分子序列,每个分子序列包含50个氨基酸。本文在单词向量化方法上选取skip-gram和FastText中文本分类两种方法,分词量分别选取了6和9,单词向量维数分别选取了5和50,通过非线性的LSTM和线性的FastText两种模型进行分类,使用了测试集和拓展测试集进行测试,在以上5组变量基础上进行了10组对比实验,获得了20个实验结果。最终得到使用FastText中的文本分类按照分词量为6、维数为5对训练集进行单词向量化,再使用LSTM模型进行分类的合适方法。该方法在两种不同的测试集进行测试最高预测准确率分别可以达到68.61%和80.89%
其他文献
目的探讨颅内血管周细胞瘤(HPC)的临床病理特征、免疫表达、诊断及鉴别诊断。方法对7例颅内HPC患者的临床病理资料,结合相关文献分析其临床表现、病理特点。结果7例患者中男4例,
启动测量范式以其独特的优势——能够考察长时记忆中多种心理表征的特点及其加工机制——已成为心理学研究的主要范式之一。启动范式对心理学研究的进展有着很大贡献。借助该
医院集团在快速发展中,财务管理的各种问题,如何进一步加强管理,提高资金使用效益,实现可持续发展目标,都有待于探讨。 In the rapid development of hospital groups, vari
19世纪上半期,俄国农村中由于农奴制剥削的加强,导致农民的经济状况和地位严重恶化,农民不是不寻求其他的谋生手段,农民做为一个阶级产生了分化。由于整个社会商品货币关系的发展,制
在中华人民共和国成立后不久,四川凉山的彝族人民。从落后的奴隶制中解放了出来,“一步跨千年”,进入了新的历史阶段——社会主义社会。原始、封闭的黑土地苏醒了!凉山巨变了!大
目的研究实时超声弹性成像技术对颈动脉斑块稳定性的评估效果。方法选取100例脑卒中患者,对患者颈动脉采取常规超声检查及实时超声弹性成像技术检查,对检查结果展开统计分析
中等职业学校与学生之间的法律关系是一个比较复杂的问题,在现阶段,审视并努力构建中职学校与学生间和谐的法律关系,有助于更好地保护各方权益,解决两者间纠纷,实现依法治校,促进教
目的:探讨改良气管插管后留置胃管的方法。方法:将296例气管插管后手术患者按手术日期(单、双日)随机分为对照组135例和试验组161例。对照组按传统方法置管,试验组予螺旋型鼻肠营
综合计算机网络协议与网络化虚拟仪器的层次结构,阐述了网络化虚拟仪器的概念内涵。面向Internet是虚拟仪器网络化设计的发展方向。在Internet环境下共享虚拟仪器网络资源是网
介绍了采用Visual Studio.NET多语言平台开发基于Oracle9i网络数据库的线损计算及分析系统.主要阐述系统的开发环境和平台、网络组织结构、线损的计算方法以及系统的主要功能