【摘 要】
:
必需基因对于生物的生存和繁殖起着不可或缺的作用,它的鉴定在合成生物学、生物医学、生物化学等方面有着重要意义。必需基因的鉴定主要采用实验方法以及基于计算的方法。大部分基于计算方法的研究采用了监督学习方法,这类方法需要使用大量标记数据训练模型以保证模型性能,但是获取基因的标记比较困难。针对这种情况,本文提出使用半监督学习预测必需基因。半监督学习可以同时利用标记数据和未标记数据信息以降低预测任务对标记样
论文部分内容阅读
必需基因对于生物的生存和繁殖起着不可或缺的作用,它的鉴定在合成生物学、生物医学、生物化学等方面有着重要意义。必需基因的鉴定主要采用实验方法以及基于计算的方法。大部分基于计算方法的研究采用了监督学习方法,这类方法需要使用大量标记数据训练模型以保证模型性能,但是获取基因的标记比较困难。针对这种情况,本文提出使用半监督学习预测必需基因。半监督学习可以同时利用标记数据和未标记数据信息以降低预测任务对标记样本的需求量。本研究以41种原核生物和6种真核生物为对象展开研究,主要工作如下:首先使用半监督学习方法预测原核生物的必需基因以初步验证方法的有效性,并设计了对比实验用以探索标记样本数量对模型性能的影响。实验中将标记样本数量占总样本量的比例设置从10%到90%递增,步长为10%。结果显示模型的预测性能随着标记样本比例增加而变得更好。当标记样本的比例为20%时,41种原核生物的平均AUC得分为0.710,表明半监督学习可以利用少量的标记样本构建有效的必需基因预测模型。然后使用半监督学习方法预测真核生物必需基因以进一步验证方法的有效性,并且设计了三组对比实验探索如何优化模型性能。在构建模型时需要得到反映样本关系的图。在构图过程中,使用不同的核函数度量样本的相似性会影响模型的性能,因此本研究设计了对比实验探索使用拉普拉斯核函数和高斯核函数度量样本相似性时对模型性能的影响。结果显示,使用拉普拉斯核函数度量样本相似性时,模型预测效果更好。使用K Nearest Neighbor(KNN)算法构建稀疏图时,K的取值也会影响模型的性能。本研究提出一种自适应的K值选取策略将K的取值数据集的样本容量关联,并设计了基于不同K值的对比实验。结果表明使用自适应的K值选取策略选取合适的K值有助于提高预测效果。也设计了对比实验探索标记样本数量对于模型性能的影响,结果显示当标记样本占比为30%时,6种真核生物的平均AUC得分为0.710,进一步验证了方法的有效性。
其他文献
RV减速器以其效率高、精度好、刚度大等突出优点,被广泛应用于机器人、精密机床等重点领域。摆线齿轮是RV减速器的核心零部件,其齿廓加工精度对RV减速器的综合性能具有重要影响。目前,国内摆线轮齿廓精加工基本采用进口磨齿设备,其通用性强,价格昂贵,导致企业加工成本很高,国外对相关加工技术甚至还加以限制,使得国内企业难以实现高精度摆线轮的批量化生产。因此,本文对摆线轮的成形磨削方法展开研究,基于成形金刚石
作者、本文、读者三种中心论,是西方文学批评在整个20世纪经历的三次转折,分别代表着回归作者原意,专注文本本身,以及把读者纳入意义解读当中,是文学批评发展史上的重要过程。在不同的时代背景下,社会转变过程中,文学批评的客体在“作者——作品——读者”三者间的转换造成了文学批评内部构造的不断重构。建筑批评或称建筑评论、建筑评价,是建筑学专业中的一种批评性的实践。建筑批评作为批评学的一种,按照一定的批评标准
数字化车间信息集成是实施智能制造的关键步骤,它的核心是通过信息技术手段,将车间信息规范统一并集成,使信息能在整个系统中流通,从而有效采集车间信息,配置生产资源,达到提高人员设备效率,降低生产成本的目的。船用柴油机关重件企业属于多品种、小批量的柔性生产方式,这类企业在实施智能制造中缺乏相关的标准,因此,制定符合该行业企业特点的智能制造相关标准,并且通过标准验证平台对标准内容进行验证,对此类行业企业进
鸢乌贼(Sthenoteuthis oualaniensis)为印度洋-太平洋地区广泛分布的重要经济物种,基于形态特征,鸢乌贼被划分为5个不同种群,然而针对太平洋和印度洋海域鸢乌贼的种群遗传结构研究较为缺乏。为厘清鸢乌贼在东印度洋的种群遗传结构及其通过东印度三角区与西太平洋种群的跨洋联系,本研究以东印度洋北部、赤道和南部,以及西太平洋的南海和菲律宾海共8个鸢乌贼地理种群为研究对象,基于线粒体DNA
燃料电池是最具发展潜力的能源转换装置,有着清洁高效,低温运行,燃料来源丰富,可移动性优点。氧还原反应(ORR)和氢氧化反应(HOR)是分别在燃料电池阴极和阳极发生的电化学反应。阴极上的ORR在动力学上由于O=O键的活化或裂解问题而变慢,目前商业化的ORR催化剂为Pt/C,但是全球铂的储量有限。此外,铂族金属催化剂的HOR活性在碱中比在酸性电解质中慢约两到三个数量级。这会导致阳极上更高的铂族金属负载
拉曼光谱是印度学者Raman于1928年首次观察到的一种振动光谱技术,能够为化学鉴定提供检测分子的“指纹信息”,引起了化学领域、材料领域与生物医学领域学者们极大的研究兴趣。但是拉曼散射极其微弱,检测微量物质时显的尤为不足。表面增强拉曼散射(Surface-enhanced Raman scattering,SERS)的出现使得这个问题得到了有效的解决。SERS可以有效的增加拉曼信号强度、抑制荧光对
夏热冬冷地区既有建筑室内热湿环境较差,居民为改善室内环境质量,空调供暖能耗逐年上升。目前该地区供暖空调能耗水平的理论研究与实测结果差异较大。本研究旨在明确该地区居住建筑供暖空调实际能耗水平及在满足城镇居民热舒适需求时的负荷特性及能耗需求,对该地区能耗调控和预测提供理论依据。首先,在成都、重庆、上海共选取46户典型城镇住宅,于2019/01/21-2020/10/26,对91台空调器,111台其它家
随着不可再生能源的不断消耗,开发利用各种可再生能源已成为世界各国的重要发展战略。我国海域面积辽阔,非常有利于海洋能的开发利用。作为一种海洋能,波浪能的实际可开发量最高,这也使其具有最大的开发潜力。波浪能的开发利用,不仅满足能源发展战略,还能满足国防需求。由于海洋环境的特殊性,这也对波浪能发电系统的可靠性提出了更高的要求。功率变流器作为新能源发电系统的核心组成部分,其长期安全可靠运行对于整个发电系统
智能交通系统(Intelligent Transportation Systems,ITS)是未来交通发展的核心,更是支撑车路协同、自动驾驶及车辆编队等无人化、智慧化交通的基础。车联网下的车载无线通信是ITS高效运作的重要组成部分,是保障交通安全、解决城市拥堵问题的关键技术。为了保证车联网通信的服务质量,在无线接收机侧采用信道估计联合信道均衡处理来对抗车联万物(Vehicle-to-Everyth
在过去的几十年中,凝聚态物理领域的发展突飞猛进,其中二维材料的发现和拓扑学的引入给这个领域带来了巨大的发展。人们在静态系统中已经发现了许多拓扑材料和拓扑现象,如拓扑绝缘体、量子霍尔效应、体-边对应关系等。而时间周期性驱动的系统,因具有更丰富的拓扑现象,并且拓扑性质可以通过改变周期性驱动场而变得易于调控,近几年来获得了越来越多的关注。对周期性驱动量子系统的主要研究方法为Floquet定理。人们发现在