论文部分内容阅读
随着生物信息学的发展,每天都有大量的文献发布到各种期刊上,面对快速增长的生命科学文献,依靠手工标注的方式难以实现高效的管理,将文本挖掘技术应用于生物医学领域能够很好的解决文献分类效率,文献分类技术可以从杂乱无序的信息中提取科研人员感兴趣的内容。本文通过机器学习分类器对文献进行分类,筛选出植物表型和基因相关的文献,提高分类的效率,具体工作如下:(1)完成了数据获取和预处理工作通过爬虫软件收集了 MEDLINE数据库中和植物表型基因相关的文献,对收集到的植物表型基因的文献进行预处理操作,主要包括:文献清洗、文献切分、词干提取和删除停用词。(2)构建了词袋模型、TF-IDF模型和Word2vec模型对文献进行特征处理针对植物表型基因文献中特征处理问题,对预处理后的文献特征赋予不同的权重,将文献的内容转换成向量的形式,主要依据文献中单词出现的频率、逆文档频率和文本相似度等属性,通过实验选取合理的超参数,最终对不同特征提取方法的分类效果进行评价。(3)运用了机器学习分类器对植物表型基因文献进行分类通过对现有文本分类算法优缺点的比较,选取了支持向量机、朴素贝叶斯和随机森林方法对植物表型基因文献进行分类,结合卷积神经网络,得到植物表型语料库不同分类器的分类效果。实验结果表明,植物表型基因文献数据集中,卷积神经网络的分类效果和支持向量机的分类效果相差不大,准确性都达到90%左右。支持向量机分类器的分类效果优于随机森林和朴素贝叶斯分类器的分类效果,随机森林和朴素贝叶斯分类器的准确率也在85%以上。植物表型基因文献的分类研究提高了检索效率,有助于科研人员挖掘文献背后的价值,筛选优质作物,品种,对于新理论的提出具有非常重要的意义。