论文部分内容阅读
文本挖掘是人工智能、机器学习、自然语言处理、数据挖掘及相关自动文本处理如信息抽取、信息检索、文本分类等理论和技术相结合的产物,它得到了越来越多研究人员的关注。文本挖掘是数据挖掘研究面向文本数据的自然延伸,其研究仍处于婴儿期,在方法和应用方面均未成熟。中医药学作为生命科学具备中国特色的传统医学组成部分,在疾病诊治和方药使用等方面具有特色和显著的临床疗效,并包含着丰富的知识,几千年的医学实践积累获得了大量的数据。在中医药学信息化建设的基础上进行KDD研究具有重要意义。中医药领域未存在文本挖掘的相关研究,本文在多个方面如文献临床复方药物组成和科属配伍知识发现、中医术语及关系抽取和中医证候基因关系知识发现等进行了研究。本文研究内容包括如下四个方面: ● 进行基于字特征的中文文本分类研究,实验表明字特征是中文文本分类的高效特征表示方法。提出了分布字聚类方法,该方法无需分词、具有低达10~2数量级的特征维数和高性能的特点,其与NB结合的性能接近基于词特征的SVM分类器,微平均准确率达到86%。 ● 进行中医药文献信息抽取研究,提出了Bubble-bootstrapping和ATP方法,该方法无需任何浅层中文自然语言处理、专业词库和已标注的训练语料,是一种接近无导师的可缩放性、可移植性信息抽取方法。在近40万文献题录的复方名称和疾病名称抽取实验中,取得了平均准确率达99%,F1值65%左右的结果。应用于中医药文献自动标引的副主题词抽取,达到80%的F1值。ATP是一种semi-hard的模式方法,是未来信息抽取研究的技术方向之一。 ● 进行文献临床复方药物组成文本挖掘研究,提出了复方科属配伍的概念,并进行了临床复方科属配伍知识发现研究,实现了MeDisco/3T文本挖掘系统。MeDisco/3T实验表明,复方文本挖掘研究具有较高的质量和实际应用价值,复方用药中存在科属配伍的规律,并能进行挖掘发现。 ● 整合利用中医药文献库和生物医学文献库(Medline)进行中医证候和基因相关关系知识发现研究,实现了原型系统MeDisco/3S,并进行了初步实验和分析,表明MeDisco/3S能为辅助中西医结合研究和生命科学交叉研究提供智能化的知识发现平台,是进行生物医学文本挖掘和多学科信息整合研究的典型范例。