论文部分内容阅读
中医药文化源远流长,至今已有五千多年的历史。中医药理论博大精深,积累了海量数据,却分散庞杂,且往往数据丰富但知识贫乏,这对中医药信息的充分利用、中医药诊疗经验的总结、中医药知识体系的丰富和发展形成了重重障碍。因此,如何集成大量散在的中医药信息和设计适应中医药特色的知识发现算法便成为迫切需要解决的问题。并逐步演化为中医药学结合计算机技术开展跨学科研究的热点。主要内容包括:
(1)中医药信息语义集成体系研究:针对中医药信息集成需求,提出一个融合网格、本体、数据仓库、知识发现、信息抽取和数据流监测等技术的三层语义集成体系,并采用GT3.2实现了一个基于网格的中医药信息语义集成系统TCM-SGrid(TraditionalChineseMedicineinformationSemanticintegrationsystembasedonGrid)。
(2)中医药信息语义集成方法研究:引入语义相似性栈,并按其自底向上顺序分层探讨了计算实体(本文指概念和属性)间相似性的启发规则,在此基础上分别设计了一个领域本体间自动映射算法及一个综合考察“服务本体语义相似性”和“动态服务质量满足程度”两项指标的网格服务发现算法,解决了TCM-SGrid系统中领域本体的异构和基于语义模型的网格服务发现等语义集成方法问题。
(3)中医药概念识别研究:为加速TCM-SGrid所集成的中医药文本信息的整理和结构化,中医药领域概念的自动有效识别变得尤为重要。为了克服中医药领域训练样例少和CRF(ConditionalRandomField)模型过度拟合等缺点,本研究采用不确定性、样例代表性、批量样例多样性三项指标作为训练样例的选择标准,设计了基于2-pool多标准主动学习的CRF算法,实现了文本信息中中医药领域概念的有效识别。
(4)中医方剂数据挖掘研究:选择TCM-SGrid系统中集成的方剂作为数据集,将基于互信息的特征选择遗传算法融入CMAR(ClassificationbasedonMultipleAssociationRules)算法,通过规则组强度来构建多关联分类模型,设计了面向中医方剂高维数据集的多关联分类算法I-CMAR,该算法在内存占用、运行时间、分类精度等指标上均优于其他同类算法。
(5)中西医病理、生理因素在线相关性研究:引入基于医疗传感器网络的数据流管理模型,提出一种面向高维数据的在线典型相关性(CCA)分析算法QuickCCA,针对传统CCA计算中的性能瓶颈,在系统内存资源受限情况下,采用不等概率的列采样技术实现实时流数据约减,形成概要矩阵;然后在概要矩阵基础上增量计算多维数据流间前k个典型相关系数,以期实现算法在精度与性能之间的折衷。为基于医疗传感器网络的高维中西医病理、生理因素在线相关性研究提供了解决方案。