文本挖掘在中医药中的若干应用研究

被引量 : 0次 | 上传用户:lsdkj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本挖掘是人工智能、机器学习、自然语言处理、数据挖掘及相关自动文本处理如信息抽取、信息检索、文本分类等理论和技术相结合的产物,它得到了越来越多研究人员的关注。文本挖掘是数据挖掘研究面向文本数据的自然延伸,其研究仍处于婴儿期,在方法和应用方面均未成熟。中医药学作为生命科学具备中国特色的传统医学组成部分,在疾病诊治和方药使用等方面具有特色和显著的临床疗效,并包含着丰富的知识,几千年的医学实践积累获得了大量的数据。在中医药学信息化建设的基础上进行KDD研究具有重要意义。中医药领域未存在文本挖掘的相关研究,本文在多个方面如文献临床复方药物组成和科属配伍知识发现、中医术语及关系抽取和中医证候基因关系知识发现等进行了研究。本文研究内容包括如下四个方面: ● 进行基于字特征的中文文本分类研究,实验表明字特征是中文文本分类的高效特征表示方法。提出了分布字聚类方法,该方法无需分词、具有低达10~2数量级的特征维数和高性能的特点,其与NB结合的性能接近基于词特征的SVM分类器,微平均准确率达到86%。 ● 进行中医药文献信息抽取研究,提出了Bubble-bootstrapping和ATP方法,该方法无需任何浅层中文自然语言处理、专业词库和已标注的训练语料,是一种接近无导师的可缩放性、可移植性信息抽取方法。在近40万文献题录的复方名称和疾病名称抽取实验中,取得了平均准确率达99%,F1值65%左右的结果。应用于中医药文献自动标引的副主题词抽取,达到80%的F1值。ATP是一种semi-hard的模式方法,是未来信息抽取研究的技术方向之一。 ● 进行文献临床复方药物组成文本挖掘研究,提出了复方科属配伍的概念,并进行了临床复方科属配伍知识发现研究,实现了MeDisco/3T文本挖掘系统。MeDisco/3T实验表明,复方文本挖掘研究具有较高的质量和实际应用价值,复方用药中存在科属配伍的规律,并能进行挖掘发现。 ● 整合利用中医药文献库和生物医学文献库(Medline)进行中医证候和基因相关关系知识发现研究,实现了原型系统MeDisco/3S,并进行了初步实验和分析,表明MeDisco/3S能为辅助中西医结合研究和生命科学交叉研究提供智能化的知识发现平台,是进行生物医学文本挖掘和多学科信息整合研究的典型范例。
其他文献
如今,榨果汁、菜汁显得相当时髦。可是买了榨汁机之后,很多人都有同样的困惑:榨汁损失营养素吗?怎么榨才好?榨完了能放多久?渣子吃不吃?或许,听到的答案会与你的预想不同。
<正>一个健康的社会,能够给公民提供全方面的保护,能够"让无力者有力",让一个窝囊的人免于被欺凌。这是一幕什么样的悲剧?2011年10月23日,深圳宝安区西乡街道的一间出租屋里,
<正>日本男人多小个子,却被世人归为大男子主义最严重的一类。厨房里几乎见不到他们的身影,因为那里是家务区。日本男人在家里做家务,那不是被人笑话吗?可是进厨房工作就不同
期刊
在师生交流的过程中,有些学生可能由于某种原因会想办法掩饰自己,隐瞒回避一些问题,因此我们一方面要运用倾听技术、干预技术来充分了解和引导学生,另一方面还要运用心理观察
<正>春夏秋冬这是顺应自然的规律。而人们的生存如果违背这一法则,就会引起疾病的发生。湿气病,也就是时令病中的一种。中医认为人与自然环境存在差异的概率。概率小,亦有不
跨文化语用失误是近年来语用学和跨文化交际学研究的热点问题。在跨文化交际中,来自不同文化的人们讲同一种语言,但由于在思维方式、讲话规则、社会价值、词汇的内涵意义及其它
本文主要论述如何用法律制度促进和保护中小企业这一特殊群体的发展。中小企业的发展离不开法律的保护,要使中小企业取得更好的发展必须建立一套系统的、完整地、科学的法律保
目的针对复合材料长贮密封包装容器,研究探讨如何进行合理、可靠的内部环境湿度控制设计。方法通过对密封包装容器内环境相对湿度的主要影响因素进行分析,并结合实例针对包装
配送作为物流中一个重要的直接与消费者相连的环节,随着物流活动的深入而不断的发展起来,对物流活动的顺利开展发挥着重要的作用。商业配送是商品经济发展的产物,积极推动着
<正>随着电脑的普及,和电脑有关的眼部疾病也日益增多,不少长期在电脑前工作的人常常会感觉眼睛发干发涩、视力模糊,于是在广告、网上论坛的推荐下去美容院"洗眼睛",洗完后感