基于中医本体的信息提取技术的研究与设计

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:trjycp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从1993年中国连入Internet我国的信息化越来越快。Internet的快速发展使它成为人们获取信息的必备工具。但是随着信息化的发展Internet上的信息越来越多,需要查看成百的网页才能从中发现有效信息,这使人们在网上获得信息越来越不方便。现代的人们越来越注重人们自身的保健。越来越多的人多把目光投向了中医。信息时代要求信息化,越来越多的中医理疗信息出现在互联网上,快速准确的得到中医信息是一个比较困难的技术。   本体是人们对特定领域知识的共同认识的总结,方便人们交流信息。本论文使用的基于中医本体的信息提取技术就是本体与文档特征空间向量两种技术的结合,用于提高信息检索的效率。   本论文构建了中医学本体,用于辅助文档空间向量方法,提高查全率和准确率。中医本体中包含了各种中医概念类,本文就是使用这些专家编写的概念与网页信息中的关键词对比,突显出网页中的中医概念,从而把包含中医理论信息的的网页凸显出来。   本论文对普通权重计算公式进行了改进。普通的权重计算公式只是简单的利用了概念词汇的词频,没有突出概念的语义。在实际的阅读中一个关键概念的出现往往与文档的语义信息有极大关系,本论文就是使用这一点,在构建中医本体时就加入了概念词汇的语义权重。利用词频和语义权重的算术平均数代表概念词汇的权重,代替了单纯的词频权重法。没有在中医本体中出现的词汇还是使用词频代表权重。这样就能凸显中医本体中的关键概念了。   本论文使用文档空间向量的余弦表示两个文档的相似度。通过和学习样本的比较,找出相似度最大的一个学习文档,把待检测样本归入这个学习样本所在的类别,这就完成了样本分类。采用论文中的改进的空间向量表示方法可以提高文档分辨率。   本论文对文档信息的提取是基于固定格式的。这样可以去除不必要的无用信息,提高每个句子的信息比重。     
其他文献
作为一种特殊的移动自组织网络(Mobile Ad-hoc Networks),车辆自组织网络(Vehicular Ad hoc Networks , VANETs)的应用前景已然十分明朗。大量的科研工作者投身其中。防止恶
计算机视觉是用计算机去实现人类的视觉功能,来实现对周围三维场景的感知、识别和理解。立体视觉作为计算机视觉的一个重要分支,其基本原理是通过两幅或多幅二维图像,找到图
微博作为新兴的网络社交媒介,以其开放互动的特性迅速赢得了大量用户的青睐。随着注册用户数量和微博文本信息爆炸式的增长,如何帮助用户获取感兴趣的信息成为亟需解决的问题
移动Ad Hoc网络由一组带有无线通信收发装置的移动终端节点组成、网络中每个终端可以自由移动、地位相等,是一个多跳、临时、无中心网络,不需要现有信息基础网络设施的支持,
网格计算能够将各种处于异地、不同规模、多元的计算资源整合在一起协同工作,不仅能使其变成拥有跟超级计算机一样处理能力的整体,还能将资源按需分配给用户,大大提高计算资
无线传感器网络在目前是一个十分活跃的领域,在许多方面都得到了广泛的应用,它是由许多低功率的传感器节点组成且以无线的形式收发信息,并将采集到的信息传递到远处的基站处
随着智能手机和智能终端的广泛应用,在线社交网络也开始迅猛发展,各种各样的社交活动开始产生。人们在随时随地享受在线社交网络带来的乐趣之余,也面对了一些问题,例如智能手
无线自组网络描述的是一个包含具有无线移动,并能动态地自组成网络拓扑结构的节点的系统,它允许人们和设备在不需要先前网络和通信设施的情况下,在区域内进行网络互联。本文研究
随着互联网信息的爆炸式增长,Internet已经成为世界上最大的信息发布中心。然而,信息的自由发布和随意浏览使得因特网的内容良莠不齐,使得它在给人们带来方便的同时,也产生了
随着网络攻击技术和手段的日益突出,入侵检测系统逐渐引起诸多学者的关注,成为了当前研究网络安全方面的重要课题。在众多的入侵检测方法中,研究人员发现将支持向量机SVM(Sup