论文部分内容阅读
从1993年中国连入Internet我国的信息化越来越快。Internet的快速发展使它成为人们获取信息的必备工具。但是随着信息化的发展Internet上的信息越来越多,需要查看成百的网页才能从中发现有效信息,这使人们在网上获得信息越来越不方便。现代的人们越来越注重人们自身的保健。越来越多的人多把目光投向了中医。信息时代要求信息化,越来越多的中医理疗信息出现在互联网上,快速准确的得到中医信息是一个比较困难的技术。
本体是人们对特定领域知识的共同认识的总结,方便人们交流信息。本论文使用的基于中医本体的信息提取技术就是本体与文档特征空间向量两种技术的结合,用于提高信息检索的效率。
本论文构建了中医学本体,用于辅助文档空间向量方法,提高查全率和准确率。中医本体中包含了各种中医概念类,本文就是使用这些专家编写的概念与网页信息中的关键词对比,突显出网页中的中医概念,从而把包含中医理论信息的的网页凸显出来。
本论文对普通权重计算公式进行了改进。普通的权重计算公式只是简单的利用了概念词汇的词频,没有突出概念的语义。在实际的阅读中一个关键概念的出现往往与文档的语义信息有极大关系,本论文就是使用这一点,在构建中医本体时就加入了概念词汇的语义权重。利用词频和语义权重的算术平均数代表概念词汇的权重,代替了单纯的词频权重法。没有在中医本体中出现的词汇还是使用词频代表权重。这样就能凸显中医本体中的关键概念了。
本论文使用文档空间向量的余弦表示两个文档的相似度。通过和学习样本的比较,找出相似度最大的一个学习文档,把待检测样本归入这个学习样本所在的类别,这就完成了样本分类。采用论文中的改进的空间向量表示方法可以提高文档分辨率。
本论文对文档信息的提取是基于固定格式的。这样可以去除不必要的无用信息,提高每个句子的信息比重。