论文部分内容阅读
Web网页知识获取是在海量的网页上,进行主题的挖掘,然后将其转化成机器内部的结构化的数据。这个转化的过程是使计算机由外到内转化的一个过程,这个过程我们形象的称之为知识抽取。将网上获取到的数据转换为可以共享的知识,并可以供我们去检索和利用的一个过程。但是这个过程中涉及到的文本的主要内容的提取、和句子到RDF的转化都是几个当今比较大的难点。传统的LDA模型抽取主题句的时在计算主题---文档分布的时候没有考虑文档的篇幅或者说字数的长短、段落的多少的问题,直接将主题分给文档,但是有可能这只是某一段的或者某几段的主题,会错误的将小主题分给大主题,影响最终主题的准确性。最后,LDA主题模型计算词项---主题之间的分布时,忽略了词与词之间的关系,这样就忽略了连续的词项可能会有相同含义的可能性,最后的抽取的主题必然会不准确。在阅读了大量的参考文献之后,本文就这两个难点进行分析研究。提出了一种改进的LDA模型在web网页知识抽取中的应用。另外,运用依存关系和最大熵分类器实现了句子到RDF的转化,实现了更加准确和快速的提取知识。抽取到主题关键句之后,根据规则将关键句处理成功能动宾短语的格式,所以接下来要处理的就是功能动宾短语中的语义角色分类标注问题,我们先用统计的方法得到一个词汇表,这个词汇表是相关领域的比较专业的知识。然后利用分词的词性标注、句法分析将其处理成结构树再变为句法树,最后根据最大熵分类器,利用人工提前训练好的数据,将句子转化成资源、属性、属性值的RDF三元组,最后填充知识库。实验结果表明,此模型和传统的知识抽取技术以及和LDA模型对比,此模型有更深层次的挖掘,挖掘内容的准确率较高,对新样本的适应性较强。