论文部分内容阅读
随着互联网和信息技术的发展,海量信息充斥着人们的生活。人们对于准确获取信息的要求日益提高,仅仅返回与用户查询相关的信息已经无法满足用户的需求。用户希望计算机可以更加“聪明”地“理解”他们的查询,然后返回他们需要的“知识”,以帮助他们了解某个事物,或者提供知识帮助他们做出决策等等。这一切离不开基于语义知识的语义计算和语义分析的支持,语义知识库作为自然语言理解的一种基础资源,其重要性不言而喻。尽管目前已经存在有多种语义知识库,其构建方式也多种多样,但是受限于现有语义知识库构建方式,存在知识库规模过小不宜扩展,更新不及时,未考虑语义动态特性,知识表示方式单一,语义标注缺乏等问题,使其无法满足语义计算和语义分析的要求。综合利用现有多种语义知识资源融合多种语义知识库,并且提供一种灵活的知识库创建和更新方式,是解决该问题的有效途径之一。论文的研究内容主要包括以下几个部分:第一,近年来国内外关于多源语义知识库融合的研究日渐增多,但是目前仍缺乏一种有效的融合方式,以充分利用现有多种语义知识库资源,特别是以维基百科、百度百科为代表的在线百科知识库资源。为解决上述问题,论文首先对多源语义知识库融合中存在的知识选择以及知识不一致问题进行了分析,针对这些问题,论文选择中文领域涵盖广、更具影响力的百度百科、维基百科中文版、互动百科知识资源作为基础,结合知网语义词典,提出了一种多源语义知识库融合方法,通过定义统一的“类别-属性-词条-属性值”分层框架,建立“类别-属性”模板,为多源语义知识库融合中的知识选择和知识不一致问题给出了解决方案。第二,在多源语义知识库融合框架中,“类别-属性”模板的建立是其中的核心,为了解决多源语义知识库融合中的“类别-属性”模板构建问题,论文提出了一种基于多过滤器驱动和分散度统计的百科知识库类别属性抽取方法。选择百科知识库实例词条文本中的类别条目标签作为类别属性抽取数据源,通过使用一系列过滤器对目标类别原始候选属性集合进行处理,去除候选属性集合中的噪音、冗余信息,合并组合候选属性,最后使用候选属性分散度统计信息对目标类别属性进行排序。实验表明采用多过滤器处理目标类别候选属性以及分散度统计作为排序依据可以取得较高的类别属性抽取准确率。第三,在面向百科知识库的类别属性抽取研究中,为了解决目标类别属性集合覆盖广度存在的不足,挖掘出类别属性集合中潜在的具有高语义关联度的属性,论文提出了一种基于语义关联度挖掘的类别属性抽取方法,基于容错粗集理论和语义关联度计算获取目标类别的广义近似空间来作为目标类别属性集合的上近似。实验证明了引入NGD计算语义关联度的必要性,同时通过与原有基于分散度统计方法的评测对比,证明了本文方法在保证较高属性抽取准确率的同时,能够发现类别候选属性集合排序靠后的具有高语义关联度的潜在类别属性,从而增加类别属性覆盖广度。第四,为进一步探索语义在网络信息处理中的作用,论文进一步研究了语义关联度在搜索排序算法中的应用,一方面在当前网站排序算法的基础上,通过引入网站因素计算链接锚文本与网页本身的语义关联度,进而调整网站间转移概率矩阵,同时统计网站更新频度,提出了一种新的基于语义关联度计算和时间频度统计的站点排序算法;另一方面,在搜索结果排序中,引入网站因素,计算查询串与网站间的语义关联度,提出了一种基于网站特征识别的搜索结果排序方法。实验结果表明,在现有排序方法的基础上,引入语义关联计算是有效可行的。