论文部分内容阅读
随着互联网的发展,网络上文本类型的用户生成内容数据量成爆炸式增长。这些信息之间关系错综复杂,通过对这些信息进行有效组织,可以发现其间蕴含的丰富知识。但这些信息内容随意性强,关系复杂,利用传统的信息组织方式难以对其进行有效组织。关联数据作为一种轻量级的语义实现方式,其在实现机器可理解、语义关联以及网络数据共享、互操作等众多方面拥有独特优势。鉴于此,本文提出一种面向文本型用户生成内容的关联数据混搭系统模型,利用数据层、查询层、整合层和应用层功能,将豆瓣网电影评论信息与DBPedia数据集、LinkedMDB数据集以及GeoNames数据集进行实体链接关联,实现混搭展现,从而为用户生成内容组织方式提供一种新的思路。本文主要研究工作如下:(1)构建面向文本型用户生成内容的关联数据混搭系统模型。该模型由数据层、查询层、整合层和应用层四部分组成。利用该模型可以将文本型用户生成内容通过命名实体识别、语种转换、关联数据集查询、数据集整合混搭以及可视化展现等步骤,实现文本型用户生成内容的有效组织,丰富并拓展相关知识。(2)对于模型构建过程中出现的关键问题提出详细的解决方案。模型构建过程中有许多十分关键的问题,如命名实体识别方法、关联数据集查询、数据集整合混搭以及可视化展现等。对于常见类型的命名实体识别问题,本文借助现有自然语言处理工具解决。对于特殊类型的命名实体识别问题,本文利用Apache公司的OpenNLP开源框架,训练特殊类型的命名实体识别模型。在多关联数据集查询、混搭中,利用Mashup思想,关联多个外部数据集以及本地数据集。在可视化呈现上,选择D3.js这一前端可视化技术,实现相关知识网络的可视化呈现。(3)利用豆瓣网影评信息对提出的模型进行验证。本文使用Java语言实现面向文本型用户生成内容的关联数据混搭系统模型。并利用数据采集工具,获取豆瓣网电影基本信息以及其评论信息,并利用实体链接方式关联多个外部数据集,包括DBpedia、LinkedMDB以及GeoNames,实现信息的混搭展现。文章实验表明,本系统能够利用关联开放数据解决文本型用户生成内容组织难题,帮助用户获取丰富的外链数据,拓展相关知识网络。