基于关联数据的文本型用户生成内容组织研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:lanyezy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网络上文本类型的用户生成内容数据量成爆炸式增长。这些信息之间关系错综复杂,通过对这些信息进行有效组织,可以发现其间蕴含的丰富知识。但这些信息内容随意性强,关系复杂,利用传统的信息组织方式难以对其进行有效组织。关联数据作为一种轻量级的语义实现方式,其在实现机器可理解、语义关联以及网络数据共享、互操作等众多方面拥有独特优势。鉴于此,本文提出一种面向文本型用户生成内容的关联数据混搭系统模型,利用数据层、查询层、整合层和应用层功能,将豆瓣网电影评论信息与DBPedia数据集、LinkedMDB数据集以及GeoNames数据集进行实体链接关联,实现混搭展现,从而为用户生成内容组织方式提供一种新的思路。本文主要研究工作如下:(1)构建面向文本型用户生成内容的关联数据混搭系统模型。该模型由数据层、查询层、整合层和应用层四部分组成。利用该模型可以将文本型用户生成内容通过命名实体识别、语种转换、关联数据集查询、数据集整合混搭以及可视化展现等步骤,实现文本型用户生成内容的有效组织,丰富并拓展相关知识。(2)对于模型构建过程中出现的关键问题提出详细的解决方案。模型构建过程中有许多十分关键的问题,如命名实体识别方法、关联数据集查询、数据集整合混搭以及可视化展现等。对于常见类型的命名实体识别问题,本文借助现有自然语言处理工具解决。对于特殊类型的命名实体识别问题,本文利用Apache公司的OpenNLP开源框架,训练特殊类型的命名实体识别模型。在多关联数据集查询、混搭中,利用Mashup思想,关联多个外部数据集以及本地数据集。在可视化呈现上,选择D3.js这一前端可视化技术,实现相关知识网络的可视化呈现。(3)利用豆瓣网影评信息对提出的模型进行验证。本文使用Java语言实现面向文本型用户生成内容的关联数据混搭系统模型。并利用数据采集工具,获取豆瓣网电影基本信息以及其评论信息,并利用实体链接方式关联多个外部数据集,包括DBpedia、LinkedMDB以及GeoNames,实现信息的混搭展现。文章实验表明,本系统能够利用关联开放数据解决文本型用户生成内容组织难题,帮助用户获取丰富的外链数据,拓展相关知识网络。
其他文献
“伢伢”是中国戏剧家协会会员、国家一级演员、萍乡市采茶剧团原副团长雍开全学艺时的艺名,今年58岁。 “小花”是两次晋京演出,被业内人戏称为百花园中“山茶花”的萍乡采
随着比较基因组杂交(comparative genomic hybridiza-tion,CGH)技术在研究肿瘤相关染色体异常方面的应用,已发现在食管癌中存在大量染色体基因组拷贝数变化,其中一些拷贝数变化
围绕着人生观的问题和"中国向何处去"的时代课题,李石岑以唯意志论和生命哲学为基础,提出了"表现生命"的人生观,认为"生"有五大要义,即"动"、"变"、"顿起顿灭"、"扩大"以及"交遍"。同时,李石
本文阐述了校园体育文化的内涵,指出了营造校园体育文化的意义,并从多个视角探讨了体育文化促进中职学校"和谐校园"的主要举措。
初中语文课堂教学中,教师的语言贯穿整个课堂,对于学生的学习而言十分关键。规范的、趣味的、得体的、激励性的语言,能够大大激发学生学习语文的兴趣,提高课堂教学效率。为此
为促进和推动我国心理治疗与心理咨询事业的健康发展,我刊于2001年开始应广大读者的要求推出了与心理治疗及心理咨询相关问题的讨论专栏,专栏的目的在于讨论和澄清有关心理治
目的 :针对现有的氧浓度监测装置的弊端与不足,设计一种无线氧浓度监测装置。方法 :该装置主要由氧气传感器、氧气传感器连接线、氧浓度监测主机、显示终端4个部分组成。以HT67
基于对汉语条件句的考察建构CCP扩展方案,该方案是CP系统在条件句领域的具体应用,是对CP系统的丰富和具体化。文章还对CCP扩展方案的应用前景做了分析和展望。 Based on the
分析了某大型钢铁企业原料采购问题,指出铁精矿品位的边际价值是优化企业采购策略的关键.建立了一个包含烧结、球团和高炉冶炼的模糊模型,在铁精粉品位和价值坐标内绘制等铁