文娱领域知识图谱的构建及应用研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:quzoufeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着在线文娱市场规模的不断扩大,人们对精神文化和生活品质的追求在不断上升,社会对文化娱乐领域的应用需求也越来越高。面对日益激增的文娱信息,知识图谱以其结构化、网络化的特点,能够更好地表示文娱信息之间的相关性,有助于用户更直观地理解文娱信息之间的联系。目前,面向特定领域的知识图谱应用越来越多,但是市场上与文娱领域相关的知识图谱应用还比较少,也缺少开源的文娱知识图谱。同时,智能问答作为搜索引擎未来发展的新方向,将知识图谱应用在智能问答中,能够根据用户意图推理出更准确的答案,逐渐成为人与机器交互的新趋势。针对以上背景,本文利用文娱领域知识,构建了一种文娱领域知识图谱,设计了面向文娱领域知识图谱的问答模型,搭建了基于Web的文娱领域知识图谱问答检索平台。具体内容包括:(1)文娱领域知识图谱的构建。本文通过知识抽取、实体对齐和知识存储三个步骤构建了包含132284个实体和388552个关系的文娱领域知识图谱。针对实体和关系单独抽取可能出现的误差传播问题,本文设计了基于BERT语言模型的实体关系联合抽取模型。同时,针对一句文本中可能出现多个三元组的情况,本文将指针结合标注的思想应用到实体关系联合抽取模型中。针对单一相似度计算方法不能充分利用文本特征的问题,本文设计了结合Jaccard系数和编辑距离的文娱实体对齐方法,对不同数据源获取的文娱实体进行融合。针对抽取的两种文娱数据,本文分别采用Neo4j图数据库和Mongo DB文档型数据库进行知识存储。(2)面向文娱领域知识图谱的问答模型。本文通过文娱实体识别、候选答案生成和文娱问句-关系语义匹配模型实现本文基于文娱知识图谱的问答模型。针对人工标注大量问答模型数据需要花费大量人力和时间成本问题,本文将开放域问答语料与文娱领域问答语料进行融合,构建了本文问答模型实验数据集。针对文娱实体识别任务在问答模型中的重要性,本文采用BERT-BiLSTM-CRF模型抽取问句中的文娱实体,通过对比实验,证明该模型能够有效提升实体识别效果。针对BERT下游任务中只使用[CLS]位置的向量表示的不足,本文结合一维卷积和最大池化操作,设计了基于BERT语言模型的文娱问句-关系语义匹配模型,实现对BERT编码序列所有位置编码信息的融合,提升了模型识别相似关系的能力。(3)基于Web的文娱领域知识图谱问答检索平台。本文基于构建的文娱知识图谱和设计的文娱知识图谱问答模型,通过Flask后台开发框架、D3.js图形可视化框架、Boot Strap前端可视化框架等技术,搭建了基于Web的文娱知识图谱问答检索平台。该平台以网页的形式进行访问,为用户提供文娱图谱可视化、文娱图谱检索、文娱图谱扩展和文娱图谱问答等功能,满足了人们对文娱应用的日常需求。
其他文献
自Heusler合金问世以来的一百多年时间里,由于大量具有各种物理特性的新型Heusler合金材料不断被发现、制备并广泛应用,使得对于新型Heusler功能材料的设计与合成至今依旧是材料科学领域的热点研究方向之一。我们使用基于密度泛函理论的第一性原理计算的方法对原子替换所得的Ag基Heusler合金材料进行了高通量计算,得到了多种稳定的新型Heusler合金结构。文中系统的讨论了这几种新结构的稳定
硅元素及其化合物在现代工业中起着不可或缺的作用,现已经被广泛应用到了各个相关领域中。本文采用原子掺杂的方法,寻找新型的硅同素异形体和硅化物结构,并结合第一性原理计算方法研究了新结构在常压下的力学性质、弹性各向异性、电子结构等性质,同时还分析了能带变化的影响因素,为有效合成该材料提供理论基础,也为其他新材料的理论研究提供支撑。本文研究的主要内容如下:1.对G21、G58、G90、G117、G158、
随着科技的快速发展,功能材料已经广泛应用于现代工业的各个领域之中,新型功能材料的结构设计与合成是目前材料科学的研究热点之一。本文采用基于CALYPSO的晶体结构设计技术,首先结合只限定原子数的直接搜索方法,发现了一个具有直接带隙的新型大胞超硬碳晶体结构Fmmm-C80。然后采用功能材料反向搜索方法,在使用CALYPSO搜索晶体结构的过程中,设定带隙为每一代结构中的二次筛选目标参数,最终发现了一个新
传统的密码系统假设攻击者只能访问密码算法的输入和输出,即密码算法处在一种黑盒模型下。但随着计算机与互联网技术的高速发展,攻击者的能力得到了显著提高,传统的黑盒模型已经无法满足密码算法安全性分析的需要。2002年,Chow等人根据数字版权管理(Digital Rights Management,简称DRM)应用场景,提出白盒攻击环境(White-Box Attack Context,简称WBAC)的
低序级断层延伸短,断距小,识别解释有一定的困难,但低序级断层是局部微幅度构造和油气富集的主控因素,能否识别低序级断层和微幅度构造直接影响致密储层水平井部署,轨迹控制和砂岩钻遇率。本文首先基于多窗口倾角扫描的曲率属性,凸显低序级断层的特征;然后采用属性定量优化方法,即结合地震剖面,平剖结合统计不同断距断层的曲率值,以此设定门槛值,消除非断裂地质效应,突出目标低序级断层和微幅度构造的平面剖面特征,提高
深度神经网络的分布式训练包含模型并行,数据并行等不同策略。传统模型并行流水化策略将深度神经网络按层分配到不同计算设备上,通过重叠计算时间与通信时间减小分布式通信的开销,但是该策略将神经网络模型中的分支和捷径与其他神经网络结构看作一个整体,在切分模型时难以保证结果的均匀分布,导致训练迭代时间增加。数据并行通常使用同步法进行计算设备间模型参数的更新,在每个迭代周期的末尾,参数服务器会与各计算设备进行通
图像信息是人们获取信息的重要组成部分,高质量的图像会让人们获得更加准确的信息,而由于图像在获取的过程中受到设备和环境的限制,客观上导致了部分图像信噪比低下。随着人们对图像质量的需求越来越高,真实图像去噪问题在生产和生活中有着重要的作用。针对真实图像去噪,国内外学者提出大量算法,但是这些去噪算法基本上都是基于高斯白噪声的假设,在仿真的高斯图像上能取得理想的去噪效果,但是在实际的相机系统中,由于实际噪
荧光寿命与荧光团所处的微环境密切相关,且不受激发光强度、荧光团浓度和光漂白等因素影响,能够提供与荧光光谱技术、荧光显微技术互补的生物体功能信息。荧光寿命测量系统一般是基于激光扫描共聚焦显微系统(LSCM)搭建的。LSCM的分辨率能够达到亚微米量级,是研究生物组织样品的重要工具,在生命科学、生物医学、工业检测等领域获得了广泛的应用。LSCM中的共焦小孔使得焦平面以外的荧光被屏蔽,只有焦点处的荧光才能
通信信号的自动调制识别(Automatic Modulation Classification,AMC)被广泛应用于战场通信侦察对抗及无线电频谱监测等军事和民用领域。最近深度学习在AMC中显示出较好的应用效果,克服了传统AMC方法中依赖专家经验的“特征工程”的缺陷。然而,现有深度学习AMC的方法大都依赖海量标记数据,且要求决策场景与训练场景有较强的一致性,在现实复杂电磁环境下应用局限。针对该问题,
频域有限差分法(FDFD)在计算具有谐振结构电磁问题上比时域有限差分(FDTD)方法有明显的优势。然而FDFD方法需要求解大型复数稀疏矩阵方程的逆来获得方程的解。就笔者所知,目前文献中没有大型复数稀疏矩阵方程并行求解的高效方案。为解决FDFD串行算法计算规模的限制以及提高计算效率,本文研究了基于MPI的FDFD并行算法,使计算规模和计算效率得到明显提升。本文的主要研究内容如下:(1)本文研究了基于