基于多源数据的高校学术知识图谱构建及其应用研究

来源 :浙江工业大学 | 被引量 : 1次 | 上传用户:szgang052809
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱是Google公司提出的一种大规模语义网络,旨在描述现实世界中存在的各种实体、概念及关系,作为大数据时代的重要知识表示方法,知识图谱已经成为人工智能的关键技术之一,被广泛应用于社交网络、智能推荐、深度问答等领域。学术数据是高校的一类重要数据,能够反映高校的综合科研能力和创新能力,然而,学术数据具有体量大、多源性、多样性和动态性等特点,如何对学术数据进行组织和管理进而对数据进行分析成为一个重要的研究内容。为此,本文对高校学术知识图谱构建与表示学习模型进行了研究,主要研究内容和成果包括:(1)针对学术数据格式多源性和多样性的特点,构建了基于多源数据的高校学术知识图谱,从非结构化数据、半结构数据和结构化数据等多种类型的数据源中抽取实体、关系及属性等知识要素,并组织成三元组形式,再通过知识融合算法将抽取得到的三元组融合成统一的知识图谱,为数据分析提供结构化知识库。(2)针对知识图谱数据稀疏和复杂度高等问题,提出了基于语义向量的知识图谱表示学习模型(Trans V),引入文本语料库和知识图谱上下文为实体及关系构建语义向量,并为关系设计语义矩阵,从语义角度实现对知识图谱的深度扩展,设计的新训练函数有助于提高知识图谱表示学习的精确度,实验表明,在FB15K和WN18公开数据集上,Trans V与已有的翻译模型相比,Mean Rank值平均降低了66和162,Hit@10值平均提高了20%和19%。(3)开发了基于知识图谱的高校学术数据分析原型系统,包括教师画像、学者合作关系、论文发表数量、学者研究方向四大模块,教师画像模块又分别从学者基本信息、发表的论文、参与过的纵向项目、横向项目、专利五个方面对学者进行描述,最终以可视化的方式对学者进行了分析与展示。
其他文献
随着无线通信技术的快速发展,人们对通信技术的可靠性和高效性提出了更高的要求,作为下一代移动通信的核心技术之一,非正交多址接入技术(Non-Orthogonal Multiple Access,NOMA)引起了广大学者的注意。NOMA技术可以令接入用户共享时频资源从而大幅度提升了频谱效率,并通过对接入用户的功率分配可以保障用户间公平性。协作通信技术作为多天线技术的扩展技术,可以通过单天线设备间进行相
低价硼物种是一类备受主族化学家关注的新颖化合物,探索新的合成低价硼的方法是一项非常有意义的研究。1,4-双(三甲基硅基)-1,4-重氮-2,5-环己二烯等氮杂环有机硅化合物(1,2和3)
N-酰化水杨酰肼是一类含多个强配位能力O、N原子的多齿配体,配位模式灵活多样,是合成结构新颖、功能多样的高核金属簇合物或以高核为次级结构单元构筑的聚合物的理想配体。本
聚吡咯(PPy)是一种具有优良的导电性,化学稳定性以及生物相容性的导电高分子。其合成制备过程简单,其中电化学聚合作为一种绿色无污染的合成途径被研究者广泛接受。PPy与金属
目的:探究前列腺癌中不同肿瘤灶区SPOP蛋白表达的异质性,通过观察SPOP蛋白在同一前列腺中不同肿瘤灶区的表达分布,分析SPOP蛋白表达分布情况与肿瘤分级、肿瘤分期、Gleason评
为贯彻党的十九大精神,在大众创业、万众创新的新形势下,创新人才培养与服务体系建构势在必行。创新人才是一种特殊的人才,既要具备人才本身所具有的所有特质,还应具有创新性
毛白杨(Populus tomentosa)为杨柳科、杨属落叶大乔木,生长快,树干通直挺拔,是造林绿化的树种,普遍应用于城市乡村绿化,其品种适应性强,主根和侧根都比较发达,枝叶茂密,是速生
目的自噬是维持细胞稳态的重要生理过程。我们之前研究发现高剂量中波紫外线(50 mJ/cm2)辐照的角质形成细胞自噬水平降低。棉子糖是一种天然三糖,不仅能作为新型自噬诱导剂,
股权质押融资作为一种融资手段普遍应用于上市公司。控股股东将所持有的上市公司股份质押给金融机构等质权人,从而获取融资或者提供担保等。据东方财富choice数据统计,累计到
房地产市场营销以消费者对各类住宅商品的需求为出发点,设计和开发各类住宅产品,通过营销活动向购房者传递相关信息。其中,标签是常用的信息载体,“绿色”、“教育”、“轨道