基于学术网络的学者兴趣标签发现研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户：bigsoul

【摘要】

：

用户画像是对用户信息标签化,用户形象具体化的过程,在智能营销、计算广告、个性化推荐等领域得到了广泛的应用。兴趣标签是用户画像的基本内容之一,通过给用户打标签的方式

【作者】

：

高龙

【出处】

：

西北师范大学

【发表日期】

：

2004年期

【关键词】

：

学者画像学术网络网络表示学习多标签分类标签融合

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

用户画像是对用户信息标签化,用户形象具体化的过程,在智能营销、计算广告、个性化推荐等领域得到了广泛的应用。兴趣标签是用户画像的基本内容之一,通过给用户打标签的方式刻画用户兴趣偏好,捕捉用户兴趣变化。学术研究的快速发展导致了学术大数据的产生,基于这些数据,可以构建学者的研究兴趣画像。以往的研究主要是从学术文本数据中提取学者的兴趣标签,相比之下,基于学术网络发现学者兴趣的研究较少。因此,本文假定在兴趣标签空间已知的前提下,将学者研究兴趣的发现问题抽象为一个多标签分类问题,通过构建以学者为节点的大规模无向合著网络、有向合著网络及引用网络,并针对合著网络和引用网络规模、结构不同的特点,分别应用不同的网络表示学习方法从3种学术网络中提取学者节点的特征表示,进而设计实现多标签分类模型,为学术网络中标签未知的学者标注最合适的兴趣标签。本文的主要工作包括以下三个方面:(1)基于Biendata提供的“2017开放学术精准画像大赛”论文信息数据集及爬取自微软学术网的计算机科学顶级领域标签数据,构建包含百万级节点与千万级边的合著网络和引用网络,为了更准确地识别无向合著网络中的核心学者,构建以论文中第一作者为核心的有向合著网络以补充无向合著网络缺失的节点从属关系信息,进而更好的描述核心学者的研究兴趣。(2)在GraphVite框架下,实现对大规模无向合著网络、有向合著网络及引用网络的网络表示学习建模,从中提取学者节点的特征向量作为多标签分类模型的输入特征。(3)构建基于C2AE的学者兴趣多标签分类模型,对从3种学术网络中提取到的学者节点特征分别进行分类训练和测试,并提出一种改进的基于加权投票法的标签融合方法对3种学术网络在测试集上的标签预测结果进行融合,试图更为精准的刻画学术网络中学者的研究兴趣。实验结果显示,改进的标签融合方法比无向合著网络、有向合著网络及引用网络单独预测出的兴趣标签,在微F1指标上分别高出3.78%、10.7%、0.28%,而汉明损失则分别降低了0.68%、1.9%、0.06%,结果表明,融合后的标签相比于每种学术网络单独生成的标签更能准确地反映学者的研究兴趣。此外,本文将基于C2AE算法与基于MLKNN和BPMLL算法的学者兴趣多标签分类模型进行了对比实验,结果显示,基于C2AE的标签融合结果比MLKNN和BPMLL在微F1指标上分别高出4.39%、5.88%,而汉明损失比MLKNN降低了0.78%,但比BPMLL高出0.65%。综合而言,本文采用的C2AE模型在当前学术数据集下,性能略优于MLKNN模型和BPMLL模型。

其他文献

化学镀法制备Ni系催化剂及催化松香加氢研究

松香为一种透明、脆性的固体天然树脂,由树脂酸、少量脂肪酸、松脂酸酐和中性物等组成。其主要成分为树脂酸,占90%左右,分子式为C19H29COOH,属不饱和酸,含有共轭双键,反应活

学位

Ni-B/TiO2-ZrO2Ni-Mo-B/TiO2-ZrO2松香催化加氢氢化松香

基于切换系统方法的非线性系统最优控制数值算法应用研究

切换系统作为一类特殊的混杂系统,它是由一系列连续时间或者离散时间子系统和一个随时选择激活某个子系统运行的切换规则构成.切换系统方法在实际工程中已经成为求解复杂非线

学位

切换系统最优控制数值算法癌症化疗翼伞障碍模型

期货基差非线性序列的成因及特征分析

基差套保已经普遍受到期货业界的推崇,什么是基差套保呢?就是当期货价格高于现货价格的一定幅度时,操作上是做空期货,做多现货;相反地,当现货价格高于期货价格的一定幅度时,

学位

基差非线性特征趋势理论STAR-GARCH模型

4-吡啶酮芳香酰胺大环分子的合成及识别研究

自然界生物进行信息存储、复制和传递的基础是发生在纳米尺度主-客体之间的一系列分子识别过程,因此,对分子识别的研究是从分子水平探究生命现象的重要途径。在分子识别的研

学位

芳香酰胺化合物4-吡啶酮碱金属离子大环分子单糖

城市众包配送服务调度方法的研究与系统实现

随着手机购物、电子商务的发展,网上购物的数量愈加增多,这给物流终端的快件配送带来了更大的挑战。针对目前终端配送存在信息利用率低、可控性差、灵活性差等问题,很多物流

学位

城市众包资源匹配任务分配路径规划智能算法

求解多重线性系统的预处理方法

随着大数据的到来,多重线性系统在数据挖掘,微分方程和工程计算等学科领域备受关注.特别地,多重线性系统的数值求解是多重线性系统重要的组成部分.然而,多重线性系统的数值求

学位

强M-张量预条件子多重线性系统预处理Jacobi方法预处理Gauss-Seidel张量分裂

五羟色胺在镉对大型溞肠道损伤及消化机制中的作用

镉(Cadmium,Cd)是一种地表水中常见的有毒污染物,具有降解难、易转化、易富集的特点,对水生生态系统造成了严重的破坏。水体中的镉会随着食物进入水生动物体内,经食物链积累

学位

大型溞五羟色胺消化摄食镉

不同形貌TiO2及其复合材料的制备与催化性能研究

影响人类社会可持续发展的能源短缺和环境污染问题已越来越严重,因此处理好能源与环境问题是实现可持续发展的必由之路。光催化技术可以与太阳能结合实现能量转换,将太阳能转

学位

Ti3+自掺杂Se/TiO2g-C3N4/TiO2光催化形貌控制

内蒙古乌达煤田早二叠世“植物庞贝”中两种辉木科化石植物研究

本文描述了内蒙古乌达煤田“植物庞贝”中新发现的两种树蕨植物。第一种是完整植物Eoangiopteris turba sp.nov.,该植物包含辉木Psaronius Cotta型茎干,栉羊齿Pecopteris Bro

学位

始莲座蕨虫囊蕨辉木科原位孢子乌达华夏植物群

天然气水合物制备过程的多相流传递研究

天然气水合物储运技术(NGH技术)将天然气由气态转化成固态水合物形式来储运,是一种本质安全的新型天然气储运技术,可望成为LNG或PNG技术的有效补充和替代技术。水合物制造过

学位

天然气水合物强化传热传质管式反应单元螺旋内槽管CFD

基于学术网络的学者兴趣标签发现研究

其他学术论文