论文部分内容阅读
用户画像是对用户信息标签化,用户形象具体化的过程,在智能营销、计算广告、个性化推荐等领域得到了广泛的应用。兴趣标签是用户画像的基本内容之一,通过给用户打标签的方式刻画用户兴趣偏好,捕捉用户兴趣变化。学术研究的快速发展导致了学术大数据的产生,基于这些数据,可以构建学者的研究兴趣画像。以往的研究主要是从学术文本数据中提取学者的兴趣标签,相比之下,基于学术网络发现学者兴趣的研究较少。因此,本文假定在兴趣标签空间已知的前提下,将学者研究兴趣的发现问题抽象为一个多标签分类问题,通过构建以学者为节点的大规模无向合著网络、有向合著网络及引用网络,并针对合著网络和引用网络规模、结构不同的特点,分别应用不同的网络表示学习方法从3种学术网络中提取学者节点的特征表示,进而设计实现多标签分类模型,为学术网络中标签未知的学者标注最合适的兴趣标签。本文的主要工作包括以下三个方面:(1)基于Biendata提供的“2017开放学术精准画像大赛”论文信息数据集及爬取自微软学术网的计算机科学顶级领域标签数据,构建包含百万级节点与千万级边的合著网络和引用网络,为了更准确地识别无向合著网络中的核心学者,构建以论文中第一作者为核心的有向合著网络以补充无向合著网络缺失的节点从属关系信息,进而更好的描述核心学者的研究兴趣。(2)在GraphVite框架下,实现对大规模无向合著网络、有向合著网络及引用网络的网络表示学习建模,从中提取学者节点的特征向量作为多标签分类模型的输入特征。(3)构建基于C2AE的学者兴趣多标签分类模型,对从3种学术网络中提取到的学者节点特征分别进行分类训练和测试,并提出一种改进的基于加权投票法的标签融合方法对3种学术网络在测试集上的标签预测结果进行融合,试图更为精准的刻画学术网络中学者的研究兴趣。实验结果显示,改进的标签融合方法比无向合著网络、有向合著网络及引用网络单独预测出的兴趣标签,在微F1指标上分别高出3.78%、10.7%、0.28%,而汉明损失则分别降低了0.68%、1.9%、0.06%,结果表明,融合后的标签相比于每种学术网络单独生成的标签更能准确地反映学者的研究兴趣。此外,本文将基于C2AE算法与基于MLKNN和BPMLL算法的学者兴趣多标签分类模型进行了对比实验,结果显示,基于C2AE的标签融合结果比MLKNN和BPMLL在微F1指标上分别高出4.39%、5.88%,而汉明损失比MLKNN降低了0.78%,但比BPMLL高出0.65%。综合而言,本文采用的C2AE模型在当前学术数据集下,性能略优于MLKNN模型和BPMLL模型。