论文部分内容阅读
如今,网络人物关系已经成为舆情分析方面的重要研究内容之一。目前人物关系的判断在社交网络上较多,但是新闻人物关系的判断很少,而且这方面的研究主要是句子级别的判断,是根据含有两个人名实体的句子进行分析,并且没有考虑同事件的其他新闻,这样很难全面的获取到新闻事件上的人物关系。为了判断新闻事件的人物关系,首先需要将事件涉及的所有新闻进行聚类,对该事件涉及的所有新闻进行后续的处理,能更全面的得到事件涉及的所有人物关系,本文根据TFIDF和余弦相似度量化新闻文本描述内容的相似程度,将该相似程度和两个新闻发布时间的匹配度作为新闻事件聚类的特征,采用专家打分法为每一维特征进行权重计算,根据Single-pass算法进行聚类;接下来,对聚类后的每一个簇中的文本进行人名实体识别。根据句子的特点,包含两个人名实体的句子往往含有表达关系的词语,即人物关系关键词,因此对含有两个人名实体的句子根据语法规则提取出这个人物关系关键词。之后,对聚类簇中的每两个人物实体构建关系特征,包括实体词距特征、上下文特征等,对提取出关系关键词的人物对,及这两个人物出现在了一个句子中,利用word2vec和PCA降维算法得到了词向量特征等。然后,利用机器学习的分类模型根据特征进行人物关系分类,根据新闻的特点,新闻中人物关系主要分为家庭、上下级、合作、对立、同事或者无关系;在得到了人物关系的最后,利用Page Rank算法为每个人物的重要性进行量化分析,利用人物对的共现次数进行关系权重的计算,通过关系的类型进行群体的划分,以点表示人物,以边表示关系,同时点的大小表示人物的重要性,边的权重表示关系的权重,点的颜色表示群体,这样,构建了出人物关系图。根据单一变量原则,对选取的人物关系特征进行了特征缺失实验,通过对比整体特征与缺失某一特征的结果来证实特征的必要性;同时,对选取的机器学习分类模型进行对比试验,其中根据随机森林模型得到了81.3%的准确率。