论文部分内容阅读
自杀等心理健康问题威胁着人们的健康和社会的和谐发展,尽早发现自杀倾向为早期的干预提供了基础。生活中,有自杀想法的人往往不会寻求社会的帮助,但却总是在言语中流露出自杀的念头。随着社交媒体的快速发展,人们越来越喜欢在社交媒体中表达自己的想法和感受,以新浪微博为主的带有个人情感色彩的言论信息正迅速发展,深入了解和挖掘这些信息,为自杀风险的研究提供支撑。研究发现社交媒体中自杀倾向的表达和用户的用词以及语言使用模式之间存在着重要的关系,部分词汇对自杀倾向的判断具有重要的指示作用,本研究称这些词汇为自杀线索词。在情感分析的研究中,已经验证了情感词典有助于情感分析,同理,构建一部自杀线索词典对自杀倾向分析具有重要的意义。目前,对自杀线索词典自动构建的研究非常少,相应的词典资源也远不如情感词典丰富,中科院构建的中文自杀线索词典是目前文献中找到的唯一一部。然而,该自杀线索词典是基于人工构建的方法,需要在阅读大量相关语料的基础上,结合专家领域知识来挑选出初始的自杀线索词语,然后再进行人工优化和补充。人工构建自杀线索词典消耗大量的人力和财力。而且现有的自杀线索词典存在两点不足:(1)网络新词不断更新,新出现的自杀线索词不能及时更新到词典中;(2)词典中仅包含词语,没有词组,但很多词语单独看没有自杀倾向,合并到一起则有了自杀倾向。本文提出两种自杀线索词典自动构建的方法:基于种子词的方法、基于数据集的方法。基于种子词的方法依据候选词与种子词之间的相似性,在自杀文本数据集中找出与中科院人工构建的自杀线索词典中的语义相似性较大的词语作为自杀线索词,主要采用Word2vec和点互信息(PMI)等方法。基于数据集的方法通过抽取出自杀数据集中的重要词语或者主题词语作为自杀线索词,主要采用TF-IDF、LDA主题模型、信息增益、以及基于分类的方法。为了使自杀线索词典更加的完整,采用关联规则挖掘的方法和N-gram的方法自动构建自杀线索词组。为了验证词典的效果,设计了直接评测和间接评测两种评测方法。前者利用中科院人工自杀线索词典作参照,评测自动构建的词典对中科院自杀线索词典的召回率和平均正确率。后者考察抽取的自杀线索词对自杀倾向性分类任务的帮助。从评测指标上看,直接评测法中,基于种子词的方法中Word2vec和PMI的方法对中科院词典的召回率分别为0.0824、0.0495,说明传统情感词典扩展或抽取的方法不完全适用于自杀线索词典的构建。基于数据集的方法中相较于TF-IDF方法和基于分类的方法,LDA主题模型的方法对中科院自杀线索词典的召回率为0.313,且召回词语的平均正确率为0.323。在间接评测法中,基于种子词语的方法构建的自杀线索词典在自杀倾向性分类任务上的平均准确率低于中科院自杀线索词典。基于数据集的方法中,相较于TF-IDF方法、LDA主题模型方法以及基于分类的方法,信息增益的方法在自杀倾向性分类任务上的平均准确率为0.9525,超过了中科院自杀线索词典的0.8969的平均准确率。加入自杀线索词组后,在间接评测法中效果有微弱提高,从0.9525提高到0.9671,证明了自动构建的自杀线索词典的有效性。