论文部分内容阅读
科技的进步改善了人们的生活水平,但同时也加快了生活节奏,使现代人面临着巨大的生活、工作和学习压力。在各种压力的驱使下,自杀的现象近年来呈逐年上升的趋势,严重影响了国家经济和社会的发展。许多自杀者在自杀前会留下遗书,遗书的内容能反映自杀原因。世界各国都在寻找有效的途径去防止国民自杀,但至今仍没有形成一整套完善的机制。随着互联网的发展,人们的生活方式发生了翻天覆地的变化,自杀遗书也从原先的“纸质遗书”转变成“电子遗书”,出现在近年来所兴起的微博和一直较为流行的论坛上。本文研究的目的是如何快速有效地识别微博或论坛等平台上出现的具有自杀倾向的网络文本。本文首先分析了国内外有关这方面研究的学术文献,然后尝试用一种新的更有效的方法去识别网络自杀遗书。本文收集了研究所需要的自杀遗书样本。在核实了它们的真实性之后,根据本校心理学院“青少年网络心理与行为”教育部重点实验室所提供的关键词列表进行初筛,并补充了若干具有鉴别力的词汇。另一方面,考虑到自杀遗书有非常独特的特点:即它描述了一个十分固定而且具体的事实,而且遗书之间的差异性较小,种间差距很大。运用文本分类算法对其进行识别面临的问题在于尽管误检率会较低,但是正检率却不是很理想。针对该问题,本文设计了关键词识别算法,并提出了关键词识别算法和文本分类算法相结合的方法:将待测样本先用文本分类算法进行识别,若被判定成有自杀倾向就直接作为判定结果,否则再运用关键词识别算法对其进行进一步的判定,若被判定成有自杀倾向性就作为判定结果,否则就认为该文本无自杀倾向性。实验结果表明该方法具有比较理想的效果。