论文部分内容阅读
随着互联网的不断发展,互联网新闻已经成为人们获取新闻内容的主要途径之一。与传统媒体有所不同的是,由于互联网新闻本身的时效性,人们愈发想要快速实时了解新闻发展动态。但同时由于互联网本身的开放性和包容性,导致互联网新闻内容丰富却良莠不齐,人们很难从海量互联网新闻数据中快速获取一个新闻主题下的核心人物、核心事件以及这些事件间的演化发展关系由此,研究新闻人物与事件的抽取以及事件的演化,并向读者清晰而有条理的呈现结果,帮助读者了解新闻本身的算法具有着很重要的现实意义。故而本文希望通过相关技术,对新闻数据的挖掘、建模以及演化进行研究,从大量的互联网新闻数据中准确而高效的抽取出重点人物与事件,并对事件演化及热点事件抽取进行进一步分析。本文的主要工作如下:1.本文利用网络爬虫从互联网中获取新闻数据,然后利用分词工具对数据进行分词以及命名实体识别处理。本文基于命名实体识别的结果以及人物词语间的共现关系,构建新闻人物共现网络。通过词向量间的欧氏距离对于TOPSIS算法进行改进,并结合复杂网络中心性抽取新闻数据集中的重点新闻人物。2.本文基于Word2Vec模型训练的词向量,提出了一种新的文本建模的算法,并对该算法进行了并行化处理。同时本文利用聚类算法,抽取出新闻主题下的事件集合。3.本文利用事件特征词,对新闻事件进行建模。并结合事件的时间特征、随机游走模型以及余弦相似度,提出了一种新的计算事件演化关系的算法,生成事件演化图,并对该算法进行部分并行化处理以提高处理效率。同时,利用Louvain社团划分算法,对于事件演化图进行阶段划分,并从不同阶段中抽取出新闻热点事件。