论文部分内容阅读
随着互联网技术的飞速发展和通信网络带宽与速度的不断提升,人们逐渐迈入自媒体时代。人们获取新闻的方式也从之前的纸质媒体,门户网站等逐渐转向朋友圈,微博以及各大新闻APP。每一个新闻的读者都有可能是新闻内容的创作者和生成者。在这种新闻体时代的浪潮下,随之而来的是新闻数量的激增,新闻类型的多样和新闻内容的良莠不齐。因此,无论是对于网络舆情的管理者,新闻内容的分发者,还是新闻报道的阅读者都需要一种方便快捷的手段获得新闻所表述的主要事件和对应领域。并以此判定是否需要花费更多的事件去处理、分发甚至去阅读这篇新闻。与此同时,人工智能应用和深度学习方法逐渐取代传统的机器学习方法,在图像识别,语音识别等领域取得突破性的进展并逐渐有国内外专家开始用这种新的技术去探索自然语言处理领域。基于此,在新闻搜索领域一种基于用户推荐的feed搜索方式渐渐出现,并逐渐替代传统的搜索方式,成为用户获取新闻的主要手段。而事件类别和新闻领域,往往是对一篇新闻很好的标签定义。为了尽快获取网络上新闻的领域类别,事件类型等新闻关键要素,本文设计并实现了一种新闻事件别系统,用于对新闻的事件类型,新闻领域及新闻主题句进行识别。本文完成了以下工作。首先,针对新闻事件识别领域国内外研究现状进行了调研,并对主要技术及研究成果进行了介绍;其次,针对系统在事件识别方面的需求,对本系统所识别新闻事件的进行了定义,提出了一种基于新闻主题句和触发词的新闻事件识别方法,并采用特征词的方法对新闻领域进行分类,从新闻事件所处的领域对一个新闻事件进行另一个角度描述;再次,对系统需求进行了简要分析,并依据需求分析对系统层次架构和功能架构进行总体设计;最后,对系统主要功能模块的功能设计,流程设计设计的关键算法及实现该算法的核心代码进行了详细说明,并在最后对系统各模块的运行界面进行了概要展示。其中,本文重点对新闻事件识别方法进行了研究,在关键的分类器部分由卷积神经网络模型替换了传统的机器学习模型。并给出了实验结果及对应的结果分析。研究并实现的新闻事件识别系统支持事件识别,类别识别,主题句识别和后台对模型、用户及触发词的管理。同时本文针对事件识别所采用的主要方法,从准确率,召回率和F1值三个方面对系统的性能进行验证,结果表明本系统能达到较高的识别和分类的准确率及覆盖率。