网络新闻事件演变分析方法研究

被引量 : 0次 | 上传用户:woyaojiayou123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和互联网的不断发展,人们获得新闻信息的主要途径由报纸、广播、电视等传统媒介逐渐转向网络新闻媒体,互联网已经成为主要的信息传播平台,通过互联网来了解新闻事件的网民数量也呈现递增趋势,随之带来的问题是网络上出现大量的冗余新闻报道,包括不同新闻媒体对同一事件内容重复的报道和新闻报道之间的相互转载现象,读者往往在大量冗余报道面前感到无从下手,如何使得网络新闻读者迅速地了解整个新闻事件的来龙去脉是亟待解决的问题。本文从读者的角度出发,对新闻事件进行百度搜索,在此基础上建立了离线语料库,在此语料库的基础上对网络新闻事件之间的关系进行了进一步分析研究。本文主要研究工作如下:(1)本文对网络新闻事件演变分析方法进行了研究,首先提出了网络新闻事件中要素是人们最为关心的信息,在事件发展过程中要素参与度是不断变化的,网络新闻演变分析的目的就是发现事件中要素信息与事件的相互关系,通过可视化软件形象地展现给读者。演变分析方法应用了文本挖掘中的多文档摘要技术和命名实体识别技术,本文对这些技术进行了相关介绍。(2)本文提出了一种基于字符统计的新闻网页去重方法,该方法对网页中出现的高频特征字符进行了统计提取,对特征字符组合成的特征串进行了数字指纹计算,根据数字指纹数组之间的交集大小来判断两个网页是否重复,通过实验验证了本文提出方法的有效性,去重F值达到了94.91%,本文基于该算法完成了网络新闻语料库的构建。(3)本文提出了一种基于要素提取的时间表摘要方法,根据新闻本身均具有基本要素的特点,对新闻报道要素词组进行了提取加权处理,在计算句子之间相似度的基础上完成了转移概率矩阵的构建,最后在重要时间节点上进行句子抽取并完成了时间表摘要。通过网络新闻语料库上的实验验证了本方法的有效性,召回率、准确率和F值平均分别达到了45%、35%、40%左右。(4)本文在时间表摘要和新闻事件要素提取的基础上进行了新闻事件可视化演变分析研究,通过应用社会网络分析技术,构建新闻要素矩阵,对新闻事件中的要素信息的参与度变化完成了可视化展示。
其他文献
通过对早期从事乒乓球专业训练儿童肢体形态发育的研究结果显示:过早、过量、时间过长的乒乓球训练及训练中的错误动作均易导致儿童肢体发生形态和功能上的变化。建议教练员和
目的应用中文版上肢技巧质量测试量表(Ch-QUEST)指导痉挛型脑性瘫痪患儿的精细运动训练,探讨其在痉挛型脑瘫患儿康复治疗中的应用价值。方法 2016年6月—2017年6月收集徐州市
水利工程是我国基础设施建设的重要组成部分,工程规模大、成本耗费高、质量要求严格,同时为了保证水利工程能够具备度汛条件或在灌溉期前投入使用,冬期施工往往不可避免。吉
随着汽车产业的快速发展,我国已经成为世界汽车产销大国,然而与此相对应的自主品牌汽车产业的创新能力却十分薄弱,导致自主品牌汽车企业缺乏核心竞争力、盈利能力不足,严重制
本文介绍了高校下属代理记账公司开展对外承接代理记账业务,并对内承担学生实习教学的情况。同时通过调查多家代理记账公司,了解了记账人员对代理记账软件的需求现状并进行分
双相不锈钢因其具有优良的机械性能和耐腐蚀性,广泛应用在化工石油、能源、船舶、军事等工业领域。可是在一些对工件表面耐磨性要求较高的工况下,则需要改善双相不锈钢的耐磨
近几年中国科技、经济快速发展,社会不断进步,大量的高层楼宇以及大规模地下商场越来越多,这些大规模建筑的内部结构楼变的更加紧凑和复杂,加大了火灾现场人员逃生的难度,考
自20世纪90年代以来,随着我国国民经济的飞速发展,人民生活水平不断提高。同时,产权制度改革的深入进行,也使得房地产业迅速崛起,成为国民经济的支柱产业。众多的房地产企业
我国汽车产业的快速发展带动了国内汽车零部件产业的发展,出现了一大批实力雄厚的在汽车零部件供应方面的合资企业,但是如何准确计算各类零部件的成本,是该类企业进行产品定
近年来随着网络小说作品发展日益磅礴,网络小说以多种形式在媒介市场上取得了不容小觑的成绩,并且培养了一批忠实的网络小说迷,与此同时以中南大学教授欧阳有权为代表的学者