面向网络新闻的话题检测技术研究

被引量 : 0次 | 上传用户:chaizw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,网络作为一种新的媒体,成为人们获取信息的重要渠道。面对海量的网络新闻信息,如何快速准确的获取到热点新闻话题,并对这些新闻信息进行有效地组织和分析,是当前信息处理领域研究的重点和热点。话题检测与追踪技术作为解决这一问题的关键技术,旨在从网络新闻媒体信息流中及时发现未知话题,并对已知话题进行后续跟踪。该技术能够以话题为主线,自动将分散的信息聚合起来,以方便人们从整体上了解一个事件的全部细节以及相关活动,在信息安全、金融证券、行业调研等诸多领域都具有广阔的应用空间和发展前景。本文总结了话题检测技术的国内外研究现状,分析了目前话题检测技术面临的问题并给出了本文的研究思路。在研究的过程中,对其中涉及到的关键技术做了详细的介绍,并结合本文的研究思路对在线话题检测技术进行了深入探讨,本文所做工作如下:第一,对话题模型的构建做了深入研究。本文结合网络新闻报道的特点,充分考虑报道的标题和正文这两部分内容,采用双向量对报道的标题和正文分别进行文本表示,充分突出了报道标题的重要性,提高了检测的效率;采用中心向量模型来构建话题模型,当话题内有新的报道加入时,则重新计算话题模型内每个特征的权重,从而动态的调整话题模型,达到了在线实时检测的目的。第二,提出了一种基于核心词簇的网络热点话题发现算法。本文针对single-pass聚类算法存在的不足,在聚类过程中,采用两层聚类策略,首先根据报道的标题向量进行微聚类,及时发现新出现的话题,并将达到预设条件的报道加入到相应话题的候选集中,然后对候选集里的报道进行二次聚类,通过话题热度分析,最终得到网络上某时间段内的热点话题。实验结果表明,本文的方法在识别性能和准确率上均有所提高。第三,提出了一种基于LDA的新闻话题子话题划分方法。本文针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象,采用层次话题检测技术,应用LDA模型对新闻文档进行建模,引入主题特征词相关性分析,并采用KL距离和主题间特征词的相关性组合,计算话题之间相似度,实现子话题划分。实验验证了改进后的相似度计算方法的有效性,实验结果表明该方法能够有效地提高热点新闻话题子话题划分的准确率。
其他文献
<正>问清题单《大众日报》2018年5月9日刊登题为"如何构建数字政府"文章指出,网络不联通、系统不贯通、数据不汇通,是当前阻碍数字政府建设的现实障碍。政务部门传统条块式的
摄影测量的原理是通过摄影光束的交叉点获得地面点。传统的航空测量方法是在高空通过摄影光束的相互交汇来确定被检测地面的一种测量技术,三个角度的元素和三个线的元素是这
<正> 既然反腐败斗争是在改革开放的条件下展开的,人们就不能不关心:反腐败斗争会不会影响改革开放? 关于腐败现象产生的社会历史原因,江泽民同志在中纪委二次全会上的讲话作
随着民营经济的快速发展,民企职工权益被侵犯的现象越来越严重,民营企业职工合法权益的保护问题越来越突出。对其原因,笔者认为,应从制度缺失、劳动力供求市场不成熟造成的结
本文首先阐述了中国农村养老模式转变成本的涵义,由于存在养老模式转变成本,中国农村建立缴费积累养老模式遇到了阻力,从时间上来看完全积累模式已不能应对我国农村人口老龄
目的探讨内镜活检诊断为胃高级别上皮内瘤变(HGIN)实际漏诊胃癌的可能原因。方法回顾分析安徽省芜湖市第一人民医院普外科2012年1月至2017年10月共76例经内镜诊断HGIN后接受
教师的新手阶段是其整个成长发展过程的起步阶段。对于教师而言,参加工作后的两三年是能否迅速掌握教育知识、具备相应的教育能力、顺利达到胜任阶段的关键时期。新手教师的
经济的发展需要大量人才和智力的支持,高职教育的职业性和区域性,决定了它在区域经济的发展中扮演重要角色。如何让高职教育更好的适应区域经济发展,从而推动区域经济和高职教育
教学有没有效率,并不是看教师有没有教完内容或教得认真不认真,而要看学生有没有学到东西或学得好不好。如果学生不想学或者学习没有收获,即使教师教得很辛苦也是无效教学。
<正>《英语课程标准》结合我国英语课程的实际情况,提出了面向全体学生,注重素质教育;突出学生主体,尊重个体差异;采用活动途径,倡导体验参与;注重过程评价,促进学生发展的基