基于微博热词挖掘的新闻话题提取研究

被引量 : 0次 | 上传用户:zhp5211018
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,传统的媒体技术格局已经逐渐改变,基于互联网新兴媒体技术具有传播速度快、透明度高的特点,微博已经成为互联网上新闻传播最快捷的媒体之一,越来越受到年轻人的喜欢。微博的出现为新闻话题的发现提供了一种新的方式和思路。现有的新闻挖掘模型和算法主要是通过抓取网页信息来获取,并存在数据更新慢、实时性差、挖掘准确率低等问题。通过微博热词挖掘提供新闻话题具有一定的现实意义。本文通过分析一系列的基础理论和技术,建立了基于LDA的概率主题模型,用于对微博数据进行热词挖掘和分析。论文设计了一个支持动态页面的网页文本爬虫算法。算法首先分析网页中的JavaScript文件或代码,使用HTTP协议向服务发送特定的信息请求,这种方式类似于行为人浏览网页信息的方式,能够高效的分析出网页异步加载的信息内容。同时,论文提供了一套对微博数据信息中重复微博和广告微博进行过滤的方法,并提出了热词计算的公式。在使用基于LDA的概率主体模型获取微博热词后,通过综合分析每个主题词的广泛性和突发性,计算每个单义词单元对应的主题词的热度,确定新闻话题,并返回至用户使用。本文主要研究工作包括以下几个方面。建立了合适有效的数据采集和文本预处理模型,设计支持动态页面的网页文本爬虫算法,用于微博数据的采集,并以新浪微博为例,通过开放平台获取微博数据,对采集的数据使用ICTCLAS系统进行分析处理,并进行去停用词处理,最后将预处理结果进行文本特征表示;通过建立基于LDA的概率主题模型确定最终的文本主题作为新闻话题。经过实验测评显示,本文中提出的基于LDA的概率主题模型通过微博数据能够有效提取微博热词,从而确定新闻话题。
其他文献
随着市场经济的深入发展,商业银行为迎接挑战也需要不断地改革发展,商业银行之间为提高自身竞争力,必需不断地加强内控管理和风险防范。银行业存在的风险已不能仅关注市场风
目前,我国正处于工业化和城市化发展的中期阶段,随着经济的高速增长,经济结构、产业结构、区域结构和城市结构均面临着巨大转变。从发达国家的经济增长规律和经验来看,在人均
随着互联网购物交流平台的迅猛发展,顾客口碑的发布与传播获得了更便捷的途径,顾客口碑对顾客购买选择的影响力明显提高。因此,企业研究顾客口碑信息的传播方式和机制对制定企业
膜生物反应器(MBR)技术由于膜分离与生物降解的耦合作用,具有容积负荷高、出水水质好、占地面积小、剩余污泥量少等优点,在城市生活污水、工业废水的处理与回用领域得到广泛
医药卫生体制改革的不断深入,信息化管理和建设被医院越来越重视。电子病历(EMR)是医院病历信息化、现代化管理的必然趋势。我院采用结构化的电子病历,结合本院专业专科特点,
目的:近年来,随着人民生活水平的逐步提高、生活压力的日益加大以及人口老龄化进程的不断加剧,糖尿病合并冠心病的发病率、死亡率逐年上升,严重危害着人民的身心健康。本研究采用
永磁自启动同步电动机以其具有高效率和高功率因数而被广泛地应用在石油工业和纺织工业的领域之中,因此在设计这种永磁自启动同步电动机时要从高效率和高功率因数等方面进行考
目前,污水处理厂出水已成为昆明城市河流主要的来源,对污水处理厂出水的再处理和优化河道景观已成为昆明城市河流水质综合治理工作的新问题。因此,在污水处理厂出水条件下,本
城乡一体化就是通过将城市与乡村统筹规划、综合开发,达到改变城市和乡村的两种经济结构的目的。推动农村社区建设,不断根据当地的人口与资源条件确定适当的“优势点”进行农
社会化媒体是一种给与广大用户较大参与空间的新型在线媒体。自我理解为“能互动的”在缺乏用户的参与的情况下,这个互动的平台基本是没有内容没有意义的媒体。社会化媒体改