基于多类别文本的新闻热点发现系统设计与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户：wheatsnow

【摘要】

：

随着互联网的不断普及与发展,新闻门户网站、论坛、微博等平台提供的信息日益丰富,网络已经逐渐成为人们获取信息的重要渠道。但在中文各种类别数据突飞猛涨的情况下,人们在

【作者】

：

花道科

【出处】

：

东南大学

【发表日期】

：

2018年01期

【关键词】

：

互联网话题检测热点发现特征向量表示近邻传播聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的不断普及与发展,新闻门户网站、论坛、微博等平台提供的信息日益丰富,网络已经逐渐成为人们获取信息的重要渠道。但在中文各种类别数据突飞猛涨的情况下,人们在海量信息中无法获取感兴趣的话题。同时,网络监管部门面对如此庞大的数据量和信息流,无法有效的了解当前社会讨论的话题。因此,热点话题发现技术已经成为了当前研究普遍关注的热点问题。本文主要针对的是不同类别中文新闻并根据类别信息设计并实现了一种基于多类别文本的新闻热点发现系统,其主要的工作如下:(1)详细的介绍了网络爬虫的基本框架与步骤,对搜狐、网易、腾讯以及中新网进行新闻数据采集和标注,构建实验语料库。研究了新闻数据的预处理过程,并运用词法分析技术对新闻进行特征词选择与输出。(2)阐述了传统TF-IDF(Term Frequency–Inverse Document Fequency)权重计算方法,并结合新闻的结构特点和类别属性对TF-IDF进行了改进。研究了近邻传播聚类算法,并根据新闻的时间属性以及文本特点,对相似度矩阵的计算方式进行了改进。(3)提出了词语代表性值的计算方式,通过选择排名靠前的词语对话题簇进行描述。在话题检测的基础上,根据新闻话题的时间密度、空间密度以及簇占比三个因素,提出了新闻话题热度的计算方法。(4)实现了基于多类别文本的新闻热点发现系统,该系统包括数据采集模块、数据预处理模块、特征向量表示模块、话题检测模块以及热点发现模块等。为了验证系统的可行性,对它进行了性能评估和功能测试。在该热点发现系统中,新闻是通过一系列的自动处理,很快的给出用户所关心某个时间内的热点话题。这个系统的实现减少了整理新闻的人力和物力,同时也节省了人们寻找热点新闻的大量宝贵时间。普通用户可以通过该系统查找自己感兴趣的热点话题,从而对获取信息有更好的体验。网络监管部门可以通过该系统可以获知当前的舆论热点,从而可以更好的把握舆论动向。因此,这个系统和技术将会产生巨大的市场和社会价值。

其他文献

大数据背景下智慧城市创新路径选择——以辽宁为例

随着信息技术的不断发展,整个社会的信息化进程不断加快,以大数据为首的先进信息技术预示着信息时代进入了新的阶段和更高的层次。到目前为止,学界对大数据的概念仍未达成共

期刊

大数据智慧城市发展对策

小学语文阅读教学模式探讨

小学语文教育要突破单一教育和填鸭式教育的瓶颈就必须立足于改革,作为小学语文教师应该面向小学语文教育的改革和发展,从全面提高小学生语文素质,强化语文的工具性,倡导人文

期刊

小学语文阅读教学模式

纳滤膜在水处理中的最新应用进展

纳滤膜(NF)是新的分离膜品种,对溶质的截留性能介于超滤膜(UF)和反渗透膜(RO)之间。纳滤膜的特性是表面带有电荷并具有纳米级的微孔,能够去除高价离子和分子量大于200的溶解

期刊

纳滤膜应用水处理

肿瘤多药耐药的分子学诊断

肿瘤多药耐药的分子学诊断刘陶文讲师桂林医学院生物工程研究所（５４１００４）多药耐药（Ｍｕｌｔｉｄｒｕｇｒｅｓｉｓｔａｎｃｅ，ＭＤＲ）是当今对肿瘤成功化疗的主要障碍之一。ＭＤＲ的发生机理有三：肿瘤细胞对细胞毒药物的运输调节异常，对药物的代

期刊

分子学桂林医学院生物工程肿瘤细胞肿瘤多药耐药

基于ARM平台的WCDMA系统中PDCP协议栈的分析与实现

伴随着全网IP化的不断深入,无线网络开始承载越来越丰富的多媒体业务。各种业务种类的增加,使得无线网络中的通信数据量急剧增大,原本就稀缺的无线频谱资源变的更加紧张。为

学位

WCDMA分组汇聚协议层ARM鲁棒性报头压缩协议多播传输系统周期性刷新

转战新领域:2005民营传媒公司走向

期刊

传媒公司光线传媒

全面提升对外开放水平的意义、问题和建议

改革开放以来,我国对外开放水平大幅提高,为我国自身和全球经济稳定包容可持续增长做出了巨大的贡献。同时,我国仍然面临参与国际分工层次偏低、开放潜力有待进一步挖掘等问

期刊

对外开放问题建议

魔方公寓资产证券化风险控制案例研究

2005年我国开启了资产证券化试点,但发展缓慢,2008-2012年期间处于暂停阶段,2012年之后我国资产证券化取得了飞速发展,越来越多的金融机构通过发行资产支持证券来盘活资金,分

学位

魔方公寓资产证券化风险分析

浅谈如何培养小学生的阅读兴趣与能力

兴趣是调动学生积极思维的内在动力。学生对学习有了兴趣,思维就有了动力,便能做到执着追求,大胆探索,积极思维。在语文教学时,教师在对教材内容的理解和教学方法的设计上,应

期刊

语文教学兴趣能力

基于多类别文本的新闻热点发现系统设计与实现

其他学术论文