基于多类别文本的新闻热点发现系统设计与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:wheatsnow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断普及与发展,新闻门户网站、论坛、微博等平台提供的信息日益丰富,网络已经逐渐成为人们获取信息的重要渠道。但在中文各种类别数据突飞猛涨的情况下,人们在海量信息中无法获取感兴趣的话题。同时,网络监管部门面对如此庞大的数据量和信息流,无法有效的了解当前社会讨论的话题。因此,热点话题发现技术已经成为了当前研究普遍关注的热点问题。本文主要针对的是不同类别中文新闻并根据类别信息设计并实现了一种基于多类别文本的新闻热点发现系统,其主要的工作如下:(1)详细的介绍了网络爬虫的基本框架与步骤,对搜狐、网易、腾讯以及中新网进行新闻数据采集和标注,构建实验语料库。研究了新闻数据的预处理过程,并运用词法分析技术对新闻进行特征词选择与输出。(2)阐述了传统TF-IDF(Term Frequency–Inverse Document Fequency)权重计算方法,并结合新闻的结构特点和类别属性对TF-IDF进行了改进。研究了近邻传播聚类算法,并根据新闻的时间属性以及文本特点,对相似度矩阵的计算方式进行了改进。(3)提出了词语代表性值的计算方式,通过选择排名靠前的词语对话题簇进行描述。在话题检测的基础上,根据新闻话题的时间密度、空间密度以及簇占比三个因素,提出了新闻话题热度的计算方法。(4)实现了基于多类别文本的新闻热点发现系统,该系统包括数据采集模块、数据预处理模块、特征向量表示模块、话题检测模块以及热点发现模块等。为了验证系统的可行性,对它进行了性能评估和功能测试。在该热点发现系统中,新闻是通过一系列的自动处理,很快的给出用户所关心某个时间内的热点话题。这个系统的实现减少了整理新闻的人力和物力,同时也节省了人们寻找热点新闻的大量宝贵时间。普通用户可以通过该系统查找自己感兴趣的热点话题,从而对获取信息有更好的体验。网络监管部门可以通过该系统可以获知当前的舆论热点,从而可以更好的把握舆论动向。因此,这个系统和技术将会产生巨大的市场和社会价值。
其他文献
随着信息技术的不断发展,整个社会的信息化进程不断加快,以大数据为首的先进信息技术预示着信息时代进入了新的阶段和更高的层次。到目前为止,学界对大数据的概念仍未达成共
小学语文教育要突破单一教育和填鸭式教育的瓶颈就必须立足于改革,作为小学语文教师应该面向小学语文教育的改革和发展,从全面提高小学生语文素质,强化语文的工具性,倡导人文
纳滤膜(NF)是新的分离膜品种,对溶质的截留性能介于超滤膜(UF)和反渗透膜(RO)之间。纳滤膜的特性是表面带有电荷并具有纳米级的微孔,能够去除高价离子和分子量大于200的溶解
肿瘤多药耐药的分子学诊断刘陶文讲师桂林医学院生物工程研究所(541004)多药耐药(Multidrugresistance,MDR)是当今对肿瘤成功化疗的主要障碍之一。MDR的发生机理有三:肿瘤细胞对细胞毒药物的运输调节异常,对药物的代
伴随着全网IP化的不断深入,无线网络开始承载越来越丰富的多媒体业务。各种业务种类的增加,使得无线网络中的通信数据量急剧增大,原本就稀缺的无线频谱资源变的更加紧张。为
改革开放以来,我国对外开放水平大幅提高,为我国自身和全球经济稳定包容可持续增长做出了巨大的贡献。同时,我国仍然面临参与国际分工层次偏低、开放潜力有待进一步挖掘等问
2005年我国开启了资产证券化试点,但发展缓慢,2008-2012年期间处于暂停阶段,2012年之后我国资产证券化取得了飞速发展,越来越多的金融机构通过发行资产支持证券来盘活资金,分
兴趣是调动学生积极思维的内在动力。学生对学习有了兴趣,思维就有了动力,便能做到执着追求,大胆探索,积极思维。在语文教学时,教师在对教材内容的理解和教学方法的设计上,应