在线新闻子话题发现方法及其在金融舆情中的应用研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:readbookmen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的高速发展使得人们获取新闻信息更加快捷方便,因此产生的在线新闻数据呈爆炸式增长。其中蕴含了大量丰富有效的舆情事件相关信息,从中挖掘描述事件各侧面内容的子话题可以从多角度了解掌握舆情事件全貌,获取公众关注侧重点,把握事件走向,以及为后续事件的演化分析、管理决策等提供基础。然而,传统的话题发现方法无法满足当前在线新闻子话题发现的细粒度分析要求,如无法从海量信息中找出准确有效的子话题类别、子话题之间区分度低和子话题表达语义不清晰等。因此,展开在线新闻子话题发现研究具有重要意义。本文在阅读现有的国内外相关文献基础上,分析话题发现领域各类较常使用的技术优缺点,结合在线新闻数据特点,对在线新闻子话题发现方法展开研究,主要工作如下:(1)论文首先对LDA主题模型进行分析,针对其易向高频词倾斜而忽略具有话题代表性的低频特征词缺点,提出了基于特征加权的LDA模型——LDA-FW,并将该模型与其他传统方法在搜狗新闻语料上进行实验对比,证明了该方法的有效性。(2)针对同一事件在线新闻子话题之间区分度不高、子话题关键词语义不连贯等问题,提出了基于LDA-FW和关键词优化的子话题发现方法。该方法在LDA-FW模型的基础上又进一步提出了通过过滤垃圾主题和合并相似主题的子话题过滤整合机制,利用词向量扩展子话题关键词,基于网络传播思想进行子话题关键词筛选和文档子话题划分。通过该方法提高子话题发现的准确率和可读性。(3)面向金融舆情事件在线新闻进行子话题发现研究,对金融舆情事件做出细粒度分析。将基于LDA-FW和关键词优化的子话题发现方法应用于爬取的三类金融舆情事件语料,从子话题关键词提取效果和文档子话题划分效果对比分析各类算法优越性,并对金融舆情子话题发现结果做出分析。实验结果表明,与其他子话题发现方法相比,本文所提出的在线新闻子话题发现方法在相关评价指标下均具有较好的效果,能够有效提高子话题发现质量,为子话题发现研究提供参考。
其他文献
近年来,全球科技创新和产业转型呈现出新的发展趋势,引发了新一轮的产业和经济变革。科技和产业的发展离不开金融的支持。当前,区域发展的重点是以科技创新为支撑,促进产业结
本研究采用万瓦级激光焊接平台针对我国可控核聚变实验堆项目结构材料CLF-1钢,在最佳工艺参数(激光功率10kW、离焦量0mm、焦点直径0.3mm、焊接速度2m/min及保护气体(Ar)流量2
“十三五”期间我国农业发展方向调整的重点是加快推进农业供给侧结构性改革。种植业是农业产业的支柱,农业种植结构的优化与调整是保障农产品有效供给,促进农民持续增收的关
Al-Cu系合金具有较高的塑性、抗拉强度、疲劳强度,以及较强的耐热性等优点,有着非常广泛的应用。但Al-Cu系合金结晶范围较宽、呈糊状凝固的特征,使其热裂倾向严重。本文研究
2008年我国全面开展集体林权制度改革,分林到户,确定了农户在集体林权经营中的主体地位,但也造成了部分林地的破碎化现象,在一定程度上制约了我国集体林规模化发展进程。林权
民国时期,地方政府曾多次发行公债以弥补财政,或充军费,或行市政建设。特别市作为直属于中央政府的一级行政区划,亦发行过公债。民国时期特别市公债的发行开始于北洋政府时期
Dicke模型描述的是多个两能级原子与单模光场相互作用而组成的系统。这个模型的超辐射现象是被Dicke最先发现的。后来,这个模型得到了后人的广泛研究和应用。在实验上,这个模
钛及钛合金是我国近现代工业发展当中应用十分广泛的合金材料,钛合金有着许多的优点,如重量轻、强度高、耐腐蚀性好及生产成本低等,因此被广泛应用于军事、重工业、生物医学
本文案例研究对象为“天风平银-启迪桑德废电产品基金补贴信托受益权绿色资产支持专项计划”,交易结构运用“信托+资产证券化”双层SPV结构,基础资产是信托受益权,底层资产是
统计力学成功地把一个系统的宏观热平衡状态与其微观状态联系起来,做为统计力学核心的系综理论明确给出微观状态的概率分布,系综理论在物理、化学、生物等自然科学的各个领域