互联网海量信息中热点信息主题的自动发现

被引量 : 0次 | 上传用户:baronsong2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息资源的日益膨胀,使得仅仅靠传统的经验判断已无法帮助用户了解海量网络信息中的热点信息主题和某个热点主题的相关热点事件。如何从数量庞大、类别繁多、背景复杂、“舆论多元”的网络信息资源中分析出网络信息的分布结构,自动发现我们所需的热点信息主题,是一项综合性的技术,更是我们所要解决的紧迫问题。本文首先研究了热点信息主题自动发现文本预处理流程中的相关核心技术,并对文本特征权值计算方法、文本特征提取方法进行相关改进,提出了基于Web结构特征的TF IDF文本特征权值计算方法、文本概念特征提取方法,并采用基于新闻事件特性的文本表示方法,以提高文本表示效果和降低特征空间的维数,从而降低计算复杂度和提高聚类质量。本文的研究内容倾向于新话题的检测(Topic Detection Task),即网络热点信息主题的自动发现过程。因此,针对传统的话题检测技术中聚类策略(如凝聚层次聚类、增量K-Means)存在的不足,立足于基于密度的文本聚类算法,对其进行深入分析,提出了基于子簇关系的多分辨率密度聚类算法来实现热点信息主题的自动发现。随后,对此算法进行性能评估和聚类结果分析,实验结果显示该算法的性能和聚类效果都在一定程度上得到改善,提高了热点信息主题自动发现的效率和效果。为了更好的让用户理解热点信息主题的内容,本文在前人研究的基础上,采用基于FP-growth算法的DCF类簇标签生成算法对热点信息主题进行描述。该算法生成的类簇标签可读性强,可实现用户对主题内容的快捷浏览。在实现网络热点信息主题的特征分析和评估时,我们采用了2012年6月-7月全网新闻数据集进行热点信息主题的自动发现、展示、对比分析和实验结果的检验评估。虽然热点信息主题的自动发现与分析技术在国内外已经有一些比较成熟的技术,但如何对ZB级的海量信息进行有效的文本聚类,并实现应用性更强的热点信息主题在线自动发现,需要进一步研究。
其他文献
1981年,河北滦平县金山岭明长城砖垛口一侧发现一块残碑,碑上文字多漶泐不清,本文对能识别的一些文字内容进行了分析,认为此碑是隋修长城的明证,具有非常重要的历史、文物价
从古至今,谣言都是一个影响社会秩序、影响人们价值判断的存在,谣言的治理一直是社会管理者的一道难题。社交媒体的兴起为谣言的滋生与传播提供了肥沃的土壤,谣言传播力与影
测定了不同铸造压力下ADC12Z压铸件密度、孔洞面积百分比、孔洞平均直径及力学性能,研究了铸造压力对ADC12Z压铸件孔洞和力学性能影响。结果表明,随着铸造压力增大,压铸件孔
目的:回顾性分析美罗培南用于抗感染治疗时对肾脏功能的影响,为临床合理用药提供参考.方法:按照病情相近的原则选择1998年以来在我科ICU接受治疗的严重肺部感染患者35例,按照
目的比较骨折复位内固定与髋关节置换术治疗老年股骨颈骨折的疗效。方法收集本院1998~2005年老年股骨颈骨折病例中年龄、性别、随访时间均相仿的内固定78例和全髋关节置换86例
食品作为人类生活的必需品,食品安全既是民生问题又是关系到社会稳定的问题。关系着广大人民群众的身体健康和生命安全。2012年“白酒塑化剂”事件,又将食品安全引入公众视野
时钟数据恢复(CDR)电路是串行数据通信中数据接收端的重要模块,串行数据通信中数据率的不断提高对时钟数据恢复电路的设计提出了更高的挑战。为了适应不断提高的串行数据率,本
本文回顾了我国以往采用的车辆限界计算方法,分析其存在的缺陷,介绍国外先进的轨道交通限界理论和即将编制完成的《地铁限界标准》编写方针。
产业政策是在市场经济迅速发展的形势下,政府对产业进行宏观调控的重要手段。产业政策法是国家制定的调整产业政策的法律规范的总称。产业政策走向是指一国产业政策的发展方
本文作者在哥伦比亚亚诺斯(Llanos)盆地沉积背景基础上,以详实的钻井和地震资料为基础,以构造学、沉积学、地震地层学和层序地层学等多种学科为指导,以landmark工作站和其他石油地