论文部分内容阅读
社会媒体是一组以Web2.0为意识形态和技术基础构建的网络应用程序,用户可以在其中分享信息、发表观点以及公开交流,并且建立起虚拟的社会关系。主要的社会媒体形式有Web论坛、微博、博客以及社交网络等,这些平台目前已成为非常流行的知识共享和信息传递渠道。社会媒体以用户量大、互动性强、内容覆盖面广、实时性高以及多媒体、多维度的数据为特点,其中蕴含着丰富且有价值的知识和信息。如何有效的对这些知识和信息进行挖掘利用,有着重要的学术意义和广阔的应用前景,已经成为学术界和工业界共同关注的热点问题。然而,在对社会媒体进行挖掘利用的研究中,也存在着问题与挑战,主要包括:(1)文本数据稀疏问题导致传统的数据挖掘方法在社会媒体信息上不是十分有效;(2)存在很大比例的低质量信息;(3)多媒体、多维度的数据难以有效的融合。针对上述问题和挑战,本文以“国家自然科学基金”和“山东省自然科学基金”为依托,从社会媒体中信息的质量评价和基于社会媒体的事件检测两个方面展开研究,论文的主要工作和创新点包括以下几个方面:(1)提出了一种基于LDA的Web论坛低质量回帖检测方法Web论坛中存在着大量低质量的回帖,给用户浏览带来不便,也严重影响了基于论坛的数据挖掘研究的进行。因此,低质量回帖的滤除是对这些信息进行挖掘利用的必需和重要的预处理步骤。本文提出了一种基于二元分类的低质量回帖检测方法。与已有的方法不同,新方法在对回帖进行质量分类时同时考虑了回帖的语义特征和统计特征。为克服传统的基于统计的特征表示方法在稀疏数据上的局限性,本文提出在LDA主题空间计算语义特征。首先使用全部起始帖集合拟合LDA模型,然后用拟合好的LDA模型将回帖内容映射到主题空间,进而计算三种语义特征,分别为J/I主题比例、主题相关度和主题不确定度。统计特征包括内容浅层特征、句法特征和论坛专有特征。使用语义特征和统计特征作为表征回帖质量的特征向量。实验在从三个不同类型的论坛收集的数据集上进行,实验结果表明,新方法在精确率、召回率和F1测度上均优于已有的低质量回帖检测方法。(2)提出了一种基于机器学习的论坛回帖排序算法。论坛中的发帖和浏览行为与信息检索的过程十分类似。因此,如果能够像信息检索中的检索结果排序一样将回帖按质量排序,将有助于用户快速的定位高质量信息,也有利于其它基于论坛的应用。本文借鉴信息检索领域针对检索结果的排序学习研究,将一个讨论主题中的起始帖视为查询而将回帖视为与查询相联系的检索结果,提出了一种基于机器学习的回帖排序算法LGPRank。LGPRank基于遗传规划框架自动的在训练集上学习到一个相对最优的排序函数。在对回帖进行质量特征表示时同样考虑了语义特征和统计特征。语义特征在LDA主题空间进行计算,使用Wiki百科作为外部知识库拟合LDA模型,以进一步减轻数据稀疏问题带来的影响。实验在两个真实数据集上进行,实验证明LGPRank在P@N、 NDCG@N和MAP评价测度上均优于已有的回帖排序算法。此外,在使用相同特征集合的条件下,基于遗传规划的排序学习得到的结果优于使用其它排序学习方法(如Ranking SVM、RankBoost等)得到的结果。结果表明使用排序学习的思想对回帖进行按质量排序是可行的。(3)提出了一种使用社会媒体数据进行热点事件检测的方法。现实世界中发生的事件通常在社会媒体中有着广泛而及时的体现。随着数字图像技术的飞速发展,人们可以方便的使用各种数码照相设备拍摄下他们生活中每一个瞬间并上传到Web图像社区中(如Flickr)。这些照片中很大一部分是在特定事件发生的现场拍摄的,并且带有用户给出的文本标注信息和GPS位置信息。这使得Web图像社区成为事件检测研究的良好数据源。但是Web图像社区数据也存在文本数据稀疏、噪声信息多等问题。本文提出了一种使用Flickr数据进行热点事件检测的方法。该方法首先将用户标注中的文本词汇与从Flickr图像中提取的视觉词汇合并成文档,并训练LDA模型获得文档的主题分布作为其最终的向量表示,目的是进行多媒体特征融合和削弱数据稀疏问题的影响。在此基础上对传统的基于单遍聚类的事件检测算法进行改进,在事件检测过程中首先考虑了地理位置信息,然后再根据内容相似度建立文档与事件的联系。使用衰退理论(Aging Theory)对检测到的事件进行生命周期建模,并根据能量值对事件进行排序,获得给定时间段内的热点事件。在真实Flickr数据集上的实验证明新方法在精确率、召回率和F1测度上优于传统事件检测方法。在P@10测度下的评测结果证明了热点事件检测结果的合理性。实验结果表明,使用社会媒体数据进行热点事件检测的方法是可行的。本文的研究将有助于用户快速的找到最重要信息和政府部门进行舆情分析。