Web社会媒体中信息的质量评价及应用研究

被引量 : 0次 | 上传用户:z957558481
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会媒体是一组以Web2.0为意识形态和技术基础构建的网络应用程序,用户可以在其中分享信息、发表观点以及公开交流,并且建立起虚拟的社会关系。主要的社会媒体形式有Web论坛、微博、博客以及社交网络等,这些平台目前已成为非常流行的知识共享和信息传递渠道。社会媒体以用户量大、互动性强、内容覆盖面广、实时性高以及多媒体、多维度的数据为特点,其中蕴含着丰富且有价值的知识和信息。如何有效的对这些知识和信息进行挖掘利用,有着重要的学术意义和广阔的应用前景,已经成为学术界和工业界共同关注的热点问题。然而,在对社会媒体进行挖掘利用的研究中,也存在着问题与挑战,主要包括:(1)文本数据稀疏问题导致传统的数据挖掘方法在社会媒体信息上不是十分有效;(2)存在很大比例的低质量信息;(3)多媒体、多维度的数据难以有效的融合。针对上述问题和挑战,本文以“国家自然科学基金”和“山东省自然科学基金”为依托,从社会媒体中信息的质量评价和基于社会媒体的事件检测两个方面展开研究,论文的主要工作和创新点包括以下几个方面:(1)提出了一种基于LDA的Web论坛低质量回帖检测方法Web论坛中存在着大量低质量的回帖,给用户浏览带来不便,也严重影响了基于论坛的数据挖掘研究的进行。因此,低质量回帖的滤除是对这些信息进行挖掘利用的必需和重要的预处理步骤。本文提出了一种基于二元分类的低质量回帖检测方法。与已有的方法不同,新方法在对回帖进行质量分类时同时考虑了回帖的语义特征和统计特征。为克服传统的基于统计的特征表示方法在稀疏数据上的局限性,本文提出在LDA主题空间计算语义特征。首先使用全部起始帖集合拟合LDA模型,然后用拟合好的LDA模型将回帖内容映射到主题空间,进而计算三种语义特征,分别为J/I主题比例、主题相关度和主题不确定度。统计特征包括内容浅层特征、句法特征和论坛专有特征。使用语义特征和统计特征作为表征回帖质量的特征向量。实验在从三个不同类型的论坛收集的数据集上进行,实验结果表明,新方法在精确率、召回率和F1测度上均优于已有的低质量回帖检测方法。(2)提出了一种基于机器学习的论坛回帖排序算法。论坛中的发帖和浏览行为与信息检索的过程十分类似。因此,如果能够像信息检索中的检索结果排序一样将回帖按质量排序,将有助于用户快速的定位高质量信息,也有利于其它基于论坛的应用。本文借鉴信息检索领域针对检索结果的排序学习研究,将一个讨论主题中的起始帖视为查询而将回帖视为与查询相联系的检索结果,提出了一种基于机器学习的回帖排序算法LGPRank。LGPRank基于遗传规划框架自动的在训练集上学习到一个相对最优的排序函数。在对回帖进行质量特征表示时同样考虑了语义特征和统计特征。语义特征在LDA主题空间进行计算,使用Wiki百科作为外部知识库拟合LDA模型,以进一步减轻数据稀疏问题带来的影响。实验在两个真实数据集上进行,实验证明LGPRank在P@N、 NDCG@N和MAP评价测度上均优于已有的回帖排序算法。此外,在使用相同特征集合的条件下,基于遗传规划的排序学习得到的结果优于使用其它排序学习方法(如Ranking SVM、RankBoost等)得到的结果。结果表明使用排序学习的思想对回帖进行按质量排序是可行的。(3)提出了一种使用社会媒体数据进行热点事件检测的方法。现实世界中发生的事件通常在社会媒体中有着广泛而及时的体现。随着数字图像技术的飞速发展,人们可以方便的使用各种数码照相设备拍摄下他们生活中每一个瞬间并上传到Web图像社区中(如Flickr)。这些照片中很大一部分是在特定事件发生的现场拍摄的,并且带有用户给出的文本标注信息和GPS位置信息。这使得Web图像社区成为事件检测研究的良好数据源。但是Web图像社区数据也存在文本数据稀疏、噪声信息多等问题。本文提出了一种使用Flickr数据进行热点事件检测的方法。该方法首先将用户标注中的文本词汇与从Flickr图像中提取的视觉词汇合并成文档,并训练LDA模型获得文档的主题分布作为其最终的向量表示,目的是进行多媒体特征融合和削弱数据稀疏问题的影响。在此基础上对传统的基于单遍聚类的事件检测算法进行改进,在事件检测过程中首先考虑了地理位置信息,然后再根据内容相似度建立文档与事件的联系。使用衰退理论(Aging Theory)对检测到的事件进行生命周期建模,并根据能量值对事件进行排序,获得给定时间段内的热点事件。在真实Flickr数据集上的实验证明新方法在精确率、召回率和F1测度上优于传统事件检测方法。在P@10测度下的评测结果证明了热点事件检测结果的合理性。实验结果表明,使用社会媒体数据进行热点事件检测的方法是可行的。本文的研究将有助于用户快速的找到最重要信息和政府部门进行舆情分析。
其他文献
制造业是经济发展的基础,也是供给侧结构性改革的主要战场,经历快速增长的柯桥制造业进入了增速放缓的新常态。通过对柯桥制造业现阶段发展困局的分析,结合省、市、区的政策
分析中美商务信函写作中在称呼和语言风格上存在的修辞差异,并从文化因素入手详细地阐释产生这种差异的原因,旨在给中美商务人士在商务信函写作中提供一些启示,以促进中美双
物联网作为互联网的应用扩展,在对现有信息产业成果的继承和发展基础之上,已日益成为各国战略性新兴产业的重要内容。对物联网产业的培育和发展已在世界范围展开,它被公认为
民以食为天,食以地为先。农地流转不仅关系着农民的基本生活保障,同时还关系着城乡统筹发展,和谐社会的构建。本文以在江西省都昌县、铅山县和新干县实际调查得到的301个样本
农业技术推广是农业科技成果转化为现实生产力的桥梁与纽带,是促进农业生产力发展和增强农业竞争力的关键环节。改革开放以来,我国农业技术推广取得了较大的成效,但是仍然存
与私人信函相比,商务英语信函写作不论在语言规范还是格式方面都有着更加严格系统的要求。跨文化商务交际背景下的商务英语信函写作需要把握好专业性、准确性、简明性以及礼
改革开放后,随着社会转型以及市场经济的快速发展,农村经济合作组织在农村社会的生产和生活中发挥着重大的作用。伴随着农村社会和经济的变革,新的农村经济合作组织应运而生
农户作为家庭生产单元,是农业生产中重要的行为主体。经济学原理告诉我们,农户作为“理性经济人”在进行生产种植决策时,追求的是利润最大化,对各项农业生产要素的投入是基于
通过进行SKD11钢和20CrMo钢高温性能试验,把试样按照压铸模的工作温度区间(20℃~700℃)进行加热——冷却循环。SKD11钢中由于ωCr=11.5%~13.0%,会提高材料抗高温氧化能力和抗热
<正>针对地下采矿和隧道市场,连同航空地表支护设备,Schopf Maschinenbau GmbH设计、制造和销售产品。该公司的矿业车辆范围包括矿用装载机,有效载荷达6~18 t,适合所有容积和