基于MLDA模型的微博文本主题挖掘

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:hyb916720hui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展和微博的日趋流行,新浪等中文微博网站已成为海量信息的发布平台,然而目前对中文微博的研究大多还是针对单一的用户关系分析,对微博本身内容的挖掘分析研究较少。尽管传统文本的主题挖掘已经得到了广泛的应用和研究,而微博是一种带有固定格式的特殊文本,除了文本信息相关特征外,本身还具有一些结构化的社交网络系统的信息,相关研究表示传统的文本挖掘算法不能很好地直接应用其上进行建模。如何选取合适的主题挖掘方法与技术,并基于微博文本的特征,有效地挖掘微博文本的主题是本文的思考和探究的问题。通过对这些问题的剖析,来更好地认识和利用微博的价值。  本文的主要工作及创新如下:  1)深入分析了文本主题挖掘的相关技术和方法,通过对比分析研究传统的算法和各主题模型的优缺点,重点研究了标准LDA模型的原理、主题数的确定、参数估计和文本生成算法,调研分析了近年来基于标准LDA模型改进的各种衍生模型,为笔者对LDA模型的改进提供理论和实践基础和依据。  2)根据现有衍生模型的经验,笔者在标准LDA模型的基础上,深入观察和总结了微博的特征,综合考虑了微博中的文本内容信息和关注者、转发信息等结构化的数据,提出了适合于微博主题挖掘的新模型MLDA。  3)在新浪微博上爬取了较大规模的真实数据集分别对标准LDA和MLDA模型进行了对比实验,对于模型的参数估计,根据过去研究人员的经验,选取了Gibbs抽样算法进行求解,并有效利用开源的Gibbs-LDA++工具实现主题挖掘。实验结果表明MLDA模型能很好地对微博数据进行主题挖掘,验证了该方法的有效性和推广性。
其他文献
2012年10月,中国人民大学信息资源管理学院(档案学院)将迎来60周年院庆。60年的建设与发展,学院在人才培养、科学研究、社会服务、对外合作、文化传承以及办学机制与办学条件建设
通过梳理搜索算法中出现的各种特征因子,提出一种更全面的特征因子分类方法,按其自身特点将特征因子划分为6类,分别是文字内容特征、Web拓扑特征、主题分布特征、文档类型特
期刊
一、教学目的:专利查新是国际上广泛采用的查新形式.在技术研发、引进转让、专利申请、侵权诉讼等方面应用十分广泛。专利情报分析是从专利文献中提取技术、经济、法律信息形成
human library概念引入我国时间虽然很短,但近年来研究进展迅速,在图情领域形成了研究热点。系统回顾我国human library研究历程,总结其本土研究短期内飞跃发展、前瞻创新性
陈兆祦先生是我国现代档案学人的杰出代表,为我国档案界留下了宝贵的思想财富,这些思想丰富了我国档案学的理论体系。本文归纳了先生档案学思想的五个主要方面,并以这五个主
读过《红楼梦》的读者应该都有一种感受,贾宝玉对女性的崇拜,简直达到无以复加的地步.rn首先是言语上的推崇,满口所说总是极力贬低男子,抬高女子.如书中借冷子兴之口写道贾宝
期刊
“见字如面”,这句信函常用语,现在很少有人用了.如今,给报刊投稿,或编辑来信,只需要在电脑或手机上轻轻一点,便完成了往来操作.有的编辑更简便,干脆来个自动回复,全没了手写
期刊
目的:本文旨在利用某儿童医院信息系统中的历史数据,分析门诊就诊流程中影响患者等待时间的因素,在定量分析患者流量与患者等待时间的基础上,找出患者排队的规律。通过建立等待
对于情境而言,好多数学老师并不陌生,多少人知道李吉林的"情境教育"在语文教学实践中得到了很好的应用,但没有引起数学教学的应有重视。当今的数学教学特别是小学数学教学中,虽然也
本文通过对荣华二采区10