基于社交网站的数据挖掘应用研究

被引量 : 0次 | 上传用户:xiongyongdezhanghao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网站各类终端功能和界面的日益完善,人们对社交网站尤其是微博类等基于短文本的社会媒体越发依赖,其中的商业价值也越来越明显。通过对近年来越来越受到人们关注的自然语言处理和文本挖掘技术的研究探索,建立主题分析模型,对微博文本进行有效地分析和处理,挖掘出隐藏于海量的微博数据中的用户兴趣及其关注领域,不仅对各类商户来说具有巨大的利用价值,通过兴趣信息投放和类别划分也可以为微博用户提供便利。由于微博数据篇幅短小,长度一般限制在140字左右,其所蕴含的信息量相对较少,数据稀疏性问题较为严重,但总量又比较大,传统的文本挖掘算法不能达到很好的效果。而利用主题建模则可以无监督地对文档和词进行分类,从而较为准确地挖掘出文本中隐含的主题意义。本文以用新浪API获取的不同领域的新浪微博数据为语料,面向短文本聚类方法进行研究,首先针对微博类数据含有较大“噪音”的特点,本文利用正则表达式对其进行一系列匹配预处理操作,然后利用基于条件随机场的中文分词系统对微博数据进行分词,接着对分词之后的语料进行去除停用词等处理,以此为基础,设计和实现了一种基于贝叶斯网络模型的对文档和词的潜在主题分布进行预测的基于隐含狄利克雷分布(LDA)模型的主题分析系统。在对该系统进行介绍之前,论文先对系统所涉及的分词和主题模型理论做了详细的论述。在后续的研究中,本系统通过对经过预处理的微博文本进行建模,并采用吉布斯抽样和马尔可夫链蒙特卡洛算法,能够根据设定的主题数目,较为准确的提取出输入微博文本的主题,具有良好的实用价值。
其他文献
饲料在动物养殖中占养殖成本的70%以上,饲料的营养价值直接决定了养殖的成败。该文针对饲料中常见的霉菌毒素性质及对动物的危害分别进行探讨,介绍几种相应的检测技术和防控
随着海上生活逐渐兴起,作为海上娱乐载体的游艇正越来越受到追捧。中国的游艇产业尚处在起步阶段,人才短缺、设计理论匮乏和建造工艺落后等问题尤为突出。对于船体开发的研究更
中国民间舞是中国舞蹈研究中最重要的一支,它的重要性不仅仅在于能够为职业化民间舞研究提供源源不断地舞蹈素材,更重要的是其自身所拥有的社会学、民俗学、人类学、文化学、
在水产养殖中,鱼类经常会遇到水温剧变、养殖密度过高、水质恶化、鱼体运输、存贮等环境因子的应激。当病原找到适合自身繁殖的环境时,这些应激因子的改变更容易引起鱼体感染
以一个最常用的机械标准件——齿轮为实例,讲述了如何使用UG(Unigraphics)和电子表格功能对同一类型零件进行参数化设计,建立了结构形状相同仅尺寸不同的零件的三维模型库。该设
中国老子和罗马塞涅卡都属于世界历史上奴隶制时期的哲学大师,哲学思想都是想挽救刚刚没落或正在没落的奴隶主阶级的命运,并为此开出了相似的哲学药方,这就是:顺其自然、以柔
金融业是当代经济的核心产业,是衔接所有要素市场的纽带,拥有优化各种社会资源配置的功能。运作良好的金融业,可以促进和维持长期的经济发展和稳定。但现阶段,兵团金融业的发
提供教育公共服务是政府的一项基本职能。增大教育投入,促进公共教育区域均衡发展,既是促进经济发展的重要途径,也是推进社会公平的重要措施。发展公共教育需要财力支撑,公共教育
相贯线是《工程制图》教学中的重点和难点。针对《工程制图》课程中两立体相交时求解相贯线内容的易懂、难作的特点。本文重点分析了两曲面立体相交时相贯线的不同求解方法。
本文是根据目前中国普通高校陶艺教育发展方向,针对普通高校陶艺教学的现状和问题,特别是教师在陶艺教学方面所出现普遍单一教学模式和思维局限这一问题为出发点,本文提出依