社会化问答社区用户生成内容声誉特征研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:qzyss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于大量的用户生成内容(user-generated content,UGC)所带来的信息超载,现在社区内的内容流行度往往是由用户通过投票机制来决定的,尤其是在社会化问答社区中,如美国的Quora.com和中国的知乎。这些问答网站通过根据投票数量对答案进行排序,实现了有效的信息过滤。这些投票反映了群体对质量的评价,影响着读者的注意力分配。对社会化问答社区用户UGC声誉特征进行研究研究,是深入分析社会化问答社区UGC声誉特征形成机理、提前识别高声誉UGC信息的基础,有助于增强社区和政府在舆情演化中的主动地位,改善网络信息生态环境治理水平。本文的主要研究目标在于解决以下几个问题:(1)社会化问答社区中UGC声誉特征的来源、内涵、形成机理、影响作用以及分析方法;(2)社会化问答社区中UGC声誉特征的影响因素,及这些影响因素与声誉特征之间的关系;(3)利用社会化问答社区UGC可观测的相关变量来对其声誉特征进行预测;(4)发掘不同话题不同声誉区间UGC,尤其是异常声誉UGC的相关特征;(5)基于社会化问答社区中UGC声誉特征的相关研究,提出有针对性的管理策略与实践建议。围绕上述问题,本研究以社会化问答社区中UGC的声誉特征为研究对象,通过理论分析、实证研究与数据挖掘的方法,从UGC声誉特征的形成机理入手,构建了UGC声誉特征研究模型和UGC声誉特征预测模型,发掘不同话题不同声誉区间UGC的相关特点,分别分析了基于信息质量和信源可信度对社会化问答社区UGC声誉特征,以及出现异常声誉特征的UGC,然后提出了相应的管理策略。本文的主要研究工作有以下五个方面:第一,对社会化问答社区UGC声誉的进行理论研究。首先介绍了社会化问答社区UGC声誉特征的来源与内涵,及分析、分类方法。然后使用扎根理论方法,结合信息接受模型,探索性地研究了社会化问答社区UGC声誉形成的影响因素。最后结合了SOR理论,对社会化问答社区UGC声誉特征的形成机理进行研究。接着引出了UGC声誉特征的影响作用,从UGC声誉特征对活跃用户、“潜水者”、社会化问答社区、互联网环境的影响,构建社会化问答社区UGC声誉特征形成机理模型和社会化问答社区UGC声誉特征影响作用模型。第二,基于信息接受模型构建社会化问答社区UGC声誉特征影响因素模型,提出社会化问答社区UGC文本特征、非文本特征和信源可信度作为UGC声誉特征的影响因素,并受到信息涉入度的调节作用的研究思想,进而以知乎社区中健康、时尚、娱乐三个话题共190990条回答数据为例进行实证研究,研究结果表明:(1)对于所有话题来说,文本质量越好的回答声誉越高,文本特征、非文本特征均与信源可信度均对声誉特征的大小存在正向影响,但是这种影响对于娱乐话题下的回答来说非常小;(2)对在大数情况下(包括总体情况和健康、时尚话题情况),信源可信度越高的回答声誉特征越不容易为零,但是娱乐话题是个例外;(3)话题涉入度各因素对于声誉特征的影响中不存在调节作用;(4)在社会化问答社区UGC声誉特征中,存在着“结构零”的现象,信源可信度在声誉特征的“结构零”部分与离散分布部分起到的影响存在一定的差异。第三,通过文献调研,从社会化问答社区回答信息的相关属性构建影响回答信息质量和信源可信度的指标属性。其中信息质量包括文本特征和非文本特征两个方面,文本特征包括回答长度、情感极性、关键词密度和问答长度比4个指标,非文本特征包括回答及时性、反馈及时性、回答评论数、回答者互动性、引用外部链接数量和图片数量6个指标。信源可信度的指标则包括回答者获赞数、回答者被收藏数、回答者最佳回答数量、回答者个人认证情况、回答者官方认证情况、回答者粉丝数、回答者关注数、回答者回答数量、回答者文章数量、回答者专业度共10个。然后提出了信息质量文本特征、非文本特征和信源可信度三个变量相关指标的获取和量化方法。构建了社会化问答社区UGC声誉预测模型。将信息质量文本特征、非文本特征和信源可信度三个变量对信息声誉特征的影响系数作为权重,通过信息质量和信源可信度对UGC声誉特征进行预测。该模型的预测包含两个方面:一是预测已有声誉回答可能获得的声誉特征;二是预测回答零声誉回答的零声誉状态是否会一直持续。第四,选取了知乎社区内的回答数据来进行实例验证,在验证了模型的预测效果后,本章又探究了不同声誉区间内UGC信息质量、信源可信度的分布,并对样本中的声誉特征异常的UGC进行了分析。(1)文本特征的主要影响维度是文本长度和问答长度比;对于非文本特征维度来说,反馈及时性的影响权重相对不高;回答者通过发布UGC所获得的奖励情况远比回答者发布的UGC数量更能影响回答者的可信度,回答者文章数也比回答者回答数的影响更大;(2)不同话题中词汇的属性存在着较大差别。健康话题中高声誉和极高声誉区间回答的高频特征词中情感词的比例和相对位置都更小,而时尚和娱乐话题中的主观词汇更接近中心;(3)在社会化问答社区中,UGC的信源可信度决定了该回答声誉特征的下限,却无法决定其上限。合理的表层语言特征与非文本特征是回答获得极高声誉的必要条件;(4)回答者的认证情况仅能够提升当前回答信息的声誉特征,但是无法提升话题内所有回答的整体声誉特征。第五,从用户、社会化问答社区管理和政府网络信息治理三个层面出发,提出相应的管理策略。在用户层面,在指引用户发布或与他人协作产生更高质量、更具影响力的UGC的同时,倡导用户的规范声誉赋予行为并提出了具体建议;在社会化问答社区管理层面,为社区鼓励优质UGC和优质用户的实践措施中提出了可行策略,同时又为社区中UGC的排序机制优化提供了参考;在政府信息治理层面,帮助政府“激浊扬清”,让优质的意见领袖和UGC更早、更广、更深地发挥他们在互联网信息治理中的作用,而让有可能具有一定影响力的谣言、垃圾信息等在其造成严重后果之前得到应有的处理。本文的研究工作从理论层面对用户生成内容研究的理论体系做出了丰富与完善,对用户生成内容信息特征的理论框架进行了拓展与深化,为社会化问答社区用户生成内容排名优化提供科学方法和理论依据;在实践层面,通过分析与研究社会化问答社区UGC声誉特征的相关规律,为筛选和识别高声誉用户生成内容提供了系统的实践方法,有助于加强社会化问答社区用户贡献知识的涌现,也有利于推动社会化问答社区的良性发展。
其他文献
摘要:目的:通过研究陶瓷膜微滤前后药液的指标成分转移率,探索陶瓷膜微滤在中药提取液中精制的可行性。
基础教育新课程改革正在向纵深发展,农村小学处于教育的最基层,无论是硬件设施、师资力量,还是其他方面,均处全国或省的平均水平以下。作为学校灵魂的校长,面对新课改的新形势、新
第21届国际矿物学大会(21^stIMA)于2014年9月1~5日在南非首都约翰内斯堡召开。来自全球70多个国家和地区的800余人参加了此次盛会,其中有40多名中国科学家与会。大会围绕“深入探
创新从某种意义来说,就是超越和突破,开放性是它的显著特点之一。学生具有开放式的思维和个性品质,是创新的基础,是创新教育应致力培育的重要素质。传统的“注入式”、“纵深式”
众所周知,词汇、句型、时态是学好英语必须掌握的三项内容,不可或缺。对于初中学生来说,词汇、句型的学习和掌握相对比较容易,只要花时间去理解和记忆,就没有太大的问题,但时态不同
教学方式根植于教学观念,外显为教学行为,取决于教学设计,落实于教学活动。下面以“长方形和正方形”教学为例,从教学目标、教学过程和教学方法三方面进行对比分析,以揭示不同的教
产业结构升级是当前中国经济结构调整的重要战略任务,关乎到我国经济发展质量,如何稳步迈向高质量发展是现阶段最具有研究价值的命题。在升级发展过程中必然离不开金融的支持
柑橘大实蝇Bactrocera minax隶属于双翅目,实蝇科,果实蝇属,是一种危害柑橘类水果的寡食性害虫。滞育是昆虫及其近缘节肢动物在特定发育阶段停止发育的一种生理现象在协调生
《数学课程标准(实验稿)》提出这样的教学建议:“数学教学,要紧密联系学生的生活实际,从学生的生活经验和已有知识出发,创设生动有趣的情境,引导学生开展观察、操作、猜想、推理、
自由空间光通信是空天地一体化信息传输的重要组成部分,并且有望解决光纤“最后一公里”的问题,因此对信息产业化也具有极大的推动作用。此外,因其架设便捷,作为特殊条件下的