论文部分内容阅读
互联网中的网页数量庞大,但质量参差不齐,用户并不能通过搜索引擎快速找到自身问题的答案,问答社区的产生能够对搜索引擎进行补充。从起初的付费服务到全面免费,问答社区为用户提供了提问和回答的平台,使问题能够快速解决,使知识和观点得到分享。专家用户是问答社区中内容的重要提供者,决定了问答社区的质量,因此专家用户对问答社区非常重要,对专家用户的行为特征进行分析能够了解专家用户行为特征的分布情况、探索行为之间的相关性,并通过行为特征对专家用户实现划分,从而有利于问答社区发现、推荐和维护专家用户,进而促进问答社区的发展。本文将问答社区的专家发现和虚拟社区的用户行为特征研究相结合,采用问答社区的历史数据对问答社区的专家用户行为特征进行分析。在数据获取方面,本文选择了新型的结合了社交因素且对质量进行控制的问答社区知乎作为数据来源。通过Python编写数据抓取程序获取了知乎中四个话题中的全部问题信息、回答信息以及用户信息。使用已有研究证实有效的加权PageRank算法计算了用户的专家值,结合研究中提供的专家用户比例,选取专家值排名前10%的用户作为专家用户。并将获得的专家用户与使用其他方法得到的专家用户进行比对,证明了本文所采用的方法能够综合用户的回答数量和回答质量来发现专家用户。在专家用户的行为特征分析中,本文采用了基本统计分析、相关分析、聚类分析和社会网络分析,对专家用户的回答、提问、关注行为的特征进行了分析,其中回答行为主要分为回答数量、回答响应时间、回答活跃情况以及回答评价情况,提问行为主要是针对提问数量的分析,关注行为主要是对关注话题数的分析。本文通过K-means++对获得的专家用户进行聚类分析,并对分类数目进行了优化,实现专家用户的细分。通过社会网络分析,分别对不同话题和同一话题的不同阶段的专家用户回答同一问题行为构成的网络进行分析,分析的内容包括密度、聚类系数以及成分的分析。根据对专家用户的行为特征的分析,本文发现了专家用户回答、提问和关注行为特征值的数值分布和话题差异,并得到了行为特征之间的关系,根据专家用户的行为特征将专家用户划分为5类。结合分析的结论,本文提出了针对发现、推荐和维护专家用户的建议。通过本文的研究将问答社区用户行为研究细化至专家用户,并综合多种分析方法使已有研究得到扩展,而且发现了一些专家用户行为的特征,可用于问答社区的完善。但本文在专家用户选取比例未体现话题差异,而且存在分析不深入。在进一步研究中,可对专家用户选取进行优化,同时,结合文本特征和其他社会网络分析的结果深入对专家用户行为特征的研究。