论文部分内容阅读
社交网络是用户获取、发布、传播与分享信息的平台。微博是一个基于用户关注机制的广播式主流社交媒体。微博社交网络中实时更新的微博会产生大量的非结构化数据,导致信息过载、信息冗余等问题,使得用户需要花费大量的时间来筛选和过滤相关的信息。如何帮助用户在大数据时代获取真正需要的内容是当前社会化推荐系统亟待解决的热点问题之一。用户建模技术是根据用户的历史数据分析抽取用户感兴趣的主题特征,建立用户兴趣模型的方法,已被广泛应用到电子商务、广告营销、搜索引擎和社会化推荐系统等领域。微博内容都是字数较少的短文本,呈现出碎片性特点,这对传统用户模型中采用长文本提取用户兴趣的方法提出了挑战。另外,微博用户之间还存在除兴趣关系之外的其他复杂关系,如关注关系、评论关系和转发关系等,传统的用户模型难以描述这些关系。本文提出的社会化用户模型不但可以描述微博用户的兴趣,还可以刻画用户之间的各种关系。在社会化用户模型的基础上,对邻域用户模型、多粒度主题相似关系、热点主题多样化、社区兴趣演化等问题进行了深入探讨和研究,解决了社会化推荐系统中用户兴趣多样性、预测准确率和推荐结果多样性等方面的问题。具体研究成果主要有:(1)基于用户关系的社会化用户模型构建:由于微博文本内容的碎片性,影响了用户兴趣主题获取的准确性。通过考虑用户之间的社会化交互关系,将这些关系融入到用户兴趣的获取过程中,构建了基于用户关系的社会化用户模型(Social User Model Based on Users’Relations,SUM-UR),为用户兴趣主题扩展、社会热点主题发现、社区兴趣演化等研究奠定了基础。(2)基于邻域用户模型的兴趣主题扩展:为了解决短文本在用户兴趣获取时主题词少的问题,将用户间的资源认知关系和关注认知关系相结合,提出用户认知关系的概念,定义用户的邻域关系,进而发现用户的邻域集。在邻域集上更新用户的兴趣主题集和主题兴趣度,实现基于邻域用户模型的兴趣主题扩展(Interest Subject Expansion Based on Neighborhood User Model,ISE-NUM)。实验证明,基于认知关系的邻域用户模型可以有效扩展用户的兴趣主题集,与基于内容的协同过滤主题推荐方法相比较,精度和召回率分别提高约10%。(3)基于多粒度主题相似关系的好友推荐:针对单个兴趣主题上好友推荐召回率较低的问题,提出一种多粒度层次主题相似关系的好友推荐方法。该方法从主题的内容兴趣和语义兴趣树结构两个方面分别计算用户的多粒度层次主题相似度,进行了用户模型多层相似关系的研究,并利用多粒度主题相似关系实现了好友推荐。实验说明,基于多粒度主题相似关系的好友推荐(Friends Recommendation Based on Multi-granularity Subject Similarity Relationship,FR-MSSR)在精度和召回率方面要优于传统的Fo F好友推荐方法。(4)基于个性化热点主题的多样性微博推荐:微博中的热点话题会由评论数和转发数高的微博所诱发。传统的热点主题推荐方法中,推荐内容之间存在着较高的相似性,多样性较差。本文提出主题流行度的计算方法,利用平滑指数曲线对主题流行度进行预测,发现热点主题;结合用户的兴趣,研究了个性化热点主题的多样性微博推荐(Diversified Microblog Recommendation Based on Personalized Hot Subject,DMR-PHS)方法,提出基于最大最小距离的Top-k多样化微博推荐算法。实验表明,主题的流行度预测结果准确,平均绝对误差约为0.07,在热点主题上的多样化微博推荐可以提高用户的满意度。(5)基于关键用户的社区兴趣演化:微博社区的兴趣维数较高,使得社区上的兴趣演化分析比较困难,本文提出了利用关键用户为代表的社区兴趣趋势分析方法。该方法在用户隶属社区上进行关键用户的挖掘,利用不同时间窗口社区关键用户的变化表示社区结构的迁移,提出基于关键用户的社区兴趣演化(Community Interest Evolution Based on Key Users,CIE-KU)方法,根据关键用户的兴趣主题变化模拟社区的兴趣演化趋势。实验表明,该方法不但能有效表示覆盖社区的兴趣,还可以很好地模拟社区中的兴趣演化过程。