论文部分内容阅读
近年来,微博服务作为新型的互联网应用,受到了越来越多用户的关注。在自然语言处理、信息检索和社会计算等相关领域,针对微博的研究工作也在逐渐开展和积累中。微博用户标签,作为描述用户兴趣爱好、职业领域特征等的载体,在用户组织和搜索,挖掘用户兴趣、实现微博上的个性化等方面有着重要的作用。本文着眼于基于微博内容的用户标签自动生成,借助对内容的分析,生成能够体现用户兴趣的标签。本文通过新浪微博API随机获取了百万级规模的标签相关数据,用于分析用户标签在统计、语义等方面的特征。同时,我们对基于文本的标签源:用户的原创、转发、评论和收藏微博的语义相似度及其对反映用户兴趣的贡献进行了实验和分析,结果表明标签源间的语义相似度并不高;而转发微博更能体现用户兴趣,评论最差,从而也确定了本文中生成标签的文本来源。本文从生成标签的不同粒度出发,分别从基于关键词和基于类别的角度自动生成微博用户标签。对生成结果的评价准则有两条:一是生成结果是否准确体现了用户兴趣;二是生成结果是否适合作为用户标签。在基于关键词的生成方法中,引入了基于TextRank的标签生成方法,通过分析微博中词语的共现关系,构建词语网络,抽取较为重要的词用于标签生成。为了使生成的标签能在更多的维度上体现用户兴趣,接着提出了基于聚类分析的生成方法,从较重要的聚类簇中提取代表词用于标签生成。实验表明,两种方法都优于我们的baseline。同时,我们也对两种方法进行了讨论、对比和分析。在基于类别的生成方法中,将用户感兴趣的若干个类别作为其标签。首先提出了基于短文本分类的标签生成方法,人工构建目标分类体系及微博训练语料,识别出用户感兴趣的类别作为标签。随后,我们在更细的粒度上为用户打标签:利用百度百科具有三层分类信息的词条资源,识别出用户关注的类别作为标签。实验表明,两种方法生成标签的准确率均能达到70%左右。同时,我们也对这两种方法进行了讨论、对比和分析。