面向微博用户的标签自动生成技术研究

被引量 : 0次 | 上传用户:maxfree99999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,微博服务作为新型的互联网应用,受到了越来越多用户的关注。在自然语言处理、信息检索和社会计算等相关领域,针对微博的研究工作也在逐渐开展和积累中。微博用户标签,作为描述用户兴趣爱好、职业领域特征等的载体,在用户组织和搜索,挖掘用户兴趣、实现微博上的个性化等方面有着重要的作用。本文着眼于基于微博内容的用户标签自动生成,借助对内容的分析,生成能够体现用户兴趣的标签。本文通过新浪微博API随机获取了百万级规模的标签相关数据,用于分析用户标签在统计、语义等方面的特征。同时,我们对基于文本的标签源:用户的原创、转发、评论和收藏微博的语义相似度及其对反映用户兴趣的贡献进行了实验和分析,结果表明标签源间的语义相似度并不高;而转发微博更能体现用户兴趣,评论最差,从而也确定了本文中生成标签的文本来源。本文从生成标签的不同粒度出发,分别从基于关键词和基于类别的角度自动生成微博用户标签。对生成结果的评价准则有两条:一是生成结果是否准确体现了用户兴趣;二是生成结果是否适合作为用户标签。在基于关键词的生成方法中,引入了基于TextRank的标签生成方法,通过分析微博中词语的共现关系,构建词语网络,抽取较为重要的词用于标签生成。为了使生成的标签能在更多的维度上体现用户兴趣,接着提出了基于聚类分析的生成方法,从较重要的聚类簇中提取代表词用于标签生成。实验表明,两种方法都优于我们的baseline。同时,我们也对两种方法进行了讨论、对比和分析。在基于类别的生成方法中,将用户感兴趣的若干个类别作为其标签。首先提出了基于短文本分类的标签生成方法,人工构建目标分类体系及微博训练语料,识别出用户感兴趣的类别作为标签。随后,我们在更细的粒度上为用户打标签:利用百度百科具有三层分类信息的词条资源,识别出用户关注的类别作为标签。实验表明,两种方法生成标签的准确率均能达到70%左右。同时,我们也对这两种方法进行了讨论、对比和分析。
其他文献
色彩是电影视觉元素之一,除了具有再现功能外,还具有塑造人物形象、表达内心情感和创造意境等作用。电影工作者将自己的创作意图通过对客观色彩进行主观概括,将作品在真实与虚幻
盗窃罪的"事前通谋"在法律渊源上,正式渊源落后,条文选择较为牵强;在理解认定上,"事前通谋"是用以解决掩饰、隐瞒犯罪行为的盗窃罪共犯问题,"事前"应涵盖"事中","通谋"要求具
一、货机载重平衡安全问题概况2007年4月21日,中货航MD-11/B2174货机在厦门机场执行CK247货班任务,配载人员在计算实际无油及起飞重量时,共遗漏了货物33.699吨,造成飞机计算
<正> 一、怎样把握朗诵的语速和节奏语速是指朗诵语流的速度,即单位时间内吐出词语的音节数量。语速是朗诵中语音形式的主要因素之一。语速受作品内容和形式的影响,也受朗诵
期刊
目的探讨儿童异基因造血干细胞移植(allogeneic hematopoietic stem cell transplantation,allo-HSCT)后淋巴细胞增殖性疾病(allo-HSCT post-transplantation lymphoproliferati
检察机关对民事审判人员违法行为的监督是2012年《民事诉讼法》新增加的内容,需要处理好与审判监督、当事人权力救济、对调解书监督的关系,把握好审判人员违法与审判程序违法
新世纪以来,信息交流日趋频繁,交流媒介也越来越多元化。以文化层面为例,影视作品交流在不同国家之间起到很大的作用。21世纪以来,我国不断地引进来自不同文化背景下的影视作
锔匠来自乡村,又走进乡村,乡村也常常因他们的到来而热闹生动起来。过去,乡下人居家过日子,所用之盆、碗、缸以泥、瓷制品较多,在使用时极易打碎,过日子又奉行勤俭持家。因此
期刊
我国的民办高校相比于诞生之初有了长足的进步,这无疑使我国的教育力量得到充实,使我国的民办高校作为一种补充的教育力量弥补了高等教育的部分缺失。但实际上,我国的民办高
国内英语教学水平整体偏低,很大一部分原因就是受汉语语言习惯的影响。时态运用是很重要的内容,其中包括汉语时态和英语时态,实践中汉语语言习惯对学生英语时态运用会产生一