社交媒体中内容的标注与排序

来源 :清华大学 | 被引量 : 0次 | 上传用户:taitaitaihaole
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对社交媒体中快速更新的数据,帮助用户发现和组织有价值的内容已经成为了一项非常有意义的工作。本工作主要研究两个关键技术:(1)内容的标注:找到准确描述物品内容的标签,帮助用户理解内容并对物品进行组织。标签可以作为一个桥梁将网页、短文本、图片、视频等多种形式的内容联系到一起;(2)内容的排序:根据用户的个人偏好、时间、空间等因素对物品进行排序,帮助用户从海量的数据中快速找到感兴趣的内容。论文的主要研究工作和贡献包括:1.社交书签系统中的标签推荐:为了降低数据的稀疏性,本工作充分利用了三种新的关系来进行个性化标签推荐:用户的社交网络、标签的语义关联度、物品的内容相似性。本工作在异构图上拓展了监督式的随机游走模型,并通过求解最优化问题找到了点和边的最佳权重。实验结果表明我们的算法在使用相同的信息时要优于对比方法,并且能够通过融合新的关系来进一步提高推荐的准确率。2.微博短文本的主题标签推荐:主题标签是社交书签在微博文本上的延伸。首先,我们讨论了爆发式主题标签、个人主题标签、常用主题标签的特点以及内容相关、用户相关的推荐策略。然后我们提出了基于混合策略的主题标签推荐算法,帮助用户更加方便地使用主题标签。算法考虑了微博的特有格式、用户的标注习惯、主题标签的时效性等信息。实验结果表明我们的算法要优于已有的基于微博内容的算法和基于用户兴趣的算法。3.微博短文本的个性化排序:微博默认是按时间进行排序的,用户需要不断翻页浏览才能发现感兴趣的内容。我们根据用户的转发历史来对个人的偏好进行建模,将微博按照用户的感兴趣程度进行排序。算法充分考虑到了微博的内容质量、作者的权威度、用户兴趣和微博内容的一致性、用户对作者的关注度等信息。实验结果表明我们的方法要优于已有的方法,并且分析了各个因素的重要程度。4.微博事件的标注与排序:我们提出了一个实时的主题标签聚类算法,将事件表示为一组高质量的主题标签。为了帮助用户从大量的事件中快速发现有价值的信息,我们根据事件的流行程度、突发性、本地性对事件进行综合排序。为了帮助用户以不同的时间、空间粒度浏览事件,我们用时间、空间构成的数据立方体组织事件,并根据层次结构增量式地合并聚类结果。实验结果表明我们的方法能够提供高质量的聚类和排序结果,并且具有良好的可拓展性。
其他文献
商自然人作为独立的商事主体,在破产制度的适用上与法人有着诸多不同之处。其中最主要、最基本的为以下两点。其一,法人的破产财产容易确定.而自然人则可能难以查明。法人主体遵
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
<正>在我从事顾客满意度研究的职业生涯中,从2010年开始为方太提供满意度数据研究技术支持,至今已经有7年时间,在这个过程中,我逐渐理解了方太为何能在20年时间里迅速、稳健
期刊
NPS
博斯特有限公司成立于1890年。1940年亨利·博斯特先生和他的伙伴发明了自动平压模切机而迎来了该公司的转折点,自动平压模切机主要用于把已经印刷好的纸板模切成纸盒。博斯
国家公共文化服务体系示范区创建,给苏州图书馆总分馆的建设和发展,起了推动和促进作用。从分馆建设的数量,延伸服务的网络,提升总分馆服务的质量,都起到了推动作用。
数字图像处理在科学与工程的许多领域有着广泛的应用。图像复原是图像处理研究中的一个重要领域,其问题通常是不适定的反问题,求解此问题的常用方法是基于真实图像的先验信息
文章围绕废水中磷的不确定度进行了研究。针对磷钼蓝分光光度法的数学测量模型、磷测量的不确定度进行了分析,结果显示在采用该法测定废水中磷的浓度时,不确定度与标准溶液的
<正> 无定河,一条小黄河 无定河是黄河中游较大的一级支流,发源于榆林市定边、靖边和延安市吴旗县交界处的白于山麓,流经榆林、延安两市和内蒙古伊克昭盟,在清涧县河口村注入