论文部分内容阅读
随着互联网用户数量的增长和社交媒体平台的高速发展,互联网上的web页面也出现了爆发式增长的情况。人们通过智能终端在社交平台上交流娱乐的同时,也产生了大量的文本数据,如何有效的组织和处理这些海量的文本信息,并从这些web文本数据中挖掘出隐含的、先前未知的有价值信息,是一个亟待解决的问题。在文本分析领域,文本表示占有很重要的地位,它是将现实世界中的文本转化成由机器可处理的特征表示。大多数传统的文本表示方法都是从文档内容的角度去考虑,它们的特征项都可以直接从文档内容中提取出来。因此这些方法也都忽略了文本与外界的交互行为关系以及文本之间的关联关系,从而不能更加全面的获取文本的特征信息。随着社交网络中社交行为数据大量的产生,有研究者提出了使用社交信息进行文本建模的方法,并在信息检索领域获得很好的效果。社交信息被引入到文本表示模型中,结合内容特征共同表示文本,不仅考虑了文本与用户的交互行为关系,还通过引入丰富的特征信息有效的缓解了特征数据稀疏度高的问题。针对传统的一些文本表示模型存在的问题,本文通过分析传统的内容特征,基于我们获取的社交特征,提出了以下解决方法:(1)通过结合从内容中提取的内容特征、主题特征和浅层社交特征(用户浏览行为),提出一种多层次的文本表示方法。该方法综合考虑了文本的内部环境和外部环境,并引入结合社交特征的文本相似度计算方法,使得内容特征、主题特征和浅层社交特征相互影响,通过文本聚类算法来评估文本表示方法的性能。我们使用Aminer数据集进行实验,基于论文中的引用关系,建立了论文与作者之间的联系,并提取数据中的社交特征和内容特征。我们的方法考虑到了文本与外界的交互行为关系以及文本之间的关联关系,并且通过大量的实验验证了加入浅层社交特征的文本表示模型对于聚类效果提升作用,同时,我们还发现浅层社交特征具有较强的判别能力。(2)通过分析web文本的多种社交行为信息(转发,评论,收藏,标签),提取web文本的深层社交特征(社交组合特征和标签特征),并结合web文本的主题特征信息共同来表示文本。多种类型的文本特征结合在一定程度上弥补特征矩阵稀疏的问题,同时利用web文本的浏览行为特征强化了社交特征的可靠性。在微博数据集上的实验结果表明,多种社交行为特征对于文本表示的准确度有很大的提升,也提高了文本聚类的效果。