基于社交属性的web文本表示方法研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户：jimgui19810917

【摘要】

：

随着互联网用户数量的增长和社交媒体平台的高速发展,互联网上的web页面也出现了爆发式增长的情况。人们通过智能终端在社交平台上交流娱乐的同时,也产生了大量的文本数据,如

【作者】

：

陈功

【出处】

：

贵州大学

【发表日期】

：

2017年01期

【关键词】

：

数据挖掘文本聚类文本表示社交特征内容特征

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网用户数量的增长和社交媒体平台的高速发展,互联网上的web页面也出现了爆发式增长的情况。人们通过智能终端在社交平台上交流娱乐的同时,也产生了大量的文本数据,如何有效的组织和处理这些海量的文本信息,并从这些web文本数据中挖掘出隐含的、先前未知的有价值信息,是一个亟待解决的问题。在文本分析领域,文本表示占有很重要的地位,它是将现实世界中的文本转化成由机器可处理的特征表示。大多数传统的文本表示方法都是从文档内容的角度去考虑,它们的特征项都可以直接从文档内容中提取出来。因此这些方法也都忽略了文本与外界的交互行为关系以及文本之间的关联关系,从而不能更加全面的获取文本的特征信息。随着社交网络中社交行为数据大量的产生,有研究者提出了使用社交信息进行文本建模的方法,并在信息检索领域获得很好的效果。社交信息被引入到文本表示模型中,结合内容特征共同表示文本,不仅考虑了文本与用户的交互行为关系,还通过引入丰富的特征信息有效的缓解了特征数据稀疏度高的问题。针对传统的一些文本表示模型存在的问题,本文通过分析传统的内容特征,基于我们获取的社交特征,提出了以下解决方法:(1)通过结合从内容中提取的内容特征、主题特征和浅层社交特征(用户浏览行为),提出一种多层次的文本表示方法。该方法综合考虑了文本的内部环境和外部环境,并引入结合社交特征的文本相似度计算方法,使得内容特征、主题特征和浅层社交特征相互影响,通过文本聚类算法来评估文本表示方法的性能。我们使用Aminer数据集进行实验,基于论文中的引用关系,建立了论文与作者之间的联系,并提取数据中的社交特征和内容特征。我们的方法考虑到了文本与外界的交互行为关系以及文本之间的关联关系,并且通过大量的实验验证了加入浅层社交特征的文本表示模型对于聚类效果提升作用,同时,我们还发现浅层社交特征具有较强的判别能力。(2)通过分析web文本的多种社交行为信息(转发,评论,收藏,标签),提取web文本的深层社交特征(社交组合特征和标签特征),并结合web文本的主题特征信息共同来表示文本。多种类型的文本特征结合在一定程度上弥补特征矩阵稀疏的问题,同时利用web文本的浏览行为特征强化了社交特征的可靠性。在微博数据集上的实验结果表明,多种社交行为特征对于文本表示的准确度有很大的提升,也提高了文本聚类的效果。

其他文献

基于资源共享的负载均衡任务调度算法研究

伴随经济社会的不断发展,基于合作共享的消费模式被越来越多消费者所接受。同时,智能硬件及移动设备的普及使得社会资源和任务请求得以高度聚集,极大的促进了共享模式在社会

学位

资源共享在线算法离线算法负载均衡任务调度

基于知识分析的高校诚信考试系统的设计与实现

为加强贵州省生源地助学贷款学生对诚信及还款等相关知识的学习,提高其诚信还款意识进而降低贷款违约发生,2012年实验室开发团队根据贵州省相关资助部门的需求开发了一套“助

学位

助学贷款知识分析决策树分类信用评估BP神经网络

弹状流对管端结构高速冲击的数值模拟

在火电站和核电站系统中,管道是输送高压蒸汽的重要工具,在电站系统的日常运营和风险分析中承担着重要的功能。高压蒸汽作用下,管道中的高速运动水团(弹状流)可以对管端结构(例如弯头、孔板、三通或者部分关闭的阀门等构件)造成强烈冲击。在这种高强度冲击荷载作用下,管道内部构件极易遭到破坏,管道外部的支撑也可能因过载而失效,从而严重危害电站系统的安全运行。因此,深入研究弹状流的高速冲击特性及其对结构的影响机制

学位

弹状流VOF方法数值仿真时间积分管道快速排水

基于协同过滤的推荐算法研究

随着互联网的飞速发展,海量信息产生并存储于互联网信息池中。快速、高效地从互联网中获取所需信息变得越发困难,“信息过载”问题日益严重。针对此问题,人们提出了推荐系统

学位

推荐算法协同过滤项目流行度聚类

基于期权的低碳供应链协调策略研究

低碳供应链协调的关键问题之一是帮助企业在碳排放限制下实现生产决策的最优化,即在既定的碳排放政策限制下使整个供应链达到产量、利润和成本的最优以达到供应链的协调。供

学位

碳交易政策期权供应链协调低碳供应链

基于J2EE的企业供电设备缺陷系统的设计与实现

实现供电过程中各种生产资源的优化配置,以此保障整个供电设备系统的有效运行,并在此基础上保障用户用电在质和量上的要求,并同时能够有效减少供电各个环节中的运营代价,以此

学位

工作流供电企业B/S体系结构设备缺陷

基于流形距离和蜂群的聚类算法研究

现在的我们生活在数据时代,数据已经处在我们身边的每一处,且以爆炸式的的方式在增长,甚至已无法计算,那么如何从这么多数据中获取我们所需要的潜在有用得到知识,来帮住人们

学位

聚类算法流形距离属性划分粗糙集蜂群算法局部密度近邻选择

国家科技重大专项中止决策研究

国家科技重大专项(National Science and Technology Major Project)是为了实现国家目标,通过核心技术突破和资源集成,在一定时限内完成的重大战略产品、关键共性技术和重大

学位

国家科技重大专项关键节点中止决策模糊模式识别

基于非局部相似模型的图像恢复算法研究

图像恢复旨在尽可能的对原始图像进行高保真度的重建,如何提高图像的恢复性能,一直是图像处理领域的研究热点。图像恢复与图像采集、存储和传输过程息息相关,有效的图像信息

学位

图像恢复压缩感知非局部自相似低秩优化形状自适应

《西安晚报》“文化周刊”研究

文化是一个意义非常广泛且最具有人文意味的概念,想要对文化下一个精准的概念恐怕是极其困难的事。文化随着经济和社会的不断发展,其传播方式发生许多改变,人们习惯使用互联

学位

《文化周刊》文化特征报纸文化类周刊发展策略

基于社交属性的web文本表示方法研究

其他学术论文