一种基于用户偏好自动分类的社会媒体共享和推荐方法

来源 :第29届中国数据库学术会议 | 被引量 : 0次 | 上传用户:quixotic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  社会媒体应用已成为Web应用的主流,以用户为中心并且海量媒体数据由用户自生成是社会媒体Web应用的重要特征。应对目前社会媒体环境中信息过载的问题,信息的共享和推荐机制发挥着重要的作用。文中分析了目前主流社会媒体网站基于用户自建组的信息共享机制所存在的问题以及传统推荐技术在效率上的问题,提出了一种新的基于用户偏好自动分类的社会媒体数据共享和推荐方法。直观上讲,该方法的本质是把用户对具体媒体对象的偏好转化成用户对媒体对象所蕴含兴趣元素的偏好,然后把具有相同偏好的用户,即对若干兴趣元素上的兴趣度都相同,自动聚合成为一个“共同偏好组(CPG)”。文中提出了基于CPG的社会媒体信息共享和推荐的架构,设计实现了CPG的自动生成算法,通过随机生成模拟数据集实验详细分析了算法性能的影响因素,并与现有类似功能算法进行了效率对比,实验结果表明算法可适用于具有海量用户的社会媒体应用。
其他文献
综合利用了SURF算法和RANSAC算法各自的优势,提出了一种SURF算法和RANSAC算法相结合的遥感图像匹配方法。首先利用SURF算法提取特征点并进行预匹配,然后用RANSAC算法剔除误匹配点对,解决了SURF算法中存在的误差匹配和错误匹配问题。通过实验验证了所提算法的有效性,并且该算法在实际应用中也取得了良好的效果。
空间近似关键字查询包含一个空间条件和一组关键字相似性条件,这种查询在空间数据库中返回同时满足以下条件的对象:1)对象的位置信息满足查询中的空间条件;2)对于查询中的任何一个关键字,对象中至少包含一个关键字与其相似度大于给定阈值.随着当前数据的爆炸性增长,空间数据库无法完整地存放在内存中,因此空间数据库需要支持空间近似关键字查询的外存索引.目前,还没有在外存中支持精确的空间近似关键字查询的索引结构.
现有轨迹相似性度量缺乏对时空语义和时间随机性的考虑,不能有效地区分移动对象的社会角色。为解决这一问题,做了如下工作:1)提出了时空关联语义(spatial-temporal associated semantics, STAS)的概念,解释了轨迹的语义相似性规律,即两条轨迹的语义相似性与其在某时段内经过同类型区域的概率正相关;2)提出了时态熵(temporal entropy)的概念,度量了轨迹经
对于社交网络影响力最大化问题,Kemple和Kleinberg提出了有较好影响范围的贪心算法,但是KK算法的复杂度非常高,并不实用。利用线性阈值模型提出了一种基于节点激活阈值的启发式算法。它综合考虑了节点之间的影响力和节点的激活阈值,根据每个节点在激活过程中动态变化的阈值来计算PIN值,启发过程中,每一次都选取PIN最大的节点作为种子节点进行激活,贪心阶段中再贪心地挑选那些具有最大影响范围增量的节
伴随语义网的发展,语义网本体数量激增。然而万维网上绝大多数的数据仍存储在关系数据库中。建立关系数据库模式与语义网本体间的映射是一种实现两者之间互操作性的有效途径。因此,提出了一种基于语义的关系数据库模式与OWL本体间的映射方法SMap,包含简单映射发现和复杂映射学习两个阶段。在简单映射发现阶段,首先通过逆向工程规则将关系数据库模式和本体中的元素对应地分为不同类别,再为每个元素构建虚拟文档并计算它们
数据的时效性问题是影响数据质量的重要因素之一。时效性差的数据会对企业决策和人们的日常生活带来许多不利影响,这使得判定数据的时效性成为必要。许多应用数据库中都没有完整、清洁、可用的时间戳,从而导致数据时效性的判定非常困难。冗余记录和时效约束能够在时间戳缺失的情况下有效地辅助恢复数据的时序关系,因而能够帮助数据时效性的判定。文中研究包含冗余记录的集合在给定时效约束下的时效性判定问题,并首次提出了时效性
基于位置的服务(LBS)变得日益普及,越来越多的研究开始关注如何对空间中的兴趣点(POI)做有效的检索。现有的方法提出了空间数据上的关键词检索,研究如何根据查询的位置和关键词找到相关的POI点。然而,现有方法主要对查询关键词进行精确匹配,不能支持模糊查询:当查询关键词与底层数据存在微小差异的时候,LBS系统不能返回相关的结果。为了满足移动用户的模糊查询需求,文中对空间数据上的Top-k关键词模糊查
数据流中的数据分布随着时间动态变化,但传统基于事务的滑动窗口模型难以体现该特征,因此挖掘结果并不精确.首先提出时间敏感数据流处理中存在的问题,然后建立基于时间戳的滑动窗口模型,并转换为基于事务的可变滑动窗口进行处理,提出了频繁项集的挖掘算法FIMoTS.该算法引入了类型变化界限的概念,将项集进行动态分类,根据滑动窗口大小的变化对项集进行延迟处理,仅当项集的类型变化界限超出一定阈值的时候才进行支持度
关系数据库中的关键词搜索技术已经成为信息检索领域的研究热点,它为没有任何SQL语法知识的用户提供了一个简单友好的接口.但是现存的关键词搜索系统主要依赖于数据图或模式图,而单独使用数据图或模式图的算法搜索效率不高,结果准确率也较低.设计实现了一个Top-k关键词搜索系统(keyword search system based on database graph and schema graph,KW
该文提出了一种基于维基百科结构信息的语义关联度的计算方法--WikiStruRel(WSR).维基百科作为目前规模最大和增长最快的在线百科系统,其典型包括两个网状结构:文章网络和分类树(以树为主体的图),这两个网状结构包括了丰富的、明确定义的语义知识.WSR充分分析维基百科的文章网络和分类树,进而计算词语间的语义关联度.该方法没有涉及文本处理,算法开销较小,在3个数据集上的实验,取得了较好的准确率