大规模演化知识网络中的关系推断

来源 :第二届CCF大数据学术会议 | 被引量 : 0次 | 上传用户:xuefu2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络大数据时代的到来使得知识网络中时空信息越来越丰富.现有的知识网络描述模型对知识的时空信息的刻画不足.研究证明,利用网络中知识的时空信息以及相关性,能够提高网络中知识间的关系推断的准确率.针对以上问题,首先提出了一种包含时空信息的演化知识网络表示模型,然后研究在该网络模型上的关系推断问题,提出了一种基于背包问题的知识间关系推断方法.在多个数据集上的实验证明了所提出的关系推断方法的有效性以及对大规模知识网络的适应性.
其他文献
针对语义知识库构建方式和语义表达模型研究中的不足,在已有工作的基础上,提出一种新的语义知识模型:动态知识网络,在详细阐述模型组成要素的基础上,进一步研究了该模型的知识表示方法.在语义知识模型的指导下,面向开放的网络数据资源,研究了动态知识网络的半自动构建方法,并且以360百科和新闻网页数据为基础进行了实验验证,结果表明所提模型和方法能够有效支持动态知识网络的构建。
随着大数据时代的到来,隐私问题备受关注,用户一方面希望获得新鲜和低延迟的查询结果,另一方面又希望对查询信息进行隐私保护,为此本文提出了一种基于内存的分布式隐私流查询系统,其中,查询可以通过Paillier密码系统进行加密.该系统在shared-nothing架构下支持水平扩展,实现了在内存中对流数据进行分片的并行查询以及基于位图索引的压缩存储.实验证明了该系统的有效性.
Hadoop HBase系统为大数据的存储管理提供了一种具有高可扩展性的技术方法和系统平台.然而HBase不支持非主键索引,导致HBase的数据查询效率较低,难以满足数据实时/准实时查询需求.本文研究提出了一种基于分层式HBase非主键索引的查询模型和方法,包括基于HBase的持久性索引、基于分布式内存的索引热点数据缓存技术和高效的热度累积缓存替换策略,并实现于分层式索引和查询系统HiBase.在
社区发现旨在挖掘社会信息网络的社区结构,是社会计算及其相关研究的基础.随着交互式社会信息网络规模的快速增长,传统的社区发现算法难以满足大规模网络的可扩展分析需求.多层社区发现算法如PMetis、Graclus等虽然可以分析包含数百万节点规模的网络,但是小于1/2的粗化缩减比率以及社会信息网络的幂律分布特性极大地制约着该类算法的性能优势.本文提出了一种基于三角形内点同一社区性粗化策略的多层社区发现算
云存储中的敏感数据需要以加密形式存储以确保其安全,属性基加密(ABE)被广泛用于对加密数据的细粒度共享,然而,ABE中存在三类影响数据机密性的问题:(1)用户可以共享他/她的密钥而不被发现;(2)密钥生成中心(KGC)可以生成带有任意属性集或访问结构的密钥;(3) KGC可以用它的主密钥解密任意的密文这三类问题的存在,使得使用ABE的系统中的数据面临极大的安全挑战提出了一个增强云存储中数据机密性的
随着电力企业信息化的加快,企业内部各种信息系统间的异构数据逐渐增多,如何有效的消除这些异构数据之间的语义冲突成为一个热点问题.本文根据电力数据语义冲突的具体情况,提出了一个冲突检测及消减模型,将电力企业内部的异构数据源进行融合,有效地解决电力企业内部数据源语义冲突问题.使用结果表明,该模型可以有效消解异构数据源之间的语义冲突,为电力企业内部及企业间异构数据的融合和共享提供有力的支持。
真实世界中存在很多数据规模大且关联性强的图数据,对其分析和查询能够帮助人们获取巨大价值,而图缓存技术可以有效提高图数据的访问效率和查询效率.本文提出了一种面向大规模数据的图数据预装载缓存策略,采用"基于结点访问日志"和"大度数优先"的两种装载方法,缓存图数据边表的热数据.在图存储系统GolaxyGDB中设计了一个分布式图数据缓存框架,实现了缓存装载、访问、替换和一致性维护策略.实验表明,图数据预装
现有签密方案存在不能向模糊身份的接收方发送数据、且对数据的共享访问控制不够精细,而基于属性的签密也无法自适应地实现机密性、认证性以及机密且认证等不同的安全需求.本文在离散对数和随机预言机模型下提出了一种基于属性的广义签密方案.通过引入属性集,使数据可以凭用户的属性为依据进行分发;通过区分通信双方所持有的密钥,可以提供单独的机密性、认证性和复合的机密性和认证性功能.在DBDH假设下的安全性分析表明方
社会网络中影响力传播的有效抑制是社会网络影响力传播机制研究所关注的问题之一.针对未知影响传播源,或传播源信息具有不确定性的情况,提出面向不确定性影响源的影响力传播抑制问题.首先,作为提高抑制算法效率的有效途径,讨论竞争线性阈值传播模型下,影响源传播能力的近似估计方法,以此为基础,提出有限影响源情况下,期望抑制效果最大化的抑制种子集挖掘算法.其次,对于大尺寸不确定性影响源的情况,为实现算法运行效率和
传统单机领域术语抽取系统的扩展性已经成为基于大规模语料库进行领域术语抽取的瓶颈.对此提出了一种基于Hadoop分布式平台的统计与规则相结合的无监督的专业术语抽取算法,该算法首先利用PMI(Point-wise Mutual Information)的改进方法确定2元待扩展种子,其次采用左右扩展的方式逐字地把2元待扩展种子扩展至2-n元候选术语(n表示抽取术语的最大长度,可根据需要指定),最后利用两