基于暗数据的服务推荐算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liaoyongsheng123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会最为火热的词汇就是大数据,它不仅受到学术界的研究,也被政府所追捧,更得到商界的高度重视。整个社会进入了“大数据”时代,数据似乎成了促进社会发展的最强大动力。本文通过介绍了具有高比例大数据且价值巨大但难以收集,分析和应用的暗数据,着重分析了推荐暗数据应用的方式和方法,同时,互联网上每天都有爆炸式增长的信息,个性化的服务推荐系统可以让用户快捷、方便地得到想要的信息。本课题采用用户移动端相册作为暗数据集。首先,采用实体关系抽取的办法将非结构化的短文本构建成三元组的形式,然后通过知识融合的办法将相似或者相同节点进行融合,建立知识图谱。接着使用改进的TextRank算法得到的关键词在经过Word2Vec训练后得到的主题模型中表示为词向量,将其中的待消歧实体与WikiPedia语料库得到候选实体集进行相似度对比,得到最终的候选实体,完成实体消歧。通过与外部知识库融合,得到本地个性化知识库。并使用PTransE算法对关系路径进行三元组构建,将实体和关系嵌入到低维空间中。通过AP算法,对现有知识图谱边的关系进行聚类,实现对知识图谱的补全和预测。并基于以上研究成果,设计并开发了基于暗数据的服务推荐原型系统,实现个性化服务推荐。由于互联网中的数据大多都是以非结构化的形式存在,没有统一的标准进行表达,因此在数据获取、清理上存在很大困难。在构建知识图谱阶段,我们定义并维护了一个用户词典来实现对自然语言处理工具无法有效识别的网络词语,从而更方便地进行实体关系抽取。在实体消歧阶段,我们创新性地使用了以TF-IDF为加权因子的改进TextRank算法。对于链路预测方面,我们使用基于翻译的表示学习方法完成对知识图谱的关系路径构建三元组,并将它嵌入到低维空间中。最后,本课题通过一系列实验有效地证明了所用方法的可行性,通过设计服务推荐系统实例证明了本课题的意义。
其他文献
<正> 浮游动物生物量属于海洋次级生产力的范畴,在海洋食物链中是极其重要的环节。对其生产力大小的探讨,可以评价海洋渔业资源的潜力和开发远景,由此可以看出浮游动物生物量
江绍原的名字,为民俗学界所熟知,但在人类学界,被了解得不够。有必要强调,江先生又是20世纪中国少有的受过系统训练、有创新的比较宗教学家。他早年就读于上海沪江大学预科,
从我国老龄化趋势和《公共图书馆法》颁布的契机出发,分析了老年读者需求特点,提出了公共图书馆老年读者服务保障举措。
页岩气储层复杂的矿物成分与润湿性、极低的孔渗等特征使得页岩岩心孔隙度测量难度大。大量文献调研显示页岩岩心样品孔隙度测量结果影响机制不明,具体表现为:样品预处理缺乏
在规定条件下,为确定计量器具示值误差的一种操作。校准主要是确定计量器具的示值误差,即确定计量仪器指示的量值或实物量具、标准物质所代表的量值,与对应的由计量标准所复现量
本文结合财务管理课程实践教学过程中存在的教学目标不明确、教学内容不具体、教学方式单一化、教学考核形式化等问题,针对性地提出将"任务驱动法"应用于财务管理的实践教学之
大力发展生态经济,是欠发达地区县域经济发展的一条重要出路。而发展县域生态经济离不开生态文化支持,经济建设与生态文化建设应同步进行。因此,发展县域生态经济必须抓好生态文
由于PI数据库中SCADA遥测"跳变"数据影响某些软件运行结果的真实性,所以对库中数据进行恰当的滤波是必要的。给出了基于PI API编程的交互式数据滤波软件的开发实例和方法。介
在音像业全球化趋势下,尤其是随着加入WTO,我国音像业在对外经贸策略和规章方面存在的诸多问题日益暴露出来.因此,针对我国音像业对外经贸策略的不足,积极对音像业对外经贸策
本文基于新结构经济学的视角,分析了企业高杠杆水平现象出现的深层原因,提出了违背比较优势的企业杠杆率更高的假说,并基于1998—2007年的中国工业企业数据库的面板数据对该