面向含用户生成内容个性化搜索的交互式分布估计算法研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:YANCONG1103
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高效精准的个性化搜索、服务、推荐等可为人们生产生活带来极大便利,而随着用户生成内容(User Generated Contents,UGCs)如:交互行为、评分数据、项目类别标签、用户文本评论、社交网络关系、图像或视频信息等的“信息过载”,变得日益复杂。含UGCs的个性化搜索是当前大数据分析及个性化服务领域的研究热点,该问题难以建立明确定义的数学模型和目标函数,其分析、评价决策过程具有主观性、不一致性和模糊性,是一类复杂定性指标优化问题。融合用户交互和智能进化优化算法的交互式进化算法(Interactive Evolutionary Computations,IECs)是一类解决定性指标优化问题的有效途径。然而,对于个性化搜索,如何在交互式进化优化中有效融合UGCs中多源、多模态、异质、非结构化数据,进而设计高效的交互式进化优化策略,是利用IECs解决含UGCs个性化搜索任务面临的严峻挑战。为此,本文研究了面向含用户生成内容的个性化搜索交互式分布估计算法(Estimation of distribution algorithms,EDA),主要内容包括如下四点:(1)用户行为驱动的RBM偏好代理交互式分布估计算法:含用户生成内容的个性化搜索为一类典型的定性指标离散变量优化问题,当采用智能优化算法求解时,需首先设计用户偏好和评价代理模型。为此,利用受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)强大的特征提取能力联合分布估计算法的寻优性能,给出了基于RBM代理模型和概率模型的分布估计算法;将该算法进行拓展,设计考虑用户历史交互行为和项目类别标签的RBM偏好代理模型,即基于用户交互行为筛选具有较长交互时间或较高用户评价的项目集合,构成含用户偏好信息的训练样本;对项目类别进行二进制编码,作为RBM偏好认知模型的输入,基于训练样本抽取用户偏好特征;根据RBM偏好模型,构建面向偏好特征分布的EDA概率模型和基于RBM能量函数的适应值估计代理模型;构建融合RBM偏好代理模型的交互式分布估计算法,并对其进行了复杂性分析。算法在复杂离散函数和Movie Lens个性化搜索中的应用,证明了融合RBM代理模型分布估计算法和用户交互行为驱动RBM偏好代理模型交互式分布估计算法的有效性。(2)基于UGCs用户隐式偏好的双RBM代理交互式分布估计算法:研究内容(1)虽然利用了用户交互行为、评分和项目类别信息改进交互式分布估计算法,但是,没有充分利用用户的社交网络信息,以及用户评价隐含的积极和消极偏好特征,鉴于此,基于研究内容(1),进一步研究了基于积极和消极偏好拟合的双RBM代理模型的交互式分布估计算法。根据UGCs中用户交互行为如交互时长和评分数据等,获取显式偏好和隐式偏好信息,筛选优势群体和劣势群体,构建同步识别积极和消极偏好的双RBM用户偏好模型,以更精细的抽取用户偏好特征;利用积极RBM偏好模型特征的边际概率分布,给出EDA算法概率模型,并基于社交网络信息和加权积极消极RBM偏好模型的能量函数构造适应值估计模型,设计了高效交互式分布估计算法;在亚马逊数据集中的大量实验表明所提算法不但能够有效加强个性化搜索的性能,而且能够减轻用户评价负担,提高用户的交互式搜索体验。(3)融合多源异构UGCs的RBM偏好代理交互式分布估计算法:上述研究仅考虑了用户生成内容中的用户交互行为、项目类别标签和社交网络信息,未考虑用户生成内容中大量存在的用户评论文本数据,而这些用户评论中包含大量用户隐式偏好。鉴于此,在研究内容(2)的基础了,提出了面向多源异构UGCs数据的RBM偏好代理IEDA算法。考虑UGCs中用户评分、标签类别、用户评价文本以及社交关系,给出其数学描述,并采用doc2vec实现多源异构文本数据的向量化表示;基于搜索对象类别标签和用户评价文本向量,构建同时含有离散类别特征和连续语义特征的RBM并行双输入层用户偏好模型;设计基于RBM用户偏好和多相似用户社交关系的代理模型,估计可行解的个体适应值;动态更新RBM偏好模型参数、概率模型和适应度估计函数,实现具有精准跟踪用户偏好和提高个性化搜索效率的交互式分布估计算法;算法在亚马逊数据集的应用结果表明所提算法能够更好地预测用户偏好,动态跟踪用户兴趣变化,有效减轻用户评价负担并提高个性化搜索的精度和效率。(4)融合多源异构UGCs和注意力机制的RBM偏好代理交互式分布估计算法:研究内容(3)融合了多源异构数据后,决策变量既包含了项目类别特征又包含了评价文本的隐含特征,显然,这些特征对用户偏好具有不同程度的影响,对基于RBM的偏好代理模型就具有不同的贡献度,为此,进一步研究了基于注意力机制提取决策变量重要度的RBM偏好代理交互式分布估计算法。根据UGCs中多源异构的项目类别、文本评论和协同信息,采用doc2vec以及multi-hot编码机制对数据进行融合,设计基于RBM的注意力权重获取模块;融合用户偏好特征注意力权重,构建多角度描述搜索对象的RBM用户偏好模型;在IEDA框架下,设计基于偏好特征注意力权重的EDA算法分布估计概率模型和基于RBM的用户偏好代理模型;根据新增用户交互行为和UGCs数据,利用模型管理机制,更新融合多源异构数据和AM的RBM用户偏好模型,动态跟踪用户偏好;算法在亚马逊数据集的应用表明所提交互式分布估计算法进一步提高了对用户偏好的拟合能力和个性化搜索的精准性。上述研究内容针对含用户生成内容的个性化搜索,采用智能优化算法,从不同角度利用UGCs数据,层层推进,构建了多种反映用户偏好的RBM认知模型,并基于RBM模型对偏好特征的概率分布和能量函数,给出不同场景下基于RBM偏好模型的EDA概率模型和适应度代理模型构建机制,进而设计高效的交互式分布估计算法,以解决含用户生成内容的个性化搜索问题。在复杂函数和实际亚马逊个性化搜索问题的应用证明了所提算法的有效性。本文总共有图31幅,表22张,参考文献221篇。
其他文献
“高等教育适应论”是1949年以来中国高等教育发展的主流论点,认为高等教育与经济、社会的关系是适应与主导的关系,主张高等教育主动适应经济、社会的发展与变革,培养满足社
本文总共分为四个部分,第一部分从学界对口供的界定着手,结合贿赂案件的证据特点,以口供证据在该类案件中几种常见的表现形式为基础,分析口供证据对于贿赂案件的重要作用。第
在电磁优化领域中,天线结构的优化设计一直是研究的热点。近年来,不定拓扑结构由于其具有较好的阻抗匹配特性,且填充效率高、设计自由度高,逐渐成为电磁优化领域中重要的研究
Copula函数是一类将联合分布函数与它们各自的边缘分布连接在一起的新型多元联合分布建模工具,在经济金融领域常常被应用于研究金融市场之间的相依性定量测度问题但很少被运用于研究时间序列的非线性线性自相关性。本文结合藤结构的思想,将Copula函数运用于研究时间序列的非线性自相关性,建立了一个新的非线性自回归模型——C藤Copula自回归模型,运用模型筛选出有用的历史信息,从而充分利用经典时间序列模型
本文旨在从基督教伦理的角度研究莱因霍尔德·尼布尔的社会公正思想。论文主要从以下几个主要方面展开:第一,社会的结构性罪恶是人本身的罪所造成的。尼布尔的政治思想是建立
高中思想政治课担负着对高中生进行德育和智育的双重任务,是社会主义主流意识形态教育的主渠道。随着新课程改革的推行,传统教学模式的弊端日益凸显,那么新时期的思想政治课
混凝土结构无损检测一直是公路工程领域的重点研究方向,如何能快速、高效和准确地检测出混凝土结构缺陷是未来无损检测技术发展的关键。目前使用最广的无损检测方法为超声波
为了缓和不可再生资源供求之间日益加剧的冲突,实现能源利用率最大化,温差发电技术作为一项新型能源转换技术倍受关注。汽车尾气温差发电技术可以将尾气废热能转化为电能,实
随着中国经济的不断发展,城市城镇的不断建设,人们对天然气的需求日益增加。同时天然气在运输过程中也伴随着危险发生,当天然气管道因化学腐蚀或物理破坏发生泄漏时,如果不能及时发现泄漏源并进行准确定位,泄漏浓度达到一定时,可能会引发火灾或爆炸,会给人们的生命和财产带来损失,同时对环境造成污染。本课题主要研究的内容是埋地天然气管道发生泄漏时的声源特性,为利用声波法检测埋地管道泄漏及精确定位提供理论和数据支撑
近年来,随着视频数据的爆发式增长,视频语义分析研究越来越成为人们的研究热点。在视频语义分析中,同一语义内容的场景多样性是始终客观存在的,即使是相同视频语义类别下的不