论文部分内容阅读
高效精准的个性化搜索、服务、推荐等可为人们生产生活带来极大便利,而随着用户生成内容(User Generated Contents,UGCs)如:交互行为、评分数据、项目类别标签、用户文本评论、社交网络关系、图像或视频信息等的“信息过载”,变得日益复杂。含UGCs的个性化搜索是当前大数据分析及个性化服务领域的研究热点,该问题难以建立明确定义的数学模型和目标函数,其分析、评价决策过程具有主观性、不一致性和模糊性,是一类复杂定性指标优化问题。融合用户交互和智能进化优化算法的交互式进化算法(Interactive Evolutionary Computations,IECs)是一类解决定性指标优化问题的有效途径。然而,对于个性化搜索,如何在交互式进化优化中有效融合UGCs中多源、多模态、异质、非结构化数据,进而设计高效的交互式进化优化策略,是利用IECs解决含UGCs个性化搜索任务面临的严峻挑战。为此,本文研究了面向含用户生成内容的个性化搜索交互式分布估计算法(Estimation of distribution algorithms,EDA),主要内容包括如下四点:(1)用户行为驱动的RBM偏好代理交互式分布估计算法:含用户生成内容的个性化搜索为一类典型的定性指标离散变量优化问题,当采用智能优化算法求解时,需首先设计用户偏好和评价代理模型。为此,利用受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)强大的特征提取能力联合分布估计算法的寻优性能,给出了基于RBM代理模型和概率模型的分布估计算法;将该算法进行拓展,设计考虑用户历史交互行为和项目类别标签的RBM偏好代理模型,即基于用户交互行为筛选具有较长交互时间或较高用户评价的项目集合,构成含用户偏好信息的训练样本;对项目类别进行二进制编码,作为RBM偏好认知模型的输入,基于训练样本抽取用户偏好特征;根据RBM偏好模型,构建面向偏好特征分布的EDA概率模型和基于RBM能量函数的适应值估计代理模型;构建融合RBM偏好代理模型的交互式分布估计算法,并对其进行了复杂性分析。算法在复杂离散函数和Movie Lens个性化搜索中的应用,证明了融合RBM代理模型分布估计算法和用户交互行为驱动RBM偏好代理模型交互式分布估计算法的有效性。(2)基于UGCs用户隐式偏好的双RBM代理交互式分布估计算法:研究内容(1)虽然利用了用户交互行为、评分和项目类别信息改进交互式分布估计算法,但是,没有充分利用用户的社交网络信息,以及用户评价隐含的积极和消极偏好特征,鉴于此,基于研究内容(1),进一步研究了基于积极和消极偏好拟合的双RBM代理模型的交互式分布估计算法。根据UGCs中用户交互行为如交互时长和评分数据等,获取显式偏好和隐式偏好信息,筛选优势群体和劣势群体,构建同步识别积极和消极偏好的双RBM用户偏好模型,以更精细的抽取用户偏好特征;利用积极RBM偏好模型特征的边际概率分布,给出EDA算法概率模型,并基于社交网络信息和加权积极消极RBM偏好模型的能量函数构造适应值估计模型,设计了高效交互式分布估计算法;在亚马逊数据集中的大量实验表明所提算法不但能够有效加强个性化搜索的性能,而且能够减轻用户评价负担,提高用户的交互式搜索体验。(3)融合多源异构UGCs的RBM偏好代理交互式分布估计算法:上述研究仅考虑了用户生成内容中的用户交互行为、项目类别标签和社交网络信息,未考虑用户生成内容中大量存在的用户评论文本数据,而这些用户评论中包含大量用户隐式偏好。鉴于此,在研究内容(2)的基础了,提出了面向多源异构UGCs数据的RBM偏好代理IEDA算法。考虑UGCs中用户评分、标签类别、用户评价文本以及社交关系,给出其数学描述,并采用doc2vec实现多源异构文本数据的向量化表示;基于搜索对象类别标签和用户评价文本向量,构建同时含有离散类别特征和连续语义特征的RBM并行双输入层用户偏好模型;设计基于RBM用户偏好和多相似用户社交关系的代理模型,估计可行解的个体适应值;动态更新RBM偏好模型参数、概率模型和适应度估计函数,实现具有精准跟踪用户偏好和提高个性化搜索效率的交互式分布估计算法;算法在亚马逊数据集的应用结果表明所提算法能够更好地预测用户偏好,动态跟踪用户兴趣变化,有效减轻用户评价负担并提高个性化搜索的精度和效率。(4)融合多源异构UGCs和注意力机制的RBM偏好代理交互式分布估计算法:研究内容(3)融合了多源异构数据后,决策变量既包含了项目类别特征又包含了评价文本的隐含特征,显然,这些特征对用户偏好具有不同程度的影响,对基于RBM的偏好代理模型就具有不同的贡献度,为此,进一步研究了基于注意力机制提取决策变量重要度的RBM偏好代理交互式分布估计算法。根据UGCs中多源异构的项目类别、文本评论和协同信息,采用doc2vec以及multi-hot编码机制对数据进行融合,设计基于RBM的注意力权重获取模块;融合用户偏好特征注意力权重,构建多角度描述搜索对象的RBM用户偏好模型;在IEDA框架下,设计基于偏好特征注意力权重的EDA算法分布估计概率模型和基于RBM的用户偏好代理模型;根据新增用户交互行为和UGCs数据,利用模型管理机制,更新融合多源异构数据和AM的RBM用户偏好模型,动态跟踪用户偏好;算法在亚马逊数据集的应用表明所提交互式分布估计算法进一步提高了对用户偏好的拟合能力和个性化搜索的精准性。上述研究内容针对含用户生成内容的个性化搜索,采用智能优化算法,从不同角度利用UGCs数据,层层推进,构建了多种反映用户偏好的RBM认知模型,并基于RBM模型对偏好特征的概率分布和能量函数,给出不同场景下基于RBM偏好模型的EDA概率模型和适应度代理模型构建机制,进而设计高效的交互式分布估计算法,以解决含用户生成内容的个性化搜索问题。在复杂函数和实际亚马逊个性化搜索问题的应用证明了所提算法的有效性。本文总共有图31幅,表22张,参考文献221篇。