论文部分内容阅读
群体行为是指多个个体在某种时空环境下行为的总和。随着科学技术的进步与社会的发展,针对群体行为的分析研究工作越来越受到来自各个领域的研究者的重视,已经逐渐形成了一门基于人类学、社会学、数理统计、计算机科学等学科的交叉学科。如今,借助以传感网、移动互联网为代表的泛在网络技术,我们已经可以采集到大量群体行为相关的数据。这些数据可以帮助我们理解群体行为的目的,描述群体行为的动态,推断影响群体行为的因素,乃至理解群体的分类与发展。这对于社会安全、城市规划、商业投资、生物保育等众多领域都有着重大研究价值和广泛应用前景。为了更好地对群体行为数据进行分析与应用,本文致力于建立基于事件序列分析的群体行为模型,针对以IPTV(Internet Protocol Television)用户观看行为为代表的数据集进行分析建模。根据数据本身的特性,我们分析了实际应用中数据采集和数据分析过程中可能存在的问题,我们重点研究了如下三个问题:1)如何基于事件序列的聚合数据分析群体行为的内部结构?2)如何根据少量有标签的事件序列样本进行事件序列分类?3)如何通过模型同时刻画序列之间的关系以及事件之间的关系?针对上述三个问题,我们采用了不同的方法,建立了相应的模型,并在行为分析与预测、系统仿真等实际问题中得到了良好的应用结果。具体地,本文的主要贡献如下:针对基于聚合数据分析群体行为内部结构的问题,本文提出了一种混合马尔可夫链模型及其基于聚合数据的学习算法,并将其应用于人流估计、轨迹推断、IPTV用户行为分析等问题。本文从状态转移矩阵学习角度分析了基于聚合数据的群体行为传递过程内部结构。通过对状态转移矩阵施加成对稀疏性约束,并指定混合马尔可夫链中每条链对应的活跃状态集合,本文提出了一种混合马尔可夫链模型的基于聚合数据的学习算法,采用交替优化(Alternating Optimization)的方法求解出每条链对应的状态转移矩阵及其在混合马尔可夫过程中的权重。本文重点分析并验证了算法的可行性、复杂度、鲁棒性等性质。实验结果表明,本文提出的混合马尔可夫链模型及其学习算法在人流估计、轨迹推断、IPTV用户行为分析等问题上得到了良好的学习结果。针对根据少量有标签事件序列样本进行事件序列分类的问题,本文提出了基于低秩估计算法的特征提取算法和基于半监督学习的数据分类算法,并将其应用于IPTV系统用户的行为分析问题。本文将IPTV系统用户的观看行为记录数据在低秩假设下聚合成基于直方图表示的行为特征。通过对数据结构进行分析,本文结合快速标签估计算法与非参数估计算法,提出了一种基于图模型的半监督学习分类器,获得了反映用户家庭结构的用户分类结果。该方法不仅可以为大规模人口普查提供辅助信息,同时也为IPTV系统的仿真提供了新的思路。针对对序列关系和事件关系建立联合模型的问题,本文提出了基于点过程(Point Processes)模型的事件序列分析算法。具体的,本文提出了多任务多元Hawkes点过程(Multi-task Multi-dimensional Hawkes Process,MMHP)模型及学习算法,并将其用于对IPTV用户的观看行为进行建模和分析。MMHP模型同时描述了序列内部事件之间的相互激励模式和多个事件序列之间的聚类关系——运用内在强度矩阵(Intrinsic Intensity Matrix)、结构化影响力张量(Infectivity Tensor)和激励核函数对多个序列的动态进行描述。本文提出了一种利用交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)、Majorization Minimization(MM)和欧拉-拉格朗日方程(Euler-Lagrange Equations)的迭代算法来学习MMHP模型。在模型学习过程中,本文通过对影响力张量施加稀疏和低秩约束,有效避免了模型学习的过拟合问题,更使得该模型能够同时描述序列的动态过程以及序列之间的聚类关系。该模型的鲁棒性和优越性在基于仿真数据和实际数据的实验中都得到了验证。针对IPTV用户行为分析这一问题,该模型有效地刻画了用户观看行为的偏好以及用户行为随时间变化的特性,同时也得到了良好的用户聚类效果。