基于用户画像下的在线旅游行程攻略推荐方法

来源 :科学与财富 | 被引量 : 0次 | 上传用户:kmyzkmyzkmyz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:随着互联网技术的发展,在线旅游已拥有最大的旅游市场,如何为庞大的用户群描绘用户画像,从而推荐与之匹配的旅游服务,是在线旅游企业进行精准营销的重要技术手段。本文将构建基于大数据的旅游用户画像,为在线旅游行程攻略推荐提供行之有效的可操作方法。
  关键词:大数据;用户画像;在线旅游
  引言
  “大数据”一词最早于2008年9月在《Nature》出版的专刊“Big Date”[1]提出,一面世便受到了學术界、各国政府与各企业的广泛关注。Google、Facebook等企业最先在大数据分析领域进行了研究,根据用户基础行为数据,提出了一系列算法与模型,使大数据分析可以在多个领域的广泛应用变为可能。
  随着社会的发展,旅游业已成为全球经济中发展势头最强劲和规模最大的产业之一。如何将大数据与旅游发展相结合,是在线旅游企业的研究重点。本文将基于大数据下用户画像,给予在线旅游行程攻略推荐的几种方法。
  1基于在线旅游软件的独特用户画像构建
  用户画像一词,最早由Alan Cooper在《软件创新之路》(1988)一书中提出。他认为,用户画像是根据用户人口统计信息、社交关系、偏好习惯和消费行为等信息而抽象出来的标签化画像,是真实用户的综合原型[2]。传统的基于用户画像的旅游情景化推荐,将基层用户数据输出为用户画像标签,采取协同过滤方法,结合用户情景信息建立了不同景点的推荐模型。
  但旅游行程攻略不同于简单的景点,需要对用户(推荐主体)与行程(被推荐对象)进行标签化,再进行标签间的相关性分析。由于用户画像是基于大数据技术的实际应用,在构建用户画像前,就必须建立相关的基层数据库。
  1.1建立用户画像的数据库:DMP
  DMP(Data Management Platform),即数据管理平台,是一个全面的数据收集、加工、整合的平台,是对大数据的一个分析工具。其核心是通过平台层的相关性算法,通过分析用户的个体数据、行为数据等基层数据,将用户的信息、偏好等转换成数据标签,再将数据标签进行划分和整合,形成一个个的用户群特征,最终输出为可视化的分析结果。
  利用建立的DMP平台,互联网企业便可建立自己的数据库与标签库,根据构建的算法与逻辑来计算出一系列用户标签,建立自己的用户画像与用户群。因此标签库的整理与建立工作是构建用户画像模型的基础。
  1.2在线旅游用户画像标签库的构建
  这里我们初步以构建静态标签库和动态标签库的方式构建在线旅游用户的用户画像。
  1.2.1静态标签库
  静态标签能够通过用户提供的信息、能够获取的基本信息和通过外部渠道获取的信息,如用户实名制信息、地理位置信息等。静态标签库精确性较高但表征性不明显,只能给用户兴趣做一个初步判断,比如年轻的都市女性,往往有较高的消费能力,在推荐策略上可以推荐高规格的一些内容。
  ①默认采集的设备信息 =(用户手机型号,联网方式,用户IP地址与MAC地址,语言,地理位置)
  ②用户的基本信息=(用户的虚拟ID,姓名,性别,电话,生日,身份证号,所属单位,邮箱,职业)
  值得一提的是,用户关联的网络信息,如微信、QQ、微博、支付宝等相关账号,应作为关联信息而不是静态标签进入数据信息系统之中。
  1.2.2动态标签
  与静态标签相对的动态标签可以分为两类:一级标签是支配用户行为的浅层特征,二级标签是决定用户行为背后的深层逻辑,即具有向量特征的结构化和半结构化数据集[3]。
  1.2.2.1动态标签库一级标签
  一级标签是根据浅层用户行为信息简单总结得出的标签,取决于用户点击、搜索某关键词的频率。关键词的标签库在添加被推荐对象时往往可以通过上传者、编辑、审查手动添加。因此,只需给出评估旅游行程攻略的几个维度,就可作为关键词库,与一级标签一一对应。
  旅游行程攻略关键词库=(旅游目的地,交通方式,时间因素,点击量,酒店品质,价格水平,目标群体,休闲程度,旅途风格,特征)
  在构建旅游行程关键词库之后,便可根据用户点击、浏览的关键词频率来建立动态标签库一级标签:
  一级标签=(自我评定信息,会员属性,浏览与点击,喜爱与收藏,喜欢与讨厌,主动搜索或多次点击的内容,关注的内容)
  1.2.2.2动态标签库二级标签
  建立二级标签的目的,是根据标签将用户归纳、总结到某个理想化的“虚拟人格”中,最终建立用户画像模型。在建立二级标签库之前,需要根据人格理论建立理想化的虚拟人格,再利用基于相关性分析的一级标签所属关键词来评定虚拟人格几个方面的相关特质,建立用户的二级标签。
  人格特质模型中运用较为广泛的是“大五人格”理论模型,在多次实验中体现了稳定性(Goldberg,1981[4];Peabody,1987[5]),可以作为衡量人格特质的基础依据。国内学者张雨青、林微等证明“大五模型”在中国同样具有适用性[6]。
  在参考五大人格量表之后,本文分别在神经质(Neuroticism)、外向性(Extraversion)、开放性(Openness)、宜人性(Agreeableness)、责任感(Conscientiousness)五个维度分别选取了六个下属特质,作为旅游者虚拟人格构建的30个特质,并在此基础上建立旅游者虚拟人格的测量模型。
  神经质:N1平静——焦虑、N2随和——易怒、N3心态开朗——易受打击、N4健谈自信——敏感害羞、N5自制力强——冲动、N6勇敢——脆弱
  外向性:E1消极疏远——积极热情、E2孤僻独处——热闹合群、E3腼腆被动——自信果决、E4缓慢——急迫、E5谨慎传统——冒险刺激、E6严肃——活泼乐观   宜人性:A1猜忌悲观——信任他人、A2精明虚伪——坦诚率真、A3自私势利——热心慷慨、A4攻击性强——恭顺克己、A5傲慢自负——谦逊谦卑、A6理性冷静——友好热心
  开放性:O1理性现实——充满幻想、O2审美疲乏——艺术敏感、O3情感迟钝——情绪敏感、O4守旧传统——求新求异、O5思辨力弱——思路开阔、O6尊崇权威——挑战传统
  责任感:C1自卑——自信、C2杂乱无序——高效条例、C3不负责的——可信赖的、C4没有目标——有抱负的、C5容易放弃——高度自律、C6冲动草率——深思熟虑
  由于数据计算基于定量关系,在构建用户虚拟人格时,以上列举的30个特质都必须转化成数值进行分析。每位用户的初始特质分数为0,不同的一级标签为该指数加分或减分,数值大小由基于相关性分析得到的相关性系数的大小来确定。最终形成一个位于(-100,100)区间内的分数。当分数位于(-100,-50)或(50,100)的区间内时,系统将会将此特质决定的二级标签打在用户身上,成为构建用户画像的一个特质标签。
  当一级标签的数量足够多时,就可以精准地描绘用户的某个特征;当各特征值足够多的时候,就会将用户归纳到一个“虚拟人格”中,系统就可以为此一类用户精准推送内容或广告。
  1.3构建用户画像与标签库算法的计算核心——相关性分析
  利用Python计算两数组间相关性是其中的一个方法:当用户点击了一个带有多个关键词的词条,以各个关键词的点击量与其他点击了该词条用户带有的各标签频率关系做相关性分析,就可以选出相应的标签为此用户添加:
  ①建立数组:首先,根据各关键词的点击量与其他点击了该词条用户带有的各标签频率建立两个数组
  print(a)>> [A1,B1,C1……]
  print(b)>> [A2,B2,C2……]
  ②期望
  由于两数组中数据一般为离散型随机变量,因此采用离散型随机变量公式:
  ③离散度:即标准差与方差,同样采用离散型随机变量公式。
  ④协方差与相关系數
  接下来开始计算两组数据的相关性,一般采用相关系数来描述两组数据的相关性。
  协方差:
  相关系数:
  同样,除了利用Python计算相关性关系外,也可使用NumPy计算协方差矩阵相关系数、使用pandas计算协方差与相关系数、利用SPSS软件分析变量间的相关性关系[7]等方法来实现算法构建。
  2基于用户画像的旅游行程攻略推荐方法
  2.1针对单个攻略的推荐方法
  由于被推荐对象是单个的文本内容,对于分析其关键词与目标群体特质相对简单,因此采用基于内容的推荐方法。基于内容的推荐算法是一种扩展的信息过滤技术[8]:
  传统的基于内容的推荐方法只能根据用户画像标签进行文本相似度计算给出敏感程度高的资源。由于没有将用户的虚拟人格融入到推荐方法中,不能预测用户的兴趣趋向。因此在本文研究中,将加入目标群体与虚拟人格之间的特质标签,以减少该方法的缺陷。
  假设参与推荐的推荐主体为用户群U,每位用户已被赋予的标签集合为T。被推荐对象为内容C,被推荐对象已被赋予的关键词为集合K,目标群体为u1(u1∈U)。
  通过相关性分析计算K与T中各标签的相关性系数P、u1的人格特质数值与T数值的相关性系数Q,将计算得出的两数值P、Q通过权重计算得出最终指数I,指数I即为每位用户对该被推荐对象的敏感指数。然后设立一阙值It,将此内容推送给敏感指数I≥It的用户。最后比较目标群体的平均指数Ii与It之间的大小关系,反复调整阙值It,最终确立It的大小。
  2.2针对单个用户的推荐方法
  在建立了用户画像与虚拟人格之后,用户带有大量的标签与信息可供计算分析,面对资源库中海量的资源,传统的基于内容的推荐法不能适应用户多变的性格特质,也不能挖掘用户的未知领域。因此,当针对单个用户的推荐方法时,目前使用范围最广泛、使用次数最多的协同过滤推荐法是一种优先选择。也就是,我们可以运用基于用户的协同过滤推荐算法和基于资源的协同过滤的推荐算法。
  2.2.1基于用户的协同过滤算法
  假设用户A的一级标签为集合T1,包含n1个一级标签,二级标签为集合K1;用户B的一级标签为集合T2,包含n2个一级标签,二级标签为集合K2。
  T1∩T2=T∩,T∩中包含的标签数量记为n∩,α= n∩/n1,β=n∩/n2。
  根据构建虚拟人格时所构建的30个特质,集合K1、K2各包含30个数值。因此数集K1、K2可以根据1.3中给出的相关性分析进行计算,得到的相关性系数记为η。
  若α≥β≥75%,则称用户A与用户B为兴趣相似用户,且用户A为用户B的兴趣类型用户;若η≥75%,则称用户A与用户B为人格相似用户。
  在为用户A推荐项目资源时,可以推荐其兴趣相似用户B喜爱的项目;在预测A喜爱的项目资源时,可以推荐其人格相似用户B喜爱的项目。
  2.2.2基于项目的协同过滤算法
  假设用户A喜欢的项目为C1,C1包含的关键词集合为K1,包含m1个关键词,关键词能够决定的特质数值的集合为U1;存在项目C2,C2包含的关键词集合为K2,包含m2个关键词,关键词能够决定的特质数值集合为U?2。
  K1∩K2=K∩,K∩中包含的标签数量记为m∩,α= m∩/m1,β=m∩/m2。
  根据构建虚拟人格时所构建的30个特质,集合U1、U?2共包含30个数值。因此数集U1、U?2可以根据1.3中给出的相关性分析进行计算,得到的相关性系数记为η。   若α≥β≥75%,则称项目C1与项目C2为内容相似项目,且项目C1为项目C2的内容类型项目;若η≥75%,则称项目C1与项目C2为目标群体相似项目。
  在为用户A推荐项目资源时,可以将与项目C1内容相似的项目C2推荐给用户;在预测A喜爱的项目资源时,可以将与项目C1人格相似的项目C2推荐给用户。
  3结束语
  本文基于大数据下的用户画像,构建了在线旅游虚拟人格模型,为个性化旅游行程攻略推荐提供了方法。首先,根据用户行为数据、用户基本属性构建用户静态标签、动态标签与虚拟人格,然后结合推荐内容的关键词,利用多种算法进行相关性分析,最后根据基于内容、用户、项目等被推荐对象给出了不同的推荐方法。在一定程度上为解决在线旅游企业旅游行程攻略解决了实际性问题,对于其他领域构建网络虚拟人格也提供了思路。
  参考文献:
  [1]Bigdata.Nature,2008,455(7209):1-136
  [2]Alan Copper,刘瑞挺. 软件创新之路[M].北京: 电子工业出版社,2001.
  [3]谢康,吴记,肖静华:基于大数据平台的用户画像与用户行为分析. 中国信息化 2018-03-10
  [4]Goldberg,L. R. Developing taxonomy of trait-descriptive terms[J] Problems with languageimprecision;New directions for methodology of social and behavioral seienee,1981,9:43-65.
  [5]Peabody,D. Selectingrepresentative trait adjectives[J]. Journal of personality and SocialPsychology,1987,52:59-1
  [6]张雨青,林微,陈仲庚:家长对子女人格特點的自由描述明[J].心理学报,1995,3:281-286.
  [7]孙逸敏:利用 SPSS 软件分析变量间的相关性1008—3588(2007)02 -0120 -04
  [8]Di Jiaqi, Wang Nihong. Incremental collaborative filtering algorithm based on GridGIS [J]. Computer Science,2013,40(12):219-222.
  [9]陶俊, 张宁. 基于用户兴趣分类的协同过滤推荐算法[J]. 计算机系统应用, 2011, 20(5):55-59.
  作者简介:
  陈浩昕,男(2000,4——),山西太原人,成都信息工程大学,2017级旅游管理本科生在校学生,研究方向:旅游管理。
  谢雅丹(指导教师)女,(1979,8——),四川自贡人,成都信息工程大学,博士,讲师,研究方向:文化遗产与旅游开发;智慧旅游;会展旅游。
其他文献
摘 要:随着互联网时代的到来,互联网技术开始广泛应用于各个领域,因为,互联网技术应用产生的新的经济形态也给传统实体经济带来很大的影响,网络金融是互联网技术与金融结合的产物。本文主要分析网络金融给实体经济发展带来的影响。  关键词:网络金融;互联网经济;实体经济  网络金融是互联网技术发展到一定阶段的产物,网络金融是互联网经济的重要的组成部分,在经过不断发展之后同样也成为了实体经济的重要组成部分。在
期刊
摘 要:俗话说:“远亲不如近邻”,在全面小康社会的建成、农村社会的稳定与持续发展等方面离不开农村和谐的邻里关系的构建。本文主要对当前市场经济条件下农村邻里关系现状进行分析,提出相应的对策,加快构建和谐邻里关系的步伐,实现全面建成小康社会的宏伟目标。  关键词:乡村振兴;农村;邻里关系;构建对策  习近平总书记在党的十九大报告中再次说明解决“三农问题”至关重要,“要坚持农业农村优先发展,按照产业兴旺
期刊
摘 要:现代社会经济的不断发展,对我国各行各业都提出了更高的要求,高等院校在进行旅游管理教育工作时,科学创新人才培养模式具有极其重要现实意义,必须对其加强重视,本文分别从课程专业设置,课程体系,师资队伍以及合作机制四个方面具体探究人才模式创新策略,希望能够对其教育工作发展提供更高程度的保障。  关键词:旅游管理;人才培养;模式创新  引言:  旅游行业是我国目前大力发展的产业,在知识经济时代发展过
期刊
摘 要:“互联网+”是促进我国各行各业近些年发展重要理念,在该理念的指导下,诸多传统行业实现了和“电子商务”的有效整合。而在“一带一路”的推进下,跨境电子商务展现出了鲜活的生命力,为国际贸易发展指出了新的发展道路。基于此,下文结合我国跨境电子商务发展现状,对跨境电子商务下“一带一路”区域经济发展策略进行了详尽论述。  关键词:跨境电子商务;一带一路;贸易发展  自2015年起,在多项国家政策的推动
期刊
摘 要:随着社会经济和科技的不断发展,新媒体技术涉猎各行各业。大学生作为新媒体使用者之一,其文化自信教育效果深受影响。新媒体时代,构建高校文化自信教育的长效机制保障高校文化自信教育质量、促进社会精神文明建设、帮助学生应对多元化需求,进而提升高校思想政治教育有效性。  关键词:新媒体时代;文化自信教育;长效机制  引言  在中共十九大会议报告中,指明文化是一个国家,一个民族的灵魂。它是区分不同民族的
期刊
摘 要:本文对万华烟台工业园工程建设的现状和问题进行了简单的描述,提出“从机制上引进,从人才上改进,在过程中细控,在考核中提升”的质量管理优化建议,并提出了切实可行的实施措施。  关键词:提升智能化关键考核  万华化学集团股份有限公司是一家全球化运营的化工新材料公司,业务聚焦于聚氨酯、石化、精细化学品三大板块,致力于提供高性能的化工新材料。国内烟台、宁波、珠海三大工业园。烟台工业园是万华化学在亚太
期刊
摘 要:电力营销计量已成为衡量标准电力行业现代化建设的最重要关键指标之一,选择一个高效,高精度的功率计量系统也非常重要。它具有许多功能,它不仅可以制定电费支付标准,而且可以为企业树立良好的正面形象。作为现代电力能源企业整体发展最重要的组成部分,电力营销准确计量单位,关系到电力企业的整体运营情况,在一定程度上对效率的提高有一定的影响。  关键词:电力营销; 计量改造; 问题; 应对措施  引言  电
期刊
摘 要:我国的经济体系在改革中不断完善,起到了加快经济发展速度、完善经济发展框架的作用。当前,金融经济的发展方向已经发生了变化,主要朝向虚拟化的方向发展。受到金融经济自身发展的影响,金融经济与实体经济之间的状态愈发的不平衡,这给整个经济体系乃至市场经济造成了负面影响。要想维护金融经济与实体经济之间的平衡状态,必须对二者的内在联系进行深入的探究,确保其良性互动,促使市场经济达成又好又快的发展目标。 
期刊
摘 要:党的十九大指出中国特色社会主义进入了新时代,经济转型也站在了新起点。我国当前处于经济转型升级时期,经济转型升级成功与否对于我国未来经济发展起着重要的作用。本文首先对我国经济转型升级及其特征进行分析,然后分析经济法在经济转型升级中的作用,以此更好地将经济法应用于经济转型升级中,进而使我国经济转型升级能够在法律保障下顺利进行。  关键词:经济法;经济转型;作用  1 引言  我国的经济转型自改
期刊
摘 要:科学技术是第一生产力。人类社会文明的程度与科学技术的发展密切相关。计算机网络的发展在促进科学技术现代化的同时.也大大地促进了人类社会文明程度的提高。本文以社交生活为例,在肯定计算机网络带给我们巨大的便利下,也简单提出它所带来不利影响。我们要正确认识计算机网络。  关键词:计算机网络;社交;影响  引言  根据《大西洋月刊》的报道,在1950年,独居的美国人不到10%;到2010年,有27%
期刊