论文部分内容阅读
随着现代人生活质量与生活水平的不断改善,旅游日益成为大众在节假日的首要选择,与此同时人们对旅游信息服务的需求也不断提升。在网络上获取旅游咨询、分享旅游心得,寻找旅游团体成为很多旅行者在出行前必做的准备。作为近年来非常流行的一种社交媒体,微博由于其本身自带的一些特性,比如其信息的简短性、发布的及时性、以及网上的互动性,使之在很短的时间内就积累了大量用户,很多旅游者也从其中获取或发布一些相关的旅游信息。这些信息产生了大量文字不超过150个字符有关于旅游服务的短文本信息,并且形成了一个庞大的基于短文本的复杂网络。因此通过关联算法、聚类算法等数据挖掘技术,在包含旅游者的旅游短文本社区中发现旅游信息网络,发现旅游团体,预测旅游活动的趋势与动向,对于未来提供旅游服务信息、推荐旅游线路乃至预测旅游高峰都具有重大意义。通过将含有旅游信息的微博短文本数据聚类,把含有不同中心思想的短文本语句按彼此之间的海明距离划分成不同的簇,继而将含有旅游信息网络按照社团结构进行划分,最后将发表某些中心思想相同言论的用户划分到不同的社团中心。网络社区划分是社会网络研究的一个热点,而复杂文本网络又是在复杂网络的研究领域之一,因此,本篇论文将这两点结合应用在旅游这一范畴之中并做了相关实验分析。本文对旅游信息网络社区划分做了如下研究:(1)社会网络及复杂网络相关分析理论研究,针对文本复杂网络做了特别介绍。对于社会网络的研究分别从符号表示、网络分析、研究方法以及网络社区四个方面进行,对于网络社区这一部分内容着重阐述了社区的稳定性、中心性以及小世界性,特别还对典型复杂网络以及文本复杂网络的一些关键技术做了分析,结合社会网络以及复杂网络的特点,展开了对于本文研究对象的描述。(2)基于SimHash短文本聚类算法的评定与实验。在前文理论基础研究之上,针对于短文本网络,在经过文本预处理,包括分词、去噪之后构建出复杂文本网络;结合社会网络、复杂网络的特性,运用改良后的SimHash算法,对短文本信息进行聚类运算,依据算法特点,将特征值比对转变为对海明距离的比对,最终结果表明算法的有效性。(3)旅游信息网络社区划分分析方法的研究与设计。在短文本聚类的基础上,利用社区节点的中心性以及重要节点分析算法结合,在微博数据集中划分网络社区并评价其可行性与准确性,随后将算法进行并行化处理,并得出相关结论。