论文部分内容阅读
近年来,互联网的高速发展推动了电子商务的崛起和发展,电子商务帮助众多企业赚取了高额利润,也深深地改变了人们传统的生活方式。但是,如何制定有效的网络营销方案更好地促进电子商务的运作成为众多电子商务企业的难题。而Blog作为Web2.0的典型应用,通过频繁的链接及评论回复等交互方式形成了庞大的社会网络,且Blog是人们思想行为在网络虚拟社区中的体现,因此快速有效地发现具有明确主题的Blog社区,有利于企业制定合理的营销方案,实现精准的网络营销,达到利润最大化目标,具有重要的现实应用价值。目前,基于链接分析的社区发现算法存在诸多缺陷,且发现的Blog社区不具有主题信息,无法反映社区的兴趣点。针对上述问题,本文研究工作主要如下:(1)确定了链接分析和内容分析结合发现Blog社区及主题抽取的整体思路。(2)介绍了Blog的基本概念、Blog链接和页面数据模型以及成熟的社区发现算法。比较了Blog社区发现算法的优劣,确定了将拖网算法作为本文研究的基础算法。(3)提出了“基于FCA的Blog社区发现算法”。该算法通过概念格的代数消解对社区核心进行划分及合并,有效解决了拖网算法中严格的社区定义所导致的发现社区数量过多、社区间重复率过高以及社区内容贫乏等缺陷。(4)提出了“基于LSA的Blog社区主题抽取方法”。该方法对Blog社区内容TF-IDF特征抽取之后进行LSA降维处理,并提出奇异矩阵自动k值截取方法和大矩阵自动分割方法,提高了该方法的准确性和效率,凸显了Blog社区的主题信息。(5)在Blog社区发现算法和主题抽取技术的基础上,结合异步网络爬虫技术,设计并实现了拓展性更强的Blog社区发现原型系统。