论文部分内容阅读
随着计算机网络技术的快速发展,互联网所生产的数据正以前所未有的速度增长,信息社会步入了大数据时代。这些数据具有大量性、高速性、多样性、复杂性和价值性等典型特点。然而,大部分数据以文本等非结构化、异构的数据形式存在于互联网中,并且不易被获取和分析。这些数据中往往蕴含着巨大的信息和知识。因此,研究如何借助于计算机相关技术获取、挖掘其内在规律和价值具有重大意义。基于爬虫的网络文本挖掘是指通过编写网络爬虫程序抓取某些指定网站的文本数据,利用模式识别、数据挖掘、统计学习等技术分析出隐含的、深层的、有价值的信息。本文围绕上述问题,主要包括以下四方面研究内容:(1)通过编写爬虫来获取网络文本数据。由于网络文本数据嵌入HTML网页中,很难通过人工进行获取。因此本文提出通过编写网络爬虫程序自动的获取所需的文本分析源。文中介绍了网络爬虫抓取网页的基本原理,并详细说明了HTML网页内容解析方法。(2)本文结合传统的文本挖掘技术,提出了一套完备的基于开源爬虫框架的网络文本挖掘方案。详细叙述了网络文本的获取、清洗、预处理、分析、结果可视化的一般性步骤和流程,并介绍了文本分类与聚类、文本情感分析等常用的文本挖掘算法。(3)由于短文本的特征稀疏性,隐含较少的语义信息,使得短文本的分类研究面临着巨大的挑战。针对短文本分类的这两个问题提出了一个基于隐含狄利克雷主题模型和最近邻的短文本分类算法。实验表明该方法使得短文本分类效果比KNN和SVM算法得到了很大的提升。(4)本文创新性地将网络文本挖掘应用于电子商务“海淘”市场热点分析。首先通过编写Scrapy爬虫抓取“海淘”相关网站的帖子、评论等信息。然后再利用统计和相关文本挖掘算法分析出“海淘”中的热点商品及其价格等信息。从而帮助卖方改进商品、制定和调整合适的销售策略。