论文部分内容阅读
数据挖掘系统,是人工智能研究领域的热点问题之一。网站数据挖掘,作为数据挖掘的一个具体应用,在商业智能中具有非常广泛的应用,以人工智能和大数据技术为基础,能够对以往积累下来的数据加以分析,在转化为能够帮助企业提升企业运营和管理方面知识的同时,也能够挖掘潜在客户以及作预测未来发展方向等。简单来说,在商业智能领域中,网站数据挖掘就是一种能够为企业在生产和管理、运营和销售作出调整和优化决策的有效手段,其意义在于能够为企业带来更多的经济价值以及提高企业竞争力。在大型网站中存在着大量的网页,同时网页中存在着大量复杂的数据,因此获取这些数据并且存储下来是数据挖掘的关键。本文利用大数据环境下的分布式爬虫框架Scrapy-Redis对二手汽车网站的数据进行爬取,将数据存储到广泛应用的分布式系统Hadoop的小型集群中,然后对数据进行特定预处理操作并对数据进行分析,最后采用K-Means+RBF神经网络对用户关注程度进行预测。车辆的关注程度,可以反映车辆在当前二手汽车市场中的受欢迎或关注的程度,企业可以根据车辆的关注程度,进行线上网站运营做优化策略调整,提高网站的受欢迎性。为了更有效的、直观地进行车辆关注程度预测本论文采用K-Means无监督聚类算法对数据进行分类并使用多层感知网络RBF神经网络进行训练学习,通过RBF神经网络模型对车辆关注程度进行预测,最后通过实验验证了该算法的可行性和准确性。