论文部分内容阅读
本论文的研究内容是实验室课题项目“电脑农业”的一部分。由于农业信息具有随季节,周期和区域变化的特点,对农业信息的实时采集工作就显得尤为重要。基于Web的信息抽取和数据挖掘技术在农业领域的应用能够明显缩短农民获取信息的渠道,减少中间环节,并且能更好的指导农民作业。本文参考前人经验提出了一种改进的神经网络主要题爬虫,通过优化神经网络的激励函数来提高爬虫的效能。传统的网络信息抽取系统都采用的是包装器模式,虽然这种方法抽取的效果较好,但并不能适应网页格式的变化。本文提出了一个基于距离矩阵的抽取算法,并结合了Web主题爬虫程序的特点,建立了一种新型的Web信息提取系统。该模型可以实时、自动地收集网络上的数据,并在对数据进行整理、清洗后存入后台数据库。然后建立查询网站,使搜集到的结果能够通过网页的形式展现给用户。
本文简述了数据挖掘的基本原理及其在各个领域的应用情况,特别介绍了Oracle数据库,数据仓库环境下建立数据挖掘的解决方案,并基于oracle ODM技术提出了利用数据挖掘技术建立完整的具有收集、抽取、查询、预测等功能的农产品价格预测分析系统,给出了数据挖掘技术在该系统中的应用方法及技术路线。在此基础上还提出了一种新的以偏最小二乘算法为基础并结合神经网络的数据挖掘算法作为ODM的重要补充,并且也以网页的形式为最终用户提供服务。