论文部分内容阅读
随着计算机网络技术和信息技术的迅速发展,人们生产和搜集数据的能力得到了大幅度提高,同时也推动了数据库技术的极大发展。如何从海量的数据中提取有用的信息和知识为人类服务是数据挖掘需要解决的问题。数据挖掘是面向应用的多学科交叉领域,它的应用能够推动数据挖掘技术理论的研究。如何将现有的算法与特定的领域相结合,获取能被各种层次的用户所接受的数据挖掘知识,是数据挖掘研究需要迫切解决的问题之一。面向农业信息服务平台的挖掘技术的研究旨在将数据挖掘技术与现代农业信息相结合,解决农业用户需求数据的搜集、整理的时效性差和信息不完整的问题。本文根据农业信息季节性和地域性的特点,从服务平台中用户的访问信息数据的来源考虑,对数据的特点分析,设计数据挖掘的方法和知识获取方式。针对传统的基于向量空间模型算法中向量维度的空间浪费问题,从数据挖掘的知识入手研究,通过分析采用分频关键词和关键词参照库的方法对数据进行聚类挖掘研究。在向量空间模型转化过程中使用构建关键词参照库的方法对数据进行转化,降低向量维度和减少信息量损失。同时在数据处理过程中可以通过对数据的上卷,下钻,旋转和切片等方式获取不同层次的知识。通过对结果的分析,为技术人员提供方便,为决策人员提供参考,同时优化平台的设计。实验表明,分频关键词挖掘能够根据需要获取不同层次的数据知识,采用基于构建的领域关键词参照库方法,解决了向量空间的高维度低密度问题,聚类结果的准确率提高。