论文部分内容阅读
数据挖掘是近年来发展起来的新技术,通过数据挖掘,人们可以将知识发现的研究成果应用于实际数据处理中,为科学决策提供支持。目前数据挖掘逐渐发展成为一个多学科领域,涉及到多方面的技术,特别是和计算智能方法的结合越来越紧密。聚类算法是数据挖掘中的核心技术之一,在整个数据挖掘过程中有着非常重要的作用。聚类算法的选择取决于聚类的数据、聚类的目的和应用。本文通过对数据挖掘技术中的常用聚类分析方法进行了详细的对比,并从综合评价聚类算法的5个方面对常用的聚类方法作了比较分析。在对聚类算法进行比较分析的基础上,从聚类的本质特点出发,将计算智能中的模拟退火算法应用到数据聚类中。模拟退火算法是模拟物理退火过程的一种随机优化搜索算法。算法以优化过程的求解与物理退火过程的相似性为基础,通过接受准则和对下降温度的控制,能够有效的克服优化过程陷入局部极小从而获得全局最优解。因此,在解决多维,非线性的复杂组合优化问题中得到了广泛的应用。本文针对标准的模拟退火算法的局限性,提出一种综合改进的模拟退火算法。算法对标准模拟退火算法的退火过程和抽样过程进行了修改。目的在于设计高效的退火历程,避免状态的迂回搜索。并将修改后的算法应用到聚类分析中进行验证。本文以中国股票市场从1992至2002年7月以来发行的一千多只股票在上市首日发行的各项相关数据为基础,利用综合改进后的模拟退火算法对其中的新股上市首日收益率进行聚类分析。分析结果表明大多新股在上市的首日便会有一个巨大的涨幅,由此产生远远高于市场平均回报的超额收益,同时结果表明改进的算法在保证聚类效果的前提下提高了算法的效率,整个过程算法的响应时间提高了近50%,具有较好的适用性。