论文部分内容阅读
近半个世纪,伴随着人类进入大数据时代,计算机多媒体技术得到快速而惊人的飞速发展。与之相伴的是,各种图像和文本数据库中存储的有价值信息日新月异,金融类的新闻、公告和资讯等数据对于关心市场变化和热衷于投资的人们来说有着极其重要的参考价值。然而金融数据的来源广泛、种类繁杂,对于人们想直接找到最关注的信息带来了很大的困扰。因此如何对海量的金融数据进行有效而精确快速的管理与检索成为新时期的重大挑战,金融数据的分类问题成为迎接这个挑战的所需要处理的核心问题。金融数据分类平台可以实现对互联网中存在的金融数据做到实时收集并快速的分到准确的类别,可以高效的处理海量的文本信息,有极高的实用价值。分类系统是金融数据分类平台中的一个核心部件,它能够通过对样本数据处理和训练得到性能优越的分类器,并将分类器作用于实时数据的处理,能够很好的实现金融数据分类平台的分类功能,有很好的应用价值。根据以上介绍的背景,本文所要解决的问题是对海量的金融类文本数据实现快速高效的自动分类。通过对金融数据类别的市场需求调研,确定了常用的18个类别为最终的分类结果。本文的主要工作是完成对金融数据分类系统的设计与实现,结合金融数据中专有名词较多、特征较为明显的特点,本文采用逻辑回归算法实现对分类器的构造,将样本数据经过预处理后得到训练样本和测试样本,对训练样本进行特征提取、特征加权、特征向量化,传入逻辑回归模型训练得到分类器,用测试样本测试分类器的分类效果并根据评价结果进一步优化分类器,最终把分类器应用到对实际的金融数据分类。金融数据分类系统可应用在相关的门户网站和数据分类平台,实现对金融类的新闻、公告、资讯等文本数据的自动分类,也可以应用于公司或个人对大量金融类文本的信息管理,帮助用户快速定位到最想要获取的相关内容,有非常好的应用价值。金融数据分类系统实现对数据的分类可以作为金融类信息检索和数据挖掘的基础,进一步提高信息的利用率。本文提出的金融数据分类系统经过测试,有很好的分类效果,有非常好的应用前景。