论文部分内容阅读
计算机的发明无论是对社会的发展还是对个人的日常生活都带来了巨大的变革,互联网的诞生标志着信息时代的来临,“信息爆炸”是这个时代典型的特征之一。政府、机构、公司等利用网络发布信息,人们利用网络获取消息。每一台电脑既是互联网的入口,也是互联网的出口。海量的信息在互联网里穿梭,但是人们发现,并不是每一条信息都是我们需要的,垃圾信息成堆挡住了我们的视野,我们需要办法来对这些信息进行处理。
文本分类是目前解决这个问题的一个重要的手段。我们可以对网络信息进行分类,然后分门别类的存储,就像图书馆的书籍一样,需要什么信息我们就去找对应信息。但是网络信息以许多种方式存在,结构化文档,半结构化文档和无结构化文档,网页,各种各样电子书。想要获取这些信息的内容并不简单,想要对这些信息进行分类存储,首先要把那些与内容无关的信息处理掉,然后可以选取文本的特征,最后我们才能分类。
本文主要研究文本分类中的特征选择方法,采用遗传算法完成文本的特征选择,提出了一些有针对性的算法改进措施。本文的主要工作有:
1.分析和比较各种文本特征选择方法,研究它们各自的优点和不足。
2.分析了普通遗传算法的基本概念,基本理论,算法流程,总结了算法优缺点,提出了改进方法。
3.针对遗传算法和文本特征选择方法的特点,本文设计优化了适合文本特征选择的适应度函数,采用了合适的编码方案。
4.针对普通遗传算法收敛慢或者不收敛、出现“早熟”等不足之处,本文改进了遗传算法的选择操作,交叉操作,变异操作。
5.搭建了相关实验平台,实验验证了算法的可行性和有效性。