论文部分内容阅读
随着近年来科学技术日新月异般高速发展,互联网中各种信息呈现井喷之势令人应接不暇。如何更好的发现、获取并使用网络文本信息也就成了一个越来越值得关注的问题。海量文本信息的采集与自动分类,是获取、组织和处理大量信息数据的关键核心技术。优秀的采集与分类系统能够快速高效地根据需求从网络中获取相关网页,分析提取网页信息,继而将得到的文本内容按照一定方法进行自动分类处理,以待更好的为人所用,这些无疑对快速发现、研究和解决问题有很大的帮助。因此本文结合网络采集、信息处理和文本自动分类技术,同时引入词池演化特征词的方法对海量文本信息的采集与自动分类问题进行了深入的研究,解决了海量网络信息时代文本数据的有效采集与自动分类问题。基于上述分析,本文主要完成了以下工作:第一,本文分析了信息采集领域与文本自动分类领域常见的关键技术和相关算法。着重阐述了信息采集过程中的源码获取、链接分析匹配和网页信息处理等技术,以及文本分类领域的文本表示、特征选择和常用的分类算法。第二,提出了基于用户定义的Web采集和处理模型。此模型在传统的采集技术基础上,实现了基于链接分析匹配等采集过程的改进,提高了海量文本信息采集的高效性和准确性。第三,在传统分类的特征词选择算法基础上,提出了基于词池演化的多级特征词改进方法,增加了特征词集的规模,并利用改进的特征词集优化分类模型,提高了文本自动分类的准确性。第四,将提出的Web采集与分类模型应用于实际的科研工作之中,实现了一套高效稳定的采集与分类系统。通过系统测试和相关性能分析可知,本文提出的相关算法模型拥有良好的采集与分类效果。