论文部分内容阅读
Internet的发展为人们提供了大量的信息资源,Web文本挖掘是从非结构化的文本中发现潜在的、有价值知识的一种有效技术.本文以矢量空间模型为Web文本的表示方法,提出了一个基于遗传算法的Web文本特征抽取算法,进一步提高了Web文本的处理效率,为文本的分类、聚类以及其它处理提供了简练的特征表示方法.实验证明,该种处理方法有效地降低了文本特征矢量的维数.