论文部分内容阅读
随着网上信息的极大丰富,文本分类技术显得越发重要,且预处理技术已成为文本分类的瓶颈.在预处理中采用TF-IDF算法,并且根据基尼指数的纯度原理对传统的基尼指数方法进行了基尼指数测度函数的改进,以降低原始文本的特征选择空间的维数.通过对比实验数据,表明这种改进是可行且有效的,体现在时间、空间复杂度小,精确度高.