论文部分内容阅读
利用Python语言对5000条新闻数据进行了文本分类.通过词频和TF-IDF统计量构建特征向量,通过精准率和召回率对比前后2种特征提取算法的分类效果,通过逻辑回归、朴素贝叶斯和支持向量机进行分类结果对比,结果表明:对于目标新闻文本,在同等条件下,使用TF-IDF构建词向量模型的精准率和召回率比使用词频词襞模型分别高出0.013和0.012个百分点.在使用TF-IDF特征的基础上,朴素贝叶斯、逻辑回归和支持向量机算法的准确率是依次上升的,其中支持向量机的精度最好.