基于机器学习的新闻文本分类研究

来源 :电脑编程技巧与维护 | 被引量 : 0次 | 上传用户:guojicai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用Python语言对5000条新闻数据进行了文本分类.通过词频和TF-IDF统计量构建特征向量,通过精准率和召回率对比前后2种特征提取算法的分类效果,通过逻辑回归、朴素贝叶斯和支持向量机进行分类结果对比,结果表明:对于目标新闻文本,在同等条件下,使用TF-IDF构建词向量模型的精准率和召回率比使用词频词襞模型分别高出0.013和0.012个百分点.在使用TF-IDF特征的基础上,朴素贝叶斯、逻辑回归和支持向量机算法的准确率是依次上升的,其中支持向量机的精度最好.
其他文献
随着高校扩招,住校学生人数也日益增多,给宿舍的管理增加了难度,根据实际需求,基于MySQL对宿舍管理系统数据库进行了设计分析,为系统研究开发打下基础.
随着IT技术在企业实际业务中扮演着越来越重要的角色,企业的IT系统中所产生的数据量也越来越大,其中非结构化的数据又占有相当大的比例,传统的利用关系型数据库对非结构化数据的管理在面对海量数据时面临着性能不足的瓶颈.基于此,提出了使用非关系型数据库MongoDB作为后端数据库的内容管理解决方案,利用MongoDB的文档数据库且易于横向扩展的特性来解决基于关系型数据库的内容管理系统的性能瓶颈.
大数据的飞速发展引发了人们的高度关注,对大数据实施高效的解读是大数据行业永恒不变的命题.透过资料解析即服务、大数据解读模式与大数据驱动科目3大维度对大数据解读提供参考,给出了大数据环境下云计算的数据存储、弱可用度、数学建模、资源分享与专业解读工具缺乏等5个难题,并有目的 性地给出了布局云计算方略、提高数据可用度、优化数据解读建模、弹性分享资源与开发大数据解读平台等策略.
在“互联网+”时代下,人工智能等技术不断发展深深地影响着包括图书馆行业在内的各大领域,国内外各地区高校的图书馆也在新时代发生着翻天覆地的变化.根据图书馆实际工作,利用人工智能等先进技术,设计开发了一套智慧图书馆系统,可以为日后建设智慧图书馆的工作提供良好的理论基础.