影响支持向量机模型语步自动识别效果的因素研究

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:fdgongyongming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的]探讨在基于支持向量机(SVM)模型的科技论文摘要自动语步识别过程中,训练样本的规模、N元词(N-gram)的N取值、停用词以及词频加权方式等特征对识别效果的影响.[方法]从72万余篇科技论文结构化摘要中,抽取出总计1 10多万条已标注好的语步为实验数据,构建SVM模型进行语步识别实验.采用控制变量方法,基于单一变量原则,通过改变训练样本量、N-gram的N取值、是否去除停用词、词频加权方式,对比分析这些特征变化对语步识别效果的影响.[结果]训练样本数量为60万条语步、N元词的N取值为[1,2]、不去除停用词、词频加权方式采用TF-IDF时模型识别效果最好,为93.50%.[局限]主要以笔者收集的结构化论文摘要为训练和测试语料,未与其他人的结果比较.[结论]训练样本规模以及一些精细的特征对传统机器学习模型的效果有重要影响,使用者在实践中需要根据具体情况进行精细的特征选取.
其他文献
相较于传统英语讲堂,以培育学生核心素养为导向的新时代英语讲堂侧重教学方法的创新实践,旨在多渠道培养学生阅读理解能力、写作能力、英语文学修养、书面表达能力、跨文化交
在英语“听说读写”教学中,“说”指的就是英语的口语教学,但想要取得教学的高质量,还需要以“听”作为基础,让“听”与“说”之间紧密结合.口语作为口头交际的载体,也是语言
随着新课改的推进,有效地提高英语课堂质量已经成为必然要求,所以我们高中英语教师要立足于实践从根本上出发,有效地提高英语课堂质量和效率.本文立足于高中英语教学实践活动
在初中阶段,每个学生在英语方面的学习水平都是不同的,如果要按照固定的教学模式进行英语教学,那么学生的学习效果就会变得不那么理想.所以说,在新课程改革的背景之下,初中阶
One of the obstacles in obtaining high power/energy laser sources is self-focusing, which stems from the nonlinear phase shift (B-integral) accumulated during b
期刊
随着社会国际化进程的不断加快,英语教学的质量一直是社会和家长热议的话题,面对高中教育阶段的学生,开展有效的课堂教学、提升学生英语学习能力始终是学科教师的殷切期盼,然
英语词汇的学习是在英语学习中最为基础的学习,英语词汇量的掌握程度是决定英语是否能够学习好的前提,词汇量的掌握也是制约小学英语学习的一个重要因素.在小学的实际教学中,
我省棉花秋桃发育期间,正是气温逐渐下降的季节,并有相当长的一段时间,气温低于20℃,使秋桃品质随开花期的不同而有很大的差异。在我省不少地区,由于气候、耕作栽培和品种等
在全球一体化的今天,英语在国际交流和贸易中发挥着巨大的作用.所以我们应该在初中阶段培养和发展学生的英语,让学生能够进行初步的英语交流,培养学生的英语核心素养,为学生
在小学英语教育阶段,学生的综合课业表现由学生的看、听、读、写、译五种能力展现出来,要引导学生形成过硬的英语学习素养,提升其英语教学的综合表现,在开展教学活动的过程中