基于文本自动摘要的小学语文作文标签提取方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:dh5601
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作文素材在小学语文作文教学信息化辅助的过程中不可或缺,但当前网络上作文素材数量繁多却缺乏个性化推荐模式,极易引起小学生知识过载现象。同时,作文素材存在的非结构化数据特征,使得计算机对其进行读取存储操作过于繁复,进而对数据的有效组织产生阻碍。文本标签是对文本内容的一组词汇描述,包含了非结构化数据文本向结构化数据文本转换所需的信息。原始小学语文作文素材语料存在的大量冗余信息,会对文本标签的获取产生干扰。针对上述问题,本文研究作文语料的文本自动摘要处理方法来有效去除冗余、提取文本中心内容。本文创新之处是在完善作文标签定义的前提下,提出了一种基于文本自动摘要的小学语文作文标签提取方法。本文主要研究工作如下:(1)前期探索。本文对作文标签抽取过程中涉及到的关键技术进行了概述。最终基于效率及可行性分析,明确了抽取型文本自动摘要技术、基于词典的分词技术以及有监督的命名实体识别方法作为标签抽取过程中的主要技术框架。(2)相似度算法选取。本文选用抽取型文本摘要主流算法TextRank进行原始文本去冗余操作。同时对经典相似度算法、基于编辑距离的相似度算法、基于Word2Vec的相似度算法以及基于BM25的相似度算法进行了实验比较。最终基于ROUGE评分标准及时间效率的综合评价,选取基于BM25的相似度计算方法为TextRank提供权值计算。(3)标签提取。本文给出了一种小学语文作文标签定义方法。该方法由文章分类、核心实体及关键描述组成。同时,依据分类定义了标签抽取的效果评估指标。进而通过对文本进行分词的词性识别及命名实体识别获取相关信息,并对每一分类做出字数、词频上的限制以保障抽取结果的准确性。实验证明,在于传统关键词提取算法的对比中,本文所提小学语文作文标签抽取策略具有显著优势。(4)应用模型分析。本文针对小学语文作文标签的应用场景与应用模型进行了初步探索,建议了一种包含标签的RDF模型方法,在生成结构化数据的同时满足了关联数据构建的需求。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本文介绍了内蒙古自治区宁城县大城子镇地区的地层、构造、岩浆岩和区域矿产分布。在该地区开展了激电中梯工作,根据电阻率和视极化率确定了异常范围并进行了野外地质矿产填
创新对当代组织的生存和发展至关重要,它一般包括创意生成和创意推行两个阶段。已有研究更集中于探讨如何促进创意的产生,对创意推行的研究却相对匮乏。创意倡导是对新颖想法
德国小蠊粪便里含有聚集激素。本实验选用5种有机溶剂对德国小蠊粪便进行了定量提取,然后分别作诱集效果测试,结果表明:乙醇提取液诱集效果最好,乙醚提取液诱集效果最差;高龄
朱元璋在建国初年.为壮京师以镇遐迩,于洪武七年(1374年)下诏在狮子山巅兴建阅江楼。楼虽未建却因此留下两篇《阅江楼记》存世。阅江楼有记无楼的历史延续了六百多年,成为南京潜
加强对于大学生的马克思主义教育,用马克思主义理论武装头脑,是高校意识形态工作的重要任务。高校现有的马克思主义教育模式以课堂教育和教师讲授为主,其能达到一定效果,但要
一台卡特320CL挖掘机出现大臂泄压故障,外部没有泄露迹象.根据以往维修经验,主要原因多是油缸密封件磨损或操纵阀芯及密封件磨损泄露,而液压元件内泄隐蔽性强,排查起来比较困
<正>2015年国内的钱币学、货币史研究者在诸多方面都有论文发表,其中一些研究成果值得我们关注,如对近十余年来先秦货币的重要发现和研究成果进行的系统梳理;结合近年来发现
期刊
目的观察复方丹参滴丸(CompoundDanshenDrippingPill,CDDP)对急性心肌梗死(acutemyocardialinfarction,AMI)心肌组织炎症反应的影响,观察人脐血单个核细胞(humanumbilicalcordbloodmo