基于在线学习社区WEB短文本的错误数据检测与修复研究

来源 :华中师范大学 | 被引量 : 1次 | 上传用户:yt66896915
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,在线学习社区越来越多的出现在我们的学习生活中,越来越多的人开始通过在线学习社区进行自主学习。学习分析研究是指对在线学习社区中的数据进行分析研究,以帮助学生更好的利用在线学习社区进行个性化学习。然而,在线学习社区中的短文本数据存在着一些错误的信息,例如真词错误、误解等,这些错误数据会导致学习分析的研究结果与实际情况产生较大的偏差。因此,对在线学习社区中的Web短文本进行错误检测与修复研究,具有重要的理论研究与应用价值。本文主要针对Web短文本错误进行检测与修复研究,这些错误主要涉及:中文真词错误和短文本误解。结合以往研究者的相关研究工作,本文的工作如下:首先,基于在线学习社区Web短文本错误数据的检测与修复问题,本文提出了短文本错误数据检测与修复框架,为在线学习社区中Web短文本错误数据的检测与修复问题提供研究思路。针对在线学习社区短文本的中文真词错误问题和短文本误解问题,提出了基于在线学习社区Web短文本的中文真词错误检测与修复研究框架,以及基于在线学习社区Web短文本的误解检测与修复研究框架,前者用于指导真词错误检测与修复,后者用于短文本误解检测与修复的研究工作。然后,本文提出了基于在线学习社区Web短文本的中文真词错误检测与修复算法,和基于在线学习社区Web短文本的误解检测与修复算法。前者是基于三种传统算法改进之后得到的,这三种传统的词错误检测与修复算法分别基于n-gram、上下文语境、中文固定搭配。本文将这三种算法加以改进并整合到一个统一的算法中,以便获得各个算法的优点,从而提升中文真词错误检测与修复的准确率。后者是基于长短期记忆神经网络(LSTM)和卷积神经网络(CNN)构建的算法,即通过LSTM将文本转换成包含文本本身全部语义信息的向量,然后再将得到的向量作为CNN模型的输入进行训练,得到一种短文本误解检测模型;在此基础上,结合误解检测模型的输出结果,我们提出了一种短文本误解修复算法。最后,本文在真实数据集上进行了相关实验,并使用召回率、准确性和修复率这三个评价指标对实验结果进行评估。实验结果表明,本文所提的基于在线学习社区Web短文本的中文真词错误检测与修复算法和基于在线学习社区Web短文本的误解检测与修复算法均具有很好的准确性。
其他文献
期刊
近年来,蓝藻水华大肆暴发,严重影响人类的生产和生活。常用于抑藻的有重金属盐CuSO4、除草剂敌草隆等,但在抑藻同时会因其低选择性而威胁到其他水生动植物,因此,迫切需要寻找一种高选择性、环境友好型抑藻剂来有效治理蓝藻水华。前期,我们以蓝藻果糖-1,6-二磷酸/景天庚酮糖-1,7-二磷酸酶(Cy-FBP/SBPase)为靶标,得到了对Cy-FBP/SBPase、蓝藻均有较好抑制效果的系列化合物TADI
纳米金刚石(ND)作为一种有前景的新型的碳纳米材料,由于其具有生物相容性、尺寸小、低毒性、强大的表面吸附能力、荧光效应以及耐磨性,使它们在各个领域中得到广泛关注。纳米金刚石通过各种技术合成,包括爆轰法,化学气相沉积,高压高温等,其中,爆轰纳米金刚石表面基团的种类有很多,且其表面含有一些杂质,为了除去这些杂质、提高纳米金刚石的分散稳定性、拓展纳米金刚石的应用领域,对纳米金刚石的表面改性是尤为重要的。
转基因技术既是改良植物、培育优良品种的重要工具,又是研究基因功能的有效手段。外源转基因在植物中的表达受到来自植物内在机制的抑制,导致外源基因的表达随着繁殖代数的增加而逐渐减弱甚至完全被抑制,即外源基因沉默。染色质修饰、DNA甲基化、小RNA等均在外源基因的抑制中起重要作用,但转基因沉默的分子机制仍有待深入研究,本文探讨了一个剪接体关联蛋白(SAPH,Spliceosome-Associated P
小菜蛾颗粒体病毒(Plutella xylostella granulovirus,PlxyGV)是β-杆状病毒属成员之一,对小菜蛾具有强致病性。商业化生产的PlxyGV杀虫剂已经投入大规模应用。为了解PlxyGV在自然状态下的遗传稳定性,本研究完成了对三个PlxyGV分离株的全基因组测序和杀虫活性分析。(1).利用二代测序技术完成了对PlxyGV三个分离株PlxyGV-W(武汉株)、PlxyGV
邻苯二甲酸酯(Phthalates,PAEs)类化合物,主要用于增塑剂中,以提高各种日常用品的弹性、柔软性和耐久性,其中,邻苯二甲酸二(2-乙基己)酯(di-(2-ethylhexyl)-phthalate,DEHP)使用最为广泛。DEHP主要用于制造聚氯乙烯(Polyvinyl Chloride,PVC)相关产品,另外,它还用于制造鞋履、浴帘、医疗器械、衣服、床上用品、胶凝剂、产品包装、建筑材料
随着国家经济飞速发展,国内工业化进程达到了新高度,工业文明在提高人们生活质量的同时,也对环境污染治理技术提出了新的挑战。在工业生产中,超负荷废气排放造成了一系列的空气污染问题,例如雾霾、酸雨、臭氧空洞等,其中氮氧化物NOx(NO2和NO)的“贡献”显得尤为重要,如何高效去除大气中氮氧化物已成为净化污染气体的一个重难点。光催化技术具有低能耗、反应条件温和、无二次污染等优点,在去除低浓度NOx领域展现
亲权鉴定是研究动物婚配制度的重要手段。通过亲权鉴定,我们可以了解动物成体与子代之间的亲缘关系,从而了解该物种配偶选择的偏好、交配次数、抚育行为甚至适应性的性别比例等,并且对于濒危动物的保护具有一定的指导意义。目前在人类、哺乳动物、鱼类、昆虫和爬行类中关于亲权鉴定的研究较为丰富,而在两栖动物中的还相对较少,缺少相应的分子标记开发研究。本研究选取峨眉髭蟾(Leptobrachium boringii)
苜蓿银纹夜蛾核型多角体病毒(Autographa californica multiple nuclepolyhedrovirus,AcMNPV)GP41是一种O-糖基化蛋白,定位于病毒粒子的囊膜与核衣壳之间。研究表明gp41是核衣壳出核获取囊膜的必需基因,但具体作用机制尚不清楚。本实验室前期利用酵母双杂交技术从Sf9 cDNA文库中筛查出两个可能与GP41相互作用的蛋白:含卷曲-卷曲-螺旋-卷曲