文本语料库的精炼研究

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:yp7611
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本语料库是文本数据挖掘的基础。很多文本语料库来源于生产生活的实际工作中,通常由行业专家为其定义类别。本文的数据集来源于市长公开电话办公室,随着不同时期行业类别的变更,语料库难免会有很多错误数据,由于语料库较大,通常不能由专家逐条校对,所以必须使用数据挖掘的方法找出错分类数据,针对这些错分类数据再由行业专家逐一校对。本文研究的内容就是筛选语料库中的错分类数据,以便于行业专家矫正数据类别。本文讨论了文本数据的判别分类问题。文中首先对文本分类技术和流程给出了论述,而后讨论了朴素贝叶斯方法的性质,最后讨论了文本语料库的精炼研究,讨论了类别判别错误数据的选取方法,并给出了实证分析。在大数据条件下,通过行业专家对文本数据人工标记类别的方法,由于会消耗大量的人力、物力、财力,采用行业专家人工校正的方法是不现实的。按照一定的规则,批量的对文本数据标记类别是另一种有效的方法,该方法能够有效的避免直接专家标类别的缺点,但文本数据类别标记的精确度比较低。结合以上两种方法,提出了第三种方法,首先批量对文本数据标记类别,将类别标记错误的文本数据交给行业专家进行人工标记,然后用行业专家标记的文本数据对文本语料库中的文本数据进行校正。文本语料库的精炼研究是基于第三种方法的。利用不同的方法提取文本语料库中类别判别错误的文本数据,在所有的方法中类别判别均为错误的文本数据是最可能为类别标记错误的文本数据。文本语料库精炼的目的是提取文本语料库中最可能为类别标记错误的文本数据。将这部分文本数据交给行业专家人工标记类别,最后基于行业专家人工标记的文本数据将文本语料库的文本数据的类别进行校正。本文首先简述文本数据分类的一般流程;然后介绍朴素贝叶斯分类算法;最后对文本语料库的预处理,特征词提取,文本语料库精炼的目的和方法,提取类别判别错误的文本数据等进行研究。本文重点内容是研究提取类别判别错误的文本数据的方法。
其他文献
本文从“主谓宾定状补”六种句法成分和“把字句”“被动句”“是字句”“有字句”“存现句” “连谓句”“兼语句”“重动句” “双宾语句” “比较句” “主谓谓语句”十一
为实现操作人员与配电作业机器人的自然交互,提出一种基于Kinect手势识别的配电作业机器人智能人机交互方法。通过Kinect的深度信息及骨骼信息对操作人员的手势进行分割,选取
现代电网一直在朝着长距离、特高压和强互联的方向发展,其规模越来越庞大,联系越来越紧密,结构越来越复杂。这也使得其面临着更大的风险,同时随着电力市场化改革的推进,越来越多的可再生能源被添加到电网中,可再生能源的间歇性和波动性特点将导致不可忽略的频率偏移,引起电力系统频率稳定性问题。传统的调频方式具有其局限性,已经无法满足现代电力系统的调频需求,因此急需研究一定的辅助调频手段用于改善可再生能源并网带来
为实现多自由度柔性关节机械臂高精度定点控制和振动抑制,提出了一种改进的分级滑模控制算法.该算法借鉴分级滑模的思想,分别根据减速器输出角和关节角设计第一级滑模面,然后
目的制备并鉴定2型猪链球菌(Streptococcus suis serotype 2,S.suis 2)强毒株05ZYH33分选酶A(Sortase A,SrtA)的单克隆抗体。方法 PCR扩增2型猪链球菌05ZYH33菌株基因组SrtA
人的认知是一个值得恒久探讨的话题。人类认知世界的方式有多种:触觉、嗅觉、听觉、视觉、味觉,人类还可以利用一种人造的手段——语言。人类把对世界的认识储存在大脑中,运
通过文献资料、调查和比较等方法,本文介绍了网球运动带来的经济、就业和健康效应,分析了我国网球运动产业化道路上的存在着网球人口少、场馆不足、职业化程度不高、经费严重
自二十世纪八十年代末开始,后殖民理论作为翻译研究的一个视角被广泛应用到翻译研究之中,形成了后殖民翻译理论。后殖民翻译研究摆脱了传统的翻译研究方法的束缚,不再只对翻
随着当前畜牧业的不断优化与发展,我们更加注重开展好村级动物防疫工作,能够避免一些疫病的传播,保障畜禽的安全,从而能够使人们的健康指数提高。随着当前经济的不断发展,畜
我科门诊应用中药倒模结合抗组胺药口服治疗外用皮质类固醇激素药引起的面部激素依赖性皮炎48例,并与外用皮质类固醇激素递减疗法组进行了对照观察,报告如下。