文本语料库的精炼研究

来源 :东北师范大学 | 被引量 : 0次 | 上传用户：yp7611

【摘要】

：

文本语料库是文本数据挖掘的基础。很多文本语料库来源于生产生活的实际工作中,通常由行业专家为其定义类别。本文的数据集来源于市长公开电话办公室,随着不同时期行业类别的

【作者】

：

张衡

【出处】

：

东北师范大学

【发表日期】

：

2017年01期

【关键词】

：

朴素贝叶斯高维数据短文本文本语料库精炼

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本语料库是文本数据挖掘的基础。很多文本语料库来源于生产生活的实际工作中,通常由行业专家为其定义类别。本文的数据集来源于市长公开电话办公室,随着不同时期行业类别的变更,语料库难免会有很多错误数据,由于语料库较大,通常不能由专家逐条校对,所以必须使用数据挖掘的方法找出错分类数据,针对这些错分类数据再由行业专家逐一校对。本文研究的内容就是筛选语料库中的错分类数据,以便于行业专家矫正数据类别。本文讨论了文本数据的判别分类问题。文中首先对文本分类技术和流程给出了论述,而后讨论了朴素贝叶斯方法的性质,最后讨论了文本语料库的精炼研究,讨论了类别判别错误数据的选取方法,并给出了实证分析。在大数据条件下,通过行业专家对文本数据人工标记类别的方法,由于会消耗大量的人力、物力、财力,采用行业专家人工校正的方法是不现实的。按照一定的规则,批量的对文本数据标记类别是另一种有效的方法,该方法能够有效的避免直接专家标类别的缺点,但文本数据类别标记的精确度比较低。结合以上两种方法,提出了第三种方法,首先批量对文本数据标记类别,将类别标记错误的文本数据交给行业专家进行人工标记,然后用行业专家标记的文本数据对文本语料库中的文本数据进行校正。文本语料库的精炼研究是基于第三种方法的。利用不同的方法提取文本语料库中类别判别错误的文本数据,在所有的方法中类别判别均为错误的文本数据是最可能为类别标记错误的文本数据。文本语料库精炼的目的是提取文本语料库中最可能为类别标记错误的文本数据。将这部分文本数据交给行业专家人工标记类别,最后基于行业专家人工标记的文本数据将文本语料库的文本数据的类别进行校正。本文首先简述文本数据分类的一般流程;然后介绍朴素贝叶斯分类算法;最后对文本语料库的预处理,特征词提取,文本语料库精炼的目的和方法,提取类别判别错误的文本数据等进行研究。本文重点内容是研究提取类别判别错误的文本数据的方法。

其他文献

哈萨克族人普通话语法等级特征和教学策略研究

本文从“主谓宾定状补”六种句法成分和“把字句”“被动句”“是字句”“有字句”“存现句” “连谓句”“兼语句”“重动句” “双宾语句” “比较句” “主谓谓语句”十一

学位

哈族汉语偏误句法成分句型句式

基于Kinect的配电作业机器人智能人机交互方法

为实现操作人员与配电作业机器人的自然交互,提出一种基于Kinect手势识别的配电作业机器人智能人机交互方法。通过Kinect的深度信息及骨骼信息对操作人员的手势进行分割,选取

期刊

配电作业机器人智能人机交互机器学习手势分割手势识别运动控制

电池储能参与电力系统调峰调频的建模与仿真

现代电网一直在朝着长距离、特高压和强互联的方向发展,其规模越来越庞大,联系越来越紧密,结构越来越复杂。这也使得其面临着更大的风险,同时随着电力市场化改革的推进,越来越多的可再生能源被添加到电网中,可再生能源的间歇性和波动性特点将导致不可忽略的频率偏移,引起电力系统频率稳定性问题。传统的调频方式具有其局限性,已经无法满足现代电力系统的调频需求,因此急需研究一定的辅助调频手段用于改善可再生能源并网带来

学位

频率调整电池储能系统模糊PID控制调峰

一种改进的柔性关节机械臂分级滑模控制

为实现多自由度柔性关节机械臂高精度定点控制和振动抑制,提出了一种改进的分级滑模控制算法.该算法借鉴分级滑模的思想,分别根据减速器输出角和关节角设计第一级滑模面,然后

期刊

多自由度柔性关节机械臂分级滑模双幂次振动削弱

2型猪链球菌SrtA蛋白单克隆抗体的制备与鉴定

目的制备并鉴定2型猪链球菌(Streptococcus suis serotype 2,S.suis 2)强毒株05ZYH33分选酶A(Sortase A,SrtA)的单克隆抗体。方法 PCR扩增2型猪链球菌05ZYH33菌株基因组SrtA

期刊

2型猪链球菌Sortase A原核表达单克隆抗体

MeCTO观念的语义认知结构研究

人的认知是一个值得恒久探讨的话题。人类认知世界的方式有多种:触觉、嗅觉、听觉、视觉、味觉,人类还可以利用一种人造的手段——语言。人类把对世界的认识储存在大脑中,运

学位

MeCTO观念认知语义认知模型认知结构

我国网球运动产业化发展存在的问题及对策研究

通过文献资料、调查和比较等方法,本文介绍了网球运动带来的经济、就业和健康效应,分析了我国网球运动产业化道路上的存在着网球人口少、场馆不足、职业化程度不高、经费严重

期刊

网球运动产业现状对策

从后殖民角度看林纾的翻译

自二十世纪八十年代末开始,后殖民理论作为翻译研究的一个视角被广泛应用到翻译研究之中,形成了后殖民翻译理论。后殖民翻译研究摆脱了传统的翻译研究方法的束缚,不再只对翻

学位

后殖民理论林纾翻译的政治解殖民化

村级动物防疫工作存在的问题及对策浅析

随着当前畜牧业的不断优化与发展,我们更加注重开展好村级动物防疫工作,能够避免一些疫病的传播,保障畜禽的安全,从而能够使人们的健康指数提高。随着当前经济的不断发展,畜

期刊

基层动物防疫工作存在问题对策分析

中药倒模治疗面部激素依赖性皮炎疗效观察

我科门诊应用中药倒模结合抗组胺药口服治疗外用皮质类固醇激素药引起的面部激素依赖性皮炎48例，并与外用皮质类固醇激素递减疗法组进行了对照观察，报告如下。

期刊

中药倒模面部激素依赖性皮炎皮质类固醇激素

文本语料库的精炼研究

其他学术论文