大规模汉语语料库分词一致性检验技术研究

被引量 : 2次 | 上传用户:allanvte001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在中文信息语言处理领域里,以大规模真实文本为基础的语料库研究和知识自动获取越来越受到重视,建设大规模高质量的语料库成为首要的任务。然而由于现阶段语料库的建立,需要人工来校验,不可避免的会有一定的疏忽和错误,导致了对同一字段在相同的语言环境下的切分结果不一致。这些不一致现象不仅影响了语料库分词的正确率,而且将错误带到了利用语料库资源进行加工的下一步骤。因此,对语料库加工时,必须对其进行一致性的检查和校正,保证语料库加工的质量。因此,应将分词后的语料库是否具有一致性作为衡量语料库质量的重要标准。 本文针对大规模语料库分词一致性存在的问题,首先分别采用基于规则和采用基于支持向量机的分词一致性检验方法来对测试语料进行分析,然后采用将两者相结合的方法来重新测试。该方法通过对语料库不一致字段应用规则和应用基于SVM的方法对不一致字段进行自动校对,实验取得预期的目标,证明两者相结合的方法可以更好的解决分词一致性这个问题。主要工作如下: 1.研究和分析大规模语料库分词不一致性现象及类型,并统计相应的比例,确定论文的研究对象; 2.给出语料库样本的结构化表示形式,用影响分词正确率的主要因素作为语料库样本向量的特征; 3.从人工校对的正确语料中获取分词范例,基于获取的范例统计得到所需实验数据,根据支持向量机的理论对语料进行自动校对,该方法可以较好的提高语料的分词质量; 4.研究利用规则来解决分词一致性问题,提取出若干条规则,并将获取的规则应用于对语料的分词结果的校对,提高语料的分词质量,在校对过程中同时也对规则进行评价; 5.基于以上的思想和方法,分别对基于规则、基于支持向量机以及将两种方法相结合的方法设计实验模型,并分别对每个模型进行了封闭测试和开放测试。 对将两者相结合的语料库切分一致性校验系统进行开放测试后,一致
其他文献
运用验证性因素分析的方法得出我国3~5岁幼儿自我控制能力结构由自制力、坚持性、自觉性和自我延迟满足四个维度组成,四个维度之间既相互独立又相互联系。依据验证的结果设计
本文以贵州安顺地戏为例,探讨我国非物质文化遗产生成养育的动力因素和保障机制,考察当今遗产运动和大众旅游情境下,非物质文化遗产存续发生的变迁,对我国非物质文化遗产保护
处于全球化大背景下,受西方国家过度开放的性观念影响,我国青少年性教育状况也越来越棘手,已成为困扰社会各界的一大难题。从当前青少年性教育的现状出发,寻找其中的可能性原
上海自贸试验区的建立对盐城经济、社会和政府管理等方面都将产生重大影响。结合上海自贸试验区的相关情况,具体分析给盐城发展带来的机遇、形成的挑战及在此背景下提出积极
各种各样国际、国内体育赛事的举办,直接导致体育视频数据的爆炸式增长。因此,高效的体育视频分析很有必要。本文以篮球比赛视频分析为例,侧重于研究比赛关键对象——篮球的
介绍了变压器排油注氮灭火装置的构成和原理;通过对某供电公司变压器排油注氮灭火装置运行、管理情况的调查,阐述了目前国内排油注氮灭火装置的运维管理现状以及可能存在的风
傣族全民笃信南传佛教,经过一千多年的融合适应,佛教文化渗入人心,成为人们精神生活的重要部分,宗教教育对傣族的学校教育有着深刻的影响。通过对傣族佛寺教育、跨境入学教育
本论文采用PHEMT 器件完成Ka 波段上变频器的研究。由于采用微带电路,所以首先对微带传输线的基础做了简单的回顾,并介绍了本课题中要用到的一些微带元件。然后根据课题的需
<正>甘肃是连接欧亚大陆桥的战略通道和沟通西南、西北的交通枢纽,是我国"一带一路"战略中向西开放的重要门户和次区域合作战略基地,也是目前国内开行的渝新欧、汉新欧、郑欧
英语是一种世界性的语言,成为各国商务活动的主要交际工具。近年来,国际贸易发展迅速,不同国家间的商务谈判也随之增多。从事商务活动的人员在进行商务谈判时如果只了解一些