俄语大型动态网络语料库建设与应用分析

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:jerry_ic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:网络语料库是大数据时代语料库发展的重要方向,GICR作为俄语大型动态网络语料库的最重要代表之一具有较高的研究价值与借鉴意义。通过对GICR语料库总体设计、语料采集方法、处理手段和标注体系的分析述评,深入讨论了该语料库的在语言信息处理及语言学研究领域的应用研究,论述了该语料库的特点与独特优势,对俄语网络语料库研究的深入开展奠定了初步基础。
  关键词: 网络语料库;俄语;GICR
  中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2018)04-0212-04
  A Survey of Building and Using General Internet Corpus of Russian
  YUAN Wei1,2
  (1.Shanghai International Studies University, Shangha 200083, China; 2.Information Engineering University, Luoyang 471003, China)
  Abstract: In the era of large data Web as corpus is an important research direction of corpus linguistics. As one of the most important representatives of Russian web corpora General Internet Corpus of Russian (GIRC) has a significant research value. This paper discusses the main methods of GIRC for texts collection, cleaning, organization and annotation,discusses the characteristics and unique advantages of GIRC, analyses its applications in linguistic studies and natural language processing.
  Key words: Web as corpus; Russian; GIRC
  1 概述
  隨着大数据概念逐渐与语料库研究相融合,该领域的研究方法与范式已经产生了巨大变化。传统语料库的构建通常是需要消耗大量人工的缓慢进程,而这已无法适应学科发展对超大规模语料库的迫切需求,学者们纷纷将目光转向拥有海量语言数据的互联网。Kilgarriff[1]首次提出网络语料库(Web as corpus,WaC)的概念,讨论了基于网络数据驱动的语料库研究问题。2000年初名为WaCky!的学术团体成立,2006至2009年间构建了一系列网络语料库(deWaC, frWaC, itWaC, ukWaC),每个都包含了10-20亿词[2]。2011年启动的COW(COrpora from the Web)项目构建了面向英、德、法、荷、西和瑞典语的网络语料库,至2014年多数语料分库规模已经逼近100亿词[3]。在CLARIN项目框架内面向南斯拉夫语言的构建了一系列网络语料库(bsWaC, hrWaC, slWaC, srWaC),规模从4亿到20亿词不等[4]。与此同时,俄语网络语料库也得到了新发展,规模较大的如Aranea项目框架内构建的网络语料库包含近15种语言,其中俄语分库根据来源网页域名分为三个分库(Russicum Russicum、Russicum Externum和Russicum)每个分库按照语料规模都有Maius(大型)和Minus(小型)版本,如Russicum的大、小型语料分库分别包含8.5和0.9亿俄文词[5];TenTen多语种网络语料库项目中每个语种分库都超过10亿词,俄语分库ruTenTen是最大的分库之一[6];Russian Web corpora通过500个检索词借助搜索引擎获取语料,总规模约1.47亿词[7]等。
  一直以来,俄语国家语料库(НКРЯ)成为大部分学者研究俄语的标准配置,然而该语料库中当代俄语的现时数据占比较少,因此并不十分适应面向现代俄语的语言共时研究。上述网络语料库的构建成果是有目共睹,一定程度上丰富了研究者的语料选择,但都不同程度上存在缺陷,如上述Aranea、ruTenTen语料库旨在面向多个语种,缺乏对俄语的定制性标注与研究。除此之外,包括I-RU在内,这三个语料库规模可观但都缺乏元数据信息不易用于语言学研究,其他小型语料库通常数据规模较小而不易把握面向特定俄语使用群体的语言现象,总体来说,鲜有专门面向现代俄语语言学研究、面向特定俄语使用人群的大规模语料库,正是在这样的背景下,ГИКРЯ语料库应运而生。
  2 GICR语料库的构建
  2.1 概述
  GICR(General Internet Corpus of Russian), GICR; Генеральный Интернет-корпус русского языка;本文译:俄语网络语料总库)由俄罗斯国立人文大学于2012年开始筹建[8],是一个面向当代俄语语言学研究的新型网络文本语料库。该语料库构建目的是为面向当代俄语的语言学研究提供可靠数据支撑和技术工具,其语料从互联网俄文网站自动采集,来源包括新闻、社交网络、博客、论坛和网络杂志等,网页文本抽取、筛选清理和标注过程均采用自动化的方式进行,语料标注十分详尽,不仅包含词法和句法标注信息,还包含了大量面向文本的元数据标注信息,如作者的性别、年龄、职业、文本体裁、主题和地域变体等。该库最终构建目标是1000亿词,2016年该语料库的规模已经超过200亿词,已经远超俄语国家语料库(50亿词)。该语料库项目由俄罗斯国立人文大学和莫斯科物理技术学院计算语言学教研室承担主要研究工作,参与研究的还有莫斯科国立大学、英国利兹大学以及ABBYY公司的诸多专家学者。GICR语料库项目得到了俄罗斯联邦科技和教育部、俄罗斯国立人文大学战略发展项目以及ABBYY公司的支持。GICR的主要优势在于:语料获取、处理和更新实现了完全自动化且规模巨大,仅针对俄语一门语言构建,语料构成以最鲜活现代俄语语料为主,专门面向语言学研究进行了详尽的语法标注,同时面向社会语言学研究标注了语料的元信息。以下是语料库的基本构成(表1):   表1 ГИКРЯ语料库语料构成(2016年)
  [语料来源 词数(亿词) 文件数(个) Журнальный Зал(网络杂志图书馆) 3.13 56547 Риа, Регнум, Лента ру, Росбалт(网络新闻) 8.51 2964897 Живой Журнал(论坛及博客平台) 81.1 73229158 Блоги Mail.ru(博客平台) 7.07 9882120 ВКонтакте(社交网络) 98.2 193770717 总计 198.01 279903439 ]
  2.2 语料采集与处理
  ГИКРЯ语料库采集语料所使用的工具以Nutch为基础定制开发。Nutch是一个构建在Java平台上的开源网页采集及搜索引擎项目,包括了网页爬虫(Crawler)和查询器(Searcher)两部分组成。网络爬虫的功能是从网络上抓取网页、获取网页内容并为这些网页建立索引,查询器的功能是利用这些索引检索用户的查找关键词来产生查找结果。GICR网页爬取策略不使用网页排名,而是爬取所有可获得网页,但仅保留网页中面向人類阅读的部分,不收录面向搜索引擎编撰的相关信息。GICR更注重精度而非召回率,因为目前俄语互联网资源的文本数量是GICR最终构建目标的100倍左右。
  GICR语料库对所获取的网页文本,进行了垃圾信息清理工作,清理的对象包括网页辅助信息、广告、动态新闻条、邮件、自动生成的文本等,同时进行重复文本删除,这样以来能够减少后期语料入库时的工作量。通常来说,网页样板代码的清除算法基于是否知晓网页结构。GICR对于已知网页结构的博客平台、内容管理系统或论坛平台,通过分析网页源码中带有已知Xpath节点的DOM结构抽取文本,同样也可以把主体文本与评论文本区分开来;对于不知道其数据结构的网页,使用基于混合策略、获取连续字符块的算法抽取网页正文。
  GICR语料库构建时,不仅借助Nutch从爬取网页并从中抽取文本正文,同样也抽取文本的元信息,包括文本作者的用户名(网名)、年龄、性别、出生地、受教育程度、常住地等,这些注册信息通常以结构化的文本表示。获取这些元信息,主要是能够借此高效地获取文本创作(使用)者的相关信息,如用户注册信息、消息发布数量等,将用户与用户语料紧密关联起来,这样对分析特定人群的语言使用情况十分有效,能够很好的用于社会语言学研究。获取语料的主要算法基于假设:对于某一用户来说,掌握的相关语料越多,对其年龄、性别等信息的判断与分类就越准确。
  2.3 语料标注
  GICR语料的标注是通过计算机软件自动进行的,包括词法标注和元信息标注两个部分。首先,词法标注使用的工具是由Сергей Шаров开发的TnT-Russian软件,包括语料的形态标注和词形还原。在形态标注方面,所使用的机器词典不仅使用TnT-Russian自带词库,同时也融合了mystem的词形库,总共包含超过700万俄语词形。在词形还原方面,不仅使用了TnT-Russian原有工具,针对未收录词(新词)的处理,采用了Cstlemma模型(Github开源项目),同时根据GICR的自身特点对TnT-Russian工具进行了定制拓展开发。除此之外,自主研制的标记解析器(Токенизатор)能对所有标点符号及使用连词符组成的搭配进行自动识别。GICR语料库词法标注规范及语料标注示例参见表2。
  其次,语料元信息标注。GICR的语料元信息标注是指对从社交网络、论坛、网络杂志等网址获取的网页,获取其关于文本本身的信息以作者信息并加以标注。文本本身的信息包括文本来源、作者、发布时间、网络体裁(博客、微博、论坛文章)等;作者信息包括用户ID、网名、注册时间、性别、年龄、地区(IP地址)、职业、兴趣、文本发布数量、评论数量等。自动处理等起点是获取文本作者的准确信息,并将其以标准化形式表示出来。有些信息可以从IP地址(服务器地址用于地区定位)和网址URL中获得,但往往这类元信息都是不完整的,首先并不是所有的网站都完整提供上述信息,其次IP地址在某些情况下也能够被错误引导等。GICR项目使用页面上可以获取的文本信息为机器学习提供资源,不断改进特定网站的结构信息获取算法,效果较好。
  3 GICR的研究与应用
  GICR作为一个规模巨大的网络俄语语料库,其构建过程本身就是一个科学命题。首先,GICR的语料获取、标注和分类的整个过程都是通过软件工具自动完成的,为了保证语料处理的准确性和可靠性,就必须在获取了原始语料之后,严格考察和研究自动标注和词形还原的方法,确保语料加工的成熟度,以便用于后期的应用与拓展。其次,从网络获取的语料,数据噪声大且无明晰分类,未分类语料对于语言特征研究、变体研究、社会语言学研究都存在障碍,因此语料自动分类问题也是需要研究的课题。针对上述问题,俄罗斯学界已经开展了比较深入的研究,部分研究成果得到了较好地推广和应用,基于GICR的多方面研究也在顺利开展。
  第一,基于GICR语料库的词性标注与词形还原研究。为了处理大规模未标注互联网语料,文献[9]讨论了在不使用任何语言知识的情况下,使用机器学习及纯统计方法处理俄文语料的粒度切分、词形还原和自动标注问题。在随后的研究中,基于研究了形态自动消歧问题,测试了GICR语料词法自动标注工具及标准的可信度和有效程度。文献[10]在GICR项目框架内开发的面向社交网络文本的语料自动形态分析和词形还原工具,并在人工标注的200万词现代社交网络语料库上进行效果测试。文献[11]认为对俄语标准语的自动形态分析和词形还原工具对于社交媒体的文本处理精度不够,原因是存在大量书写变体和错误书写,使用GICR作为数据基础语料修正了算法,提升了词形还原和形态分析的水平。
  第二,基于GICR语料库的文本分类研究。文献[12]研究了GICR语料库中文本自动分类问题,初始以少量文本特征参数为基础,通过迭代的机器学习算法构建分类框架,建立主体后用于后期的文本聚类;文献[13]使用多维度分析手段对GICR语料库的多样化文本分类进行了研究,以此方法寻找分类依据以及分类的维度特征,使用软件工具识别出的一系列语言特征,研究结构表明语言特征纬度对理解与处理俄语网络语料的分类问题作用很大;文献[14]研究了网络语料的自动区域识别与分类问题,使用了GICR的Живой Журнал子库,从文本特征词汇、文本作者结构信息中抽取的地域信息,通过机器学习训练特征集建立语料与地区的关联。   [10] Селегей, В., О.Шаврина, П.Селегейet al.Автоматическая морфоразметка корпусов русскоязычных социальных медиа: обучение и оценка качества[A]. Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции ?Диалог?[C]. Москва, 2016.
  [11] ШавринаО.
其他文献
以木质林产品供应链为研究对象,归纳总结了常用的碳足迹核算标准和核算方法,并从森林生产、采购与运输、林产品加工、仓储与配送以及废弃回收等方面对木质林产品单一供应链环
受大学生招生数量上涨较快、就业率低以及全球经济疲软的影响,大学生就业问题引起了国家和政府的高度重视,因此国家指出大众创业、万众创新的方向。基于大学生创业的背景进行
中国制造业绝大多数企业的优势还体现在制造环节,即微笑曲线的中间环节。历程建国后我国实施了重工业优先发展战略,为独立完整工业体系的建立打下坚实基础,但由于偏离了人们
泰山作为传统文化中的“交代之处”,自古便为历代帝王祭祀封禅之场所。然而汉魏以后,泰山逐步由官方祭祀天地的圣地转化为民间祭祀鬼神的胜地。其原因主要有三个:泰山自身的