媒体语料中“简单”一词的情感倾向性调查研究

来源 :人间 | 被引量 : 0次 | 上传用户:jick85726
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着网络用户的增多和网络数据的膨胀,以及信息抽取技术的迅速发展,获取海量的评价数据成为可能。利用机器自动识别微博、论坛等领域的用于评价信息,并进行情感倾向性分析,具有现实应用价值。[1]在此背景下,汉语倾向性自动分析成为了研究的热点,但是无论是基于词典和规则的方法还是基于统计的机器学习方法,都将大部分精力投入到宏观的语言现象的考察以及方法本身的建构和完善中,基于语言本体对特定语言单位的深入挖掘和研究在一定程度上有所忽视。本文使用语料库语言学的研究方法,以《新京报》2015年的新闻为研究语料,对其中“简单”一词的使用情况进行调查,从语言本体角度对其进行义项标注和句法标注,考察其情感倾向性。希望能够以点带面,对适用于上下文相关文法的性质形容词的倾向性分析有所帮助。
  关键词:语料;简单;情感倾向性;分析
  中图分类号:G250.72 文献标识码:A 文章编号:1671-864X(2016)07-0204-02
  一、语料采集和预处理
  (一)语料的采集。
  我们使用爬虫工具对《新京报》2015年所有版面的新闻进行了采集,采网址成功36,720条,采内容成功36,720条,语料规模80.76MB,共有字符数为45,714,744。
  (二)语料的预处理。
  1.提取含有“简单”的句子。我们要研究“简单”一词的情感倾向性,所以要只需要抽取出含有“简单”的句子单位,排除其他无关语料。本文使用语料处理软件“HyConcV3.9.6”中的中文字符串检索提取功能,以句末标点为边界,从原始语料中提取出了含有“简单”的句子共2460个,其中“简单”一词出现的频次为2508。
  2.对含有“简单”的句子(下称“样本语料”)进行分词标注。通过整体地观察语料,我们发现“简单”一词的极性判定需要依据上下文语境,即孤立地看“简单”这个词并不能判断其情感倾向性,另外,现在的情感倾向性分析系统中有相当一部分是基于词典和规则的方法,在撰写规则时普遍会用到词性、语义等信息,因此我们有必要对语料进行分词标注。我们使用CUCBst系统对样本语料进行分词标注。CUCBst系统是中国传媒大学开发的文本切分标注系统,该系统是一个基于规则的词法分析系统,整体准确率超过97%,长期应用于新闻语料的切分标注并取得了非常令人满意的效果。经过统计,样本语料中共有93,432个词,“简单/a”即“简单”作为形容词出现2,472次,“简简单单/aa”即“简单”的重叠形式出现12次,“简单化/v”即“简单”的动词变体出现24次。(在后续的统计分析当中,“简单化/v”将不包括在内。)
  3.义项标注。进行情感倾向性自动分析,需要标注好的训练语料。一个词往往有几个意义,每个不同的意义都可以看做是一个义项。本文在第六版《现代汉语词典》对“简单”一词的释义基础上,结合真实语料自身情况,对样本语料中的句子进行标注。
  4.倾向性标注。倾向性的判定需要较深层次的语义理解,而这一部分准备工作对机器来说是具有较高难度的,因此,我们需要对样本语料中“简单”的倾向性进行人工标注,褒义标为1,贬义标为-1,中性标为0。经过标注形成的标准集可以作为我们总结规律、制定规则的重要依据。
  5.句法成分标注。进行句法成分标注,对探索“简单”一词的情感倾向性的价值在于为其提供了另一个本体语言学的分析角度。我们可以做一个假设,即“简单”一词充当某一类句法成分可能与其情感倾向性有直接相关关系,当然这也需要后续的统计研究。
  二、统计结果及分析
  经过统计,在倾向性标注中,正向评价是最多的,占到了59.90%,负面评价较少,占到了25.60%;中性评价最少,占到了14.5%。在义项标注中,义项1,即“结构单纯;头绪少;容易理解、使用或处理”是最多的,占到了89.37%,义项2“(经历、能力等)平凡(多用于否定式)”和义项3(草率;不细致)都非常少,分别占到了2.42%和8.21%;在句法成分标注中,定语、谓语(中心语)最多,分别占到了35.75%和38.16%,状语较少,占到了23.19%,补语最少,占到了2.90%。
  (一)倾向性在不同义项中的分布情况。
  经过统计发现,义项1中各种倾向性分布相对均衡,而义项2与义项3中义项分布差异较大。有些词语单独来看不具有,或者不能确定其倾向性,但与特定词类或某些特殊词语组合后,就变得具有确定的倾向性。[2]因此,依据缺省原则,我们可以考察义项2和义项3的具体语料,来分析上下文语境,寻找规律编写规则。如以下几个句子:
  ①所以我想顾香兰也一样,她不会是个简单的人,人生经历越多就越不简单。
  ②在父亲去世前,我一直以为我的人生会很简单,找份工作结婚生子,建立属于自己的家庭。
  ③戴文胜:“优质校”不是简单复制
  ④刘强还透露,懋源地产在西三环推出的“台系”新品豪宅钓云台,并非是对红玺台的简单复制。
  ⑤中国社科院教授李顺德认为,需要从各个方面进行比较准确了解后,方能判断,不能简单凭借对比图就下结论。
  句①、句②中“简单”对应的是义项2:“(经历、能力等)平凡(多用于否定式)”,句子中的“简单”一般前后会出现“人生”“经历”“能力”“阅历”等词,所以我们可以编写如下规则:
  人生|经历|能力|阅历/% + #[*/!w] + 简单/% = #3:-0.5
  简单/% + #[*/!w] +人生|经历|能力|阅历/% = #1:-0.5
  这里对规则元符号进行简单说明:“=”连接规则项序列和匹配结果。“=”左部,“+”表示各规则项的连接,每一个规则项以“/”分隔词条和词性,“|”是析取符,表示“或”,“!”表示“非”,“*”表示任意词条,“%”表示任意词性,“#”表示越过任意规则项,其后的“[]”中表示越过的条件。“=”右部,“:”连接匹配项和倾向性分值,“#N”(N>0&NZ)为匹配项,表示规则左部对应位置的规则项。   句③、句④、句⑤中“简单”对应的是义项3:“草率;不细致”,句子中的“简单”上下文语境比较复杂,但比较肯定的是当其后出现“下结论” “做决定”“推断”“揣测”等词时,是一种负面评价,所以我们可以编写如下规则:
  简单/% + #0:3[*/!w] + */v + #0:3[*/!w] +结论|决定|决策/% = #1:-0.5
  简单/% + #[*/!w] + 推断|揣测/% = #1:-0.5
  (二)倾向性在不同句法成分中的分布情况。
  经过统计发现,“简单”一词的情感倾向性在不同句法成分中分布相对均衡,没有出现缺省情况,进一步考察语料发现从句法成分角度进行分析对我们编写规则暂时起不到什么帮助,但是我们还是了解到了“简单”在使用中的一些具体情况,例如:做定语、状语时无倾向性的比例较高,作谓语时正向评价比例较高,做补语的情况较少,评价分布也比较均衡。
  另外,通过再次分析语料,我们还是能够发现一系列规律,例如:前有否定词的情况下“简单”作为负面评价的比例高,前有程度副词的情况下“简单”作为正向评价的比例高。此外,还有一部分比较明确的语言规律我们也可以总结成如下规则:
  简单/% + #0:1 + 粗暴|幼稚|逻辑|说教|套用|思维/% = #1:-0.5
  头脑|逻辑|脑子|大脑|思维|思想|% + #0:3 + 简单/% = #3:-0.5
  简单/% + #0:1 + 方便|明了|生动|明快|清晰|好用|实用|灵便|朴素/% = #1:0.5
  三、结语
  语料库的方法具有很广泛的适用性和很高的实用价值,将这种方法应用于倾向性分析研究,可以有效提高研究的科学性和准确性。本文通过对“简单”一词的使用调查,得出了以下结论:
  1.性质形容词的使用具有多样化特征,在有些情况下可以作为评价词,但不能一概而论。2.单纯从语言本体的角度,如分析义项或者句法成分很难满足倾向分析的要求。3.基于词典和规则的方法具有一定的局限性。(1)规则的编写效率比较低,需要充分的语言学知识;(2)提高系统准确率要求增加规则,而规则的增多则会降低系统的运行速度;(3)深层语义或言外之意是很难用形式语言来描述的。
  另外,本文的研究也存在一些缺陷,如语料规模较小导致样本中涵盖的语言现象不够全面,人工标注语义、倾向性、句法信息存在一定的主观性。总之,语料库方法更广泛、更合理、更有效的运用以及倾向性分析研究的进一步发展任重而道远。
  参考文献:
  [1]周红照.基于句法语义的评价对象抽取与极性判定[D].北京:中国传媒大学,2014.
  [2]周红照,侯明午,颜彭莉,张叶青,侯敏,滕永林.语义特征在评价对象抽取与极性判定中的作用[J].北京大学学报(自然科学版),2014,50(1):93-99.
  作者简介:朱洪涛,中国传媒大学文学院语言学及应用语言学专业在读硕士研究生。
其他文献
2016年末到2017年初,《中国诗词大会》,《朗读者》,《见字如面》等一系列文化类节目的出现和热播,将前几年的真人秀娱乐综艺节目霸屏的模式改变,文化类节目也是好评如潮,收视
基于国内外文献对比研究表明,影响城乡居民收入差距的众多因素中,产业结构一直被视为最主要因素。本文即从产业结构对阿拉善盟城乡居民收入影响的角度,通过相关性研究,分析了1980
2015年12月13日,由乐视自制网剧《太子妃升职记》一播而红,随着网友一边吐槽该剧“有毒”,其播放量也与日俱增,居高不下。本文以《太子妃升职记》为例,通过剧中的相关信息,分析中国
微信公众平台正愈来愈广泛深入地影响着人们的生产生活,以微信公众平台为新载体的新闻传播也呈现出新的气象.与广播电视、报纸杂志等传统媒体相比,微信公众平台上的新闻标题
随着我国建筑行业的不断发展,促进了我国国民经济快速发展的同时,也使得行业竞争逐渐激烈。要想在激烈的市场竞争中取得更加平稳地发展,那么要就要加强对工程建筑质量的保证,而工
摘要:会话分析是语用学研究的重要组成部分。20世纪60年代,美国社会学家Sacks等人提出了话轮转换理论,他们认为人们的会话并不是字、词、句子杂乱无章的结合,而是受一定的规律支配的有规律的语言活动。而在这其中,话轮和话轮转换起到了非常关键的作用。本文通过对语料中话轮和话轮转换的分析,尝试着去揭示其内在的规律和交际技巧,从而帮助会话参与者取得更好的会话效果。  关键词:话轮;话轮转换;规律;交际技巧
灾难性事件的发生并不是以人的意志为转移的,世界上任何的国家都有可能发生灾难性事件.这就需要在发生灾难性事件时相关媒体能够更加及时、准确的对其进行报道,能够使读者准
摘要:2006年初,自由职业者胡戈对当时大热的电影《无极》进行恶搞,改编成短片《一个馒头引发的血案》,由此掀起了一股网络恶搞的热潮。“恶搞”所指对象不仅有对游戏、照片的移植、拼凑和修改,还表示人们用调侃、嘲讽或是游戏的心态对喜欢或不喜欢的作品进行解构的另类创作风格。[1]恶搞短片是网友个性的展现平台,是表达长期受压抑的个人思想和情绪的渠道。它不会被主流的精英价值观所束缚,因而更能真实地表现通俗的大
本文立足于我国出版业转型与变革的实际,分析了我国出版业市场化转型的现状,从规范现代企业制度、完善出版企业准入准出机制、加强政府宏观调控等方面提出了加快和完善出版业
少数民族新闻属于我国新闻的组成部分,随着中国新闻业的快速发展,以及国家对少数民族的重视,少数民族新闻事业也日益蓬勃发展.少数民族的自治区和自己的机关党报建立,推动着