基于语料库的我国职业性别无意识偏见共时历时研究

来源 :第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 | 被引量 : 0次 | 上传用户：runqiusheng

【摘要】

：

【作者】

：

朱述承刘鹏远苏祺

【机构】

：

北京语言大学信息科学学院,北京市 100083 北京大学外国语学院,北京市 100871;北京大学

【出处】

：

第十八届中国计算语言学大会暨中国中文信息学会2019学术年会

【发表日期】

：

2019年8期

【关键词】

：

职业环境性别倾向无意识偏见语料库

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

性别偏见是社会学研究的热点.近年来,机器学习算法从数据中学到偏见使之得到更广泛的关注,但目前尚无基于语料库的方法对文本数据中职业性别偏见的研究.该文基于标记理论,利用BCC和DCC语料库,从共时和历时两个层面考察了63个职业的性别无意识偏见现象.首先,以调查问卷的形式调研了不同性别和不同年龄段的人群对63个职业的性别倾向,发现和BCC语料库中多领域的职业性别偏见度呈显著的正相关.然后从共时的角度,利用BCC语料库中不同领域的语料,以及DCC语料库中2018年全国31个省级行政单位(不含港澳台地区)的报纸语料,发现从口语至书面语语体,大部分职业表现出对女性的性别偏见逐渐升高,且不同地区对职业的性别偏见存在着差异.最后,从历时的角度,利用DCC语料库2005至2018年的报纸语料进行统计分析,发现职业性别无意识偏见现象随着时间的推移,呈现总体弱化趋势.

其他文献

基于稳健词素序列和LSTM的维吾尔短文本分类研究

本文讨论了基于Word2vec和长短期记忆(LSTM)网络的维吾尔短文本分类技术.使用基于词-词素平行语料的稳健词素切分和词干提取方法,从噪声文本中提取词干后分别建立词和词干集合,并通过word2vec工具映射到实数向量空间.然后采用LSTM网络作为特征选择和文本分类算法进行维吾尔短文本分类实验.结果显示,在基于词干向量的分类实验中得到95.48％的分类准确度.从实验结果看,对于派生类语言而言,特

会议

维吾尔语短文本分类稳健词素序列LSTM网络

基于深度学习的主题对齐模型研究

在主题深度表示学习的基础上,本文提出了一种融合双语词嵌入的主题对齐模型(Topic Alignment Model,TAM),通过双语词嵌入扩充语义对齐词汇词典,在传统双语主题模型基础上设计辅助分布用于改进不同词分布的语义共享,以此改善跨语言和跨领域情境下的主题对齐效果;提出了两种新的指标,即双语主题相似度(Bilingual Topic Similarity,BTS)和双语对齐相似度(Bilin

会议

跨语言主题对齐跨领域主题对齐深度学习双语词嵌入知识对齐

汉语谐音与语义双关语的认知神经加工差异--ERP证据

本研究运用事件相关电位技术,观测汉语谐音双关语与语义双关语两者是否存在认知神经加工上的差异.结果发现,语义双关语的正确率明显低于谐音双关语以及不符合逻辑语篇的正确率.谐音双关语组、语义双关语组和不合逻辑语篇引发的脑电波数据在300-900ms之间存在显著差异.其中,谐音双关语和不合逻辑语篇都引发了N400效应.脑电波形图和脑电波地形图显示,前者引发的N400效应略微晚于后者引发的N400效应,但数

会议

汉语谐音双关语语义双关语认知神经加工

中文症状知识库的建立与分析

构建大规模的知识库是人工智能、自然语言理解等领域的基础任务之一.症状作为描述病人的主观感受和诊断疾病的重要依据,更是优化智能导诊,医学问答等任务的重要因素.本文在现有的医学症状知识库研究的基础上,结合症状的概念、特征及在医学诊断中发挥的作用,构建了一个公开的中文症状知识库.该知识库从症状的本体分类、相关疾病、发作部位及多发人群等层面对相关属性进行了详细描述,涵盖了8772种症状共计146631条属

会议

医学症状中文知识库属性描述

面向儿科疾病的实体及实体关系标注语料库构建

针对当前医学语料库涵盖实体分类以及实体关系难以满足精准医学发展需求的问题,本文从儿科疾病入手,参考现有的医学命名实体和实体关系标注体系,在医学领域专家的指导下,制定了适合儿科学的命名实体和实体关系的标注体系及详细标注规范;利用自行开发的标注工具,在采用机器学习进行预标注实体及实体关系后;以标注规范为指导,进行多轮人工标注,完成了298余万字的儿科医学文本中的实体及关系进行标注,形成了面向儿科疾病的

会议

儿科疾病命名实体实体关系标注体系语料库

融合图像注意力的多模机器翻译模型

多模机器翻译近年来成为研究热点之一.已有工作表明,融入图像视觉语义信息可以提升文本机器翻译模型的效果,已有工作多数将图片的整体视觉语义信息融入到翻译模型,而图片中可能包含不同的语义对象,并且这些不同的局部语义对象对解码端单词的预测具有不同程度的影响和作用.基于此,本文提出一种融合图像注意力的多模机器翻译模型,将图片中的全局语义和不同部分的局部语义信息与源语言文本的交互信息作为图像注意力融合到文本注

会议

多模机器翻译图像注意力全局语义局部语义

基于大规模语料库的介词结构搭配库构建

语言知识驱动计算机正确地处理自然语言,介词结构知识对自然语言处理和语言教学研究有很重要的意义.本文基于大规模语料库构建了高质量的介词结构搭配库.首先在前人研究的基础上对介词进行归类并建立了介词搭配知识体系,而后设计并实现了从大数据中获取介词结构搭配知识的规则,最后对抽取结果及其数据规模进行了统计和评估.主要目的是通过形式手段获取高质量的介词结构搭配,同时也为自然语言处理和语言学基础及应用研究提供数

会议

介词结构搭配语料库知识抽取

语言知识驱动的词嵌入向量的可解释性研究

神经网络语言模型应用广泛但可解释性较弱,其可解释性的一个重要而直接的方面表现为词嵌入向量的维度取值和语法语义等语言特征的关联状况.先前的可解释性工作集中于对语料库训得的词向量进行知识注入,以及基于训练和任务的算法性能分析,对词嵌入向量和语言特征之间的关联缺乏直接的验证和探讨.该文应用基于语言知识库上的伪语料法,通过控制注入语义特征,并对得到的词向量进行分析后取得了一些存在性的基础性结论:语义特征可

会议

语言知识库可解释性词嵌入向量语义特征

Modeling the Long-term Post History for Personalized Hashtag Recommendation

Hashtag recommendation aims to recommend hashtags when social media users show the intention to insert a hashtag by typing in the hashtag symbol “#” while writing a microblog.Previous methods usually

会议

Hashtag recommendationLong-term post historyNeural memory network

Improving Relation Extraction with Relation-Based Gated Convolutional Selector

Distant supervision is an effective way to collect large-scale training data for relation extraction.To better solve the wrong labeling problem accompanied by distant supervision,some methods have bee

会议

基于语料库的我国职业性别无意识偏见共时历时研究

与本文相关的学术论文