基于网络文本的汉语多词表达抽取方法

来源 :山东大学学报(理学版) | 被引量 : 0次 | 上传用户:liongliong533
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多词表达(multiword expressions,MWEs)是自然语言中一类固定或半固定搭配的语言单元,特别在网络文本中,多词表达频繁出现,给分词和后续文本理解带来了巨大挑战,因此,面向网络文本提出了一种双层抽取策略来实现多词表达的识别。第一层次,利用基于左右熵联合增强互信息的算法来实现多词表达的初步抽取;第二层次,在第一层次获得的多词表达候选列表的基础上,利用SVM分类器,构建上下文和词向量特征,进行多词表达与非多词表达的分类,实现多词表达候选列表的进一步过滤。经过实验测试,在5 000条微博语料上,第一层次获得的多词表达的F值为84. 92%,第二层次多词表达识别的F值为89. 58%,相比于基线系统,性能有很大的提升。实验结果表明,双层抽取策略能够实现网络多词表达的有效抽取,并能有效改善分词结果。
其他文献
根据防潮包装要求和有关国家标准试验规范的基本原理,提出了一种运用湿度指示卡测定密封薄膜包装袋内在一定温湿度环境下保持一段时间后的湿度状况,从而定性判定包装袋透湿性
<正>2018年3月世界大事综述如下:一、特朗普宣布将对钢铁和铝产品进口全面征收关税。1日,美国总统特朗普宣布,将对进口的钢铁和铝产品分别征收25%和10%的高额关税。此举遭到
知识生产模式Ⅲ是在知识生产模式Ⅱ基础上演变而来的、由“产业-大学-政府-公民社会”四螺旋动力机制模型推动的新型知识生产方式,相比原有模式对知识体系和社会发展具有杠杆
多花山竹子是赣南重要的乡土阔叶树种和次生常绿阔叶林组成树种之一,从采种、育苗、移植及病虫害防治等方面分析阐述了多花山竹子育苗及移栽技术。
目的对FS9901型生物防护口罩的防护效果进行测试评价。方法采用国家标准测试方法对该口罩的滤材过滤效率、通气阻力、负载能力、口罩脸形密合度进行测试。结果该口罩的过滤效
重点对江苏省乡镇供电所辖区内综合变以下智能电能表与低压用电采集系统集中器进行简单介绍,阐述了其基本工作原理以及使用过程中遇到的一些常见故障及相关分析,同时列举乡镇
本文提出了一种节能型锅炉燃烧系统控制方法,所采用的控制方案,可使系统工作在较理想的燃料状态,达到充分燃烧,节约能源和保护环境的效果。
关键词:升降横移式立体车库 停车 节约用地$$   随着世界汽车工业的迅猛发展,城市汽车拥有量迅速增加,城市不同程度地出现了停车难的问题。立体车库与地下车库相比可更
会议
《教育部关于全面提高高等教育质量的若干意见》指出:把本科教学作为高校最基础、最根本的工作,领导精力、师资力量、资源配置、经费安排和工作评价都要体现以教学为中心。在