基于粗糙集方法的共指消解

来源 :第十一届全国计算语言学学术会议 | 被引量 : 0次 | 上传用户:zjlong8888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
共指消解是指将多个命名实体指向现实世界中的同一实体,其目标是识别出文档中所有存在的共指关系。共指消解在自然语言处理任务中有着广泛的应用。选择合适的特征是共指消解任务中一个重要的组成部分.特征不是越多越好,反映本质的特征很重要;对于不同种类的语料,一个公共的特征集往往难以适应,为了提高特征对语料的针对性,对不同的语料应选择不同的特征.本文基于上述观点,采用粗糙集理论中的属性约简方法来解决共指消解的特征选择问题,它一方面能解决特征冗余问题,另一方面可以实现针对不同语料选择具有适应性的特征.论文在特征选择之后,利用基于粗糙集的LEM2规则提取算法学习规则构建分类器进行共指消解.在ACE-2003语料库上的实验说明了粗糙集方法对共指消解任务的有效性.
其他文献
科技竞赛是培养大学生创新能力的重要途径和手段,本文通过对交通工程专业参与科技竞赛的学生进行性别、年级、成绩和角色的统计分析,总结了参赛学生的基本特点,探讨了不同类型的学生对于科技竞赛的需求,分析了参赛学生与全体学生的毕业去向,提出科技竞赛对于提高学生的学习兴趣、培养学生的健全人格、提高学生的综合素质,具有积极的影响。
室内空气的相对温度、含湿量是衡量建筑环境的重要指标,是湿空气的主要状态参数,也是建筑环境与设备工程专业本科生应熟练掌握的基本参数.但目前绝大多数学生仅能通过露点温度计、湿球温度计或电子湿度计等测量装置,测量室内空气的相对湿度,而对于其测试原理不够清晰,从而忽视了室内空气的相对湿度、含湿量、湿球温度以及露点温度等参数之间的耦合关系。本文针对此问题,结合冷镜式光电露点测量原理,制作便于学生操作且维护简
城市规划对于一个城市的整体布局以及长期发展具有十分重要的作用,随着现代人们"环保、生态"理念的不断深入,人们对于城市的要求就是朝着环境友好型方向发展,也就是说他们希望能够在实际的城市规划过程中将"生态"、"环保"元素融入其中。本文主要攫取了城市规划之中的环境规划为研究对象,首先对目前我国城市发展过程中所面临的环境问题进行介绍,然后在城市环境日益恶化、生态日益破坏的情况下提出了在当前时期要加强城市环
语义分析是现代语言学和计算语言学领域最具挑战性的研究之一,也是当前制约语言信息技术大规模应用的主要瓶颈。语义分析的首要任务是确定要获取什么样的语义信息。本文引入特征结构的概念,旨在分析汉语复合名词短内部结构及其语义关系,探讨有效的汉语语义分析策略。复合名词短语的特征结构标注是基于特征结构表示的汉语大规模语义资源建设的一个子任务.本文探讨了在标注的过程中建立的最小关联原则、直接关联原则、语言关联原则
词素切分即视词根与附加成分为基本词素,自动识别词根的词性及意义、附加成分类型信息.基于词素的切分能有效处理歧义和未登录词,有效缓解数据稀疏问题,促进语言信息处理深层次发展.目前蒙古文信息处理还尚未进入词素切分层面.论文探讨了实现词素切分的理论和实践基础、面临的难题,认为:实现蒙古语的词素切分需要充分利用定性与定量,规则加统计的方法,先借助语言学的定性研究成果,建立信息处理用词根及附加成分词典,制订
语义相似度计算是自然语言处理领域的关键问题之一,在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用.本文将集成方法应用子基于大规模语料库的汉语语义相似度计算上,提出并实现了不同语域的集成方案.分别使用新闻语料和互联网语料,选取窗口大小为2或3的上下文词语特征、以上下文与目标词之间的互信息作为权值构建特征向量,计算向量之间的cosine夹角作为词语相似度,
为了更好地解决统计机器翻译中的调序问题,本文提出了基于句法信息、词性标注信息和规则相结合的源语言重排序模型作为统计机器翻译的预处理模块.该模型分为两种,一种是基于依存信息、词性标注信息和规则相结合的模型,另一种是基于短语结构信息、词性标注信息和规则相结合的模型.以汉蒙统计机器翻译做实验,结果显示经过该模型进行预处理后的统计机器翻译的BLEU评分比经典的短语翻译有较为明显地提高.实验结果表明这两种源
汉语词法分析是中文信息处理的基础,现阶段汉语词法分析的主流技术是基于统计的方法,这类方法的本质都是把词法分析过程看作序列数据标注问题.上下文是统计语言学中获取语言知识和解决自然语言处理中多种实际应用问题必须依靠的资源和基础.汉语词法分析时需要从上下文获取相关的语言知识,但上文和下文是否同样重要。为克服仅凭主观经验给出猜测结果的不足,对汉语词法分析的分词、词性标注、命名实体识别这三项子任务进行了深入
在当前基于信息库的语言教学的启发下,建立了《对外汉语新词教学信息库》.在《信息库》的基础上,对新词的语音、语法、语义、语用等语言信息和社会文化、心理认知等非语言信息进行了量化统计和数据分析,语言是个复杂的系统,从整体上说,语言系统的内部因素和语言系统的外部因素是一个相互依存的互动的过程,语言的社会属性和自身的系统性要求在看待语言发展时要树立全面的、动态的观点,试图将这些要素分开来说明新词在词汇系统
当前词类研究不仅要面向语言教学,更要面向机器的语言自动处理,由于机器对于语言知识内在逻辑性的严格要求以及实际应用任务的严格检验,都使得汉语现有词类体系和词类知识暴露出诸多问题,这些问题已经引起研究者的普遍关注。本文使用词性自动标注模型对影响英汉语词性标注的相关因素进行定量研究,进而探究词汇因素与语法因素各自对英汉语词性标注的影响,目的是为深入分析英汉语在词类问题上的差别,更好地构建汉语语料库提供参