基于向量空间模型的无导词义消歧

来源 :第二届全国学生计算语言学研讨会 | 被引量 : 0次 | 上传用户:liyongdede
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词义消歧一直是自然语言理解中的一个关键问题,该问题解决的好坏直接影响到自然语言处理中诸多问题的解决.现在大部分的词义消歧方法都是在分词的基础上做的.借鉴前人的向量空间模型运用统计的方法,本文提出了不用直接分词而在术语抽取的基础上做消歧工作.在义项矩阵的计算中,采用改进的tf.idf.ig方法.在8个汉语高频多义次的测试中取得了平均准确率为84.52﹪的较好的效果,验证了该方法的有效性.
其他文献
修辞结构理论(RST)是对文本进行结构描写的一种方法.本文概叙RST近20年的理论发展和工程应用开发,并结合相关研究展望了中文文本处理中要面对的一些问题.
"a+a"结构是一种例化后可能产生歧义的结构,本文在潜在歧义理论的基础上,重点分析其中两个动词的语义特性,并结合两个动词的语法关系和上下文语境对汉语中的"a+a"结构做了比较全面的研究,目的在于找到这种结构产生歧义的原因和消解歧义的策略.希望本文能为自然语言计算机处理中歧义的自动消解提供一定的参考作用.
本文工作是在建设双语对齐语料库及其检索平台的背景下提出.本文基于汉英双语语料库,利用固定译词表,对中文译词做了X统计实验;通过对其结果的分析给出了汉英双语语料库检索平台内嵌的中文检索词对应译词的识别方法,在对35个词的测试中获得了97.1﹪的准确率.最后,本文对中文词组对应翻译作了探索,给出中文词组对应翻译识别算法,在小规模语料的测试中得到87.7﹪的准确率.
专名识别是中文自动分词的重要任务.本文分析了目前流行的基本语料库和统计语言模型(SLM)的专名识别方法中存在的问题,同时以人名识别为例,在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法.从我们对《人民日报》1998年1月、2000年12月(共约379万字)语料的开放测试结果来看,基于可信度的人名识别方法比SLM方法识别效果有较大的提高,同时比基于规则和知识库的分词系统具有更好的扩充性
本文介绍了北京语言大学应用语言学研究所在大规模动态流通语料库构建上的一些经验、相关的研究动向和开发流程.目前DCC语料库已经初具规模,在流行语研究、术语提取和字母词研究上都有很大进展,如何进一步提高利用率,为中文信息处理、对外汉语教学以及词典的辅助编撰提供资源和动力,将是我们今后努力的方向.
计算机的人名自动识别一直是个比较复杂的问题.见诸报道的多数是统计方法识别中文姓名.本文通过分析称谓语与人名的分布关系,拟在建立一个规则的姓名辨识系统,使计算机可以自动识别中外人名.
本文简要介绍了CTT软件,并介绍了利用它在简单的CFG形式化体系下做汉语自动句法分析的状况、存在问题、解决办法,提出了利用CTT开发智能的对外汉语教学软件的设想.
词义消歧在自然语言处理的许多应用领域都起着十分重要的作用.为了适用于大规模的词义消歧,提出了一种无导的学习方法.基于向量空间模型,结合机读词典和义类词典建立从义项到义类的映射关系,再利用义类知识在语料库中无导学习消歧特征,最后利用这些特性实现词义消歧.
双语词对齐是指在源、译文中找到词汇级的对译关系,是自然语言处理领域一个非常有用而又比较困难的研究课题,其中涉及词法、语法、语义以及不同语言间的固有差异和翻译习惯等诸多问题.本文在词法分析的基础上,利用有限的语言资源(主要只使用了一部双语词典),采取多级匹配和消歧算法,将词对齐问题转化为迭代求解锚点词对的过程,取得了较好的效果.经过对真实语料的测试,词对齐准确率达93.0﹪,召回率达77.3﹪,F值
本文描述了一种采取姓氏触发策略,基于最大熵模型的中文姓名识别方法.在识别过程中,首先对候选姓氏进行归类,然后对于多义候选姓氏,通过提取其上下文信息,利用最大熵模型来判断姓氏,最后识别出整个姓名,从而完成对中文姓名的识别过程.