【摘 要】
:
有指导词义消歧方法存在知识获取瓶颈问题,词义标注语料库的自动构建是减小此问题的最佳策略之一。现有词义自动标注技术还存在很多不足之处,而双语平行语料库的出现为此项研
论文部分内容阅读
有指导词义消歧方法存在知识获取瓶颈问题,词义标注语料库的自动构建是减小此问题的最佳策略之一。现有词义自动标注技术还存在很多不足之处,而双语平行语料库的出现为此项研究带来了新的前景。本文以较大规模汉英平行语料库为基础,综合已有的词对齐和语义相似度计算等技术,研究词义标注方法,以获得满足一定精度的汉语和英语词义标注语料,从而解决有指导的词义消歧方法训练语料匮乏问题。具体来说,本文在以下方面做了研究:首先,改进并实现了一种基于目标语译文集合的单语排歧算法。该方法在平行语料词对应的基础上,分别从汉英、英汉两个视角,统计出一种语言的词语在另一种语言中的对应翻译词集合,进而在目标语译文集合上利用HowNet或WordNet语义资源计算相似度进行词义标注。其次,研究了基于双语语义词典的汉英词义标注一体化方法。该方法引入了HowNet的双语语义词典特性,仅利用WordNet语义资源计算相似度,就可以同时完成汉语和英语的词义标注。该方法能够有效提高汉语和英语的标注精确率。最后,研究了双语语义词典和目标语译文集合相结合的方法。实验表明,该方法在不显著降低词义标注精确率的前提下,大幅提高了词义标注的覆盖率。并且在这种方法的过程中,客观上对HowNet和WordNet进行了资源融合,有效扩充了HowNet中词语定义DEF下的英语译文。汉英平行语料库的词义标注结果还为跨语言研究提供了方便,在译文选择、机器翻译和跨语言检索等自然语言处理领域具有较广泛的应用前景。
其他文献
近几年来,Peer-to-Peer(简称P2P)作为一种新型的网络应用模式以其可扩展性,高度容错性等突出优点变得越来越流行。P2P技术的主要特点在于充分利用分布在终端电脑上的网络资源
当今计算机局域网络(LAN)的数据传输网络控制协议不外乎总线竞争、令牌及轮询等方式,这些方式不是实时性不强就是传输能力有限,不适合对实时要求很高的数据传输,如语音及图像等
随着计算机网络的广泛而深入的应用,保护网络系统的安全与稳定已经成为一个刻不容缓的课题。大规模网络安全态势分析是掌握宏观网络安全状态的重要手段,对大规模报警日志的分
在大规模科学数据共享以及大型企业应用中存在海量的数据库。由于系统的定制性和历史原因,造成了这些数据库共享存在以下难题:封闭性、数据孤岛、缺乏规范和标准。中医药科技
随着信息技术和管理理论的发展,工作流技术正成为当今技术研究的一个热点。但目前因为不同的研究者、厂商使用不同的工作流的描述方法,造成了不同工作流产品之间不能进行互操
本文针对当前嵌入式系统普遍存在的内存瓶颈问题提出了一种解决方案。这个方案主要基于ARM微处理器实现,它使用实时操作系统对存储卡进行管理,并通过USB设备接口进行数据传输,实
起源于哲学的本体作为一种能在语义和知识层次上描述概念的建模工具,可有效地解决知识工程中知识共享和重用两大问题。近几年来,随着生命科学的快速发展,生物医学领域也出现
为贯彻落实好中央11号文件精神,积极研究制定配套财政政策支持我省企业改革与发展,进一步推动我省工业经济结构调整和产业升级,省政府建立了3亿元企业技术改造财政贴息资金,主要
随着表面组装技术(Surface Mounting Technology,SMT)向更高密度、更小尺寸、更复杂的印刷电路板(Print Circuit Board,PCB)混合技术的纵深发展,在电路板的装配过程中,作为电
随着指纹识别技术的不断成熟,其被广泛应用于各个领域,例如指纹考勤、指纹密码、甚至于各类考试中的身份识别。指纹识别技术应用的普及使得指纹识别的弱点也逐渐显露出来,很