汉日双语句子级对齐研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:jackydu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网的发展,在自然语言处理领域,以双语(或多语)平行语料库为基础的应用日益增多。除机器翻译方面的应用之外,平行语料库的建设对于双语词典编撰、词义消歧和跨语言信息检索也具有重要价值。   在平行语料库的加工中,研究不同级别的对齐技术是一个核心课题。平行语料的对齐不仅是通过平行语料库获取一些语言知识的必要前提,也是基于实例的机器翻译中实例库构建不可缺少的关键环节。   本文以东北大学自然语言处理实验室与日本富士施乐公司合作的《多层次文本对齐技术研究》项目为背景,探讨了如何从篇章级对齐的双语文本中自动获取句对齐资源。   针对汉语和日语的特点,本文在前人的基础上提出了一种新的句对齐处理技术,即基于组合线索和核心扩展方阵匹配的中日句对齐方法。该方法利用字典、字形、长度和特殊字符相结合的组合线索来计算句子相似度,并利用核心扩展方阵匹配实现中日句对齐。该方法在一定程度上解决了传统的基于长度的方法的错误蔓延问题,而且充分挖掘了中日双语之间潜在的联系,增强了相似度计算的可信度。实验表明,在中日句对齐任务中该方法取得了比较满意的结果。  
其他文献
随着机器翻译技术的不断发展,对完全句法分析质量的要求也越来越高。由于完全句法分析(full parsing)要确定句子所包含的全部句法信息,并确定句子中各成分之间的关系,这是一
随着电子商务等应用的日益增多,对Web数据库的访问逐渐成为获取信息的主要手段,而传统的数据库检索技术只能返回满足用户查询条件的结果,完全没有考虑到用户的偏好和兴趣,不
随着信息科技的发展,人脸识别技术正日益显示出其价值,因此受到了研究人员的广泛关注。目前,研究人员提出了各种有关人脸识别的方法,也取得了一定的成果。但是由于多种因素会
在无线局域网接入互联网环境下,无线链路固有的特征(如高误码率、RTT变化大、主机切换等)导致基于固定主机和有线网络设计的传统TCP在无线环境下有很大的局限性。其中一个主
水电仿真系统是一个大型综合的实时仿真系统。水电仿真系统根据特定仿真算法产生运行数据来模拟水电站运行。能够模拟水电站的各种工况,包括开机、停机以及并网之后的工作状态
分布式网络系统具有资源共享,通信便捷,实时控制,风险分散等优势,完全适应信息社会的发展趋势,具有广阔的应用前景。然而在分布式网络系统中,电子数据和信息能够被快速而广泛
随着互联网的发展,企业的实际应用中可能会遇到数据库分布在不同地点的情况,而且这些数据库存在着异构性,这样开发实际应用需要对这些分布式的异构数据进行有效集成。同时由
近年来,伴随盲源分离问题产生的独立分量分析(Independent Component Analysis,简称为ICA)理论已逐渐成为统计信号处理中的一个重要研究方向,并正在迅速成为多维数据分析的一
与传统的周期性汇报或基于查询的无线传感器网络不同,事件驱动型无线传感器网络只有在监测范围内的事件发生时才向Sink节点发送事件报警消息,无事件发生时只发送一些网络健康状
图论是组合数学领域的一个分支,20世纪60年代末,随着计算机技术的产生和发展,组合数学,特别是图论理论得到了人们越来越多的关注,时至今日,人们面对的计算模型以及数据结构仍然在变