基于Web语料的中英文词典生成方法研究

来源 :江苏科技大学 | 被引量 : 1次 | 上传用户:ZuoLuo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语翻译是跨语言文化交流的桥梁,双语词典是双语翻译的重要工具,也是外语学习研究的重要资源。由于词典编纂工作一直以来都是耗时耗力的大工程,加上中英两种语言发展速度较快,大量新词不断出现,双语词典的更新工作一直处于严重滞后状态,成为词典编纂人员面临的主要难题。本文以Web语料为数据源,从信息抽取、信息过滤、知识获取、知识验证等角度研究中英文翻译抽取工作,对中英文双语词典的自动编纂和中英文知识的自动获取工作起到了推动作用。本文的主要工作有以下几个方面:(1)研究中英文翻译抽取工作面临的主要问题与现状,分析当前翻译抽取工作中的不足,给出一种基于Web的中英文翻译抽取方法,并介绍抽取方法的基本思路与流程。(2)利用网页信息抓取技术,结合正则表达式的应用,实现从Web中大量获取含有中英文翻译的语料。在语料预处理环节,提出一种基于谓词表达式演变的语料过滤系统,通过制定语料过滤规则,实现语料的自动过滤,为后续的翻译精确提取奠定了基础。(3)根据中英文翻译在语料中的存在特点,给出基于形式和基于统计两种翻译提取思路,并在基于统计的翻译提取模型中,分别结合计算汉字出现概率变化率、汉字信息熵和词组凝聚度,提出三种翻译提取方法。此外,对于少部分不能用上述提取方法的待提取翻译,采用基于停用词的提取方法,保证翻译提取的召回率。(4)在翻译提取后,提出一种基于单词出现频率和编辑距离的英文单词拼写纠错方法。在纠错完成后,给出一种翻译优化与整合思路,通过对提取翻译进行分类、计算各类翻译准确率和数量,计算出各个翻译的可信度,最终按照翻译可信度高低的排序,整合所有最优翻译,自动生成中英文翻译词典。根据基于大量Web语料的实验表明,本文提出的基于Web语料的中英文词典生成方法可行性大,实用性强,能够大幅度的提高词典编纂效率。
其他文献
随着科学技术的飞速发展,遥感平台、传感器、遥感信息的处理、遥感应用都得到了长足的发展,特别是在遥感信息处理的全数字化、可视化、智能化和网络化方面有了很大的变化和创新,但是,仍不能满足广大用户的要求。日益丰富的遥感信息(光谱的、空间结构的)还没有被充分挖掘和处理。遥感信息的处理,特别是遥感数字图像的处理、遥感图像的判读,已成为遥感技术研究的核心问题之一。如何保证遥感图像判读的正确性,保证工作质量,这
随着计算机软硬件系统规模的日益复杂化,如何保证计算机系统的正确性和可靠性,逐渐成为当前理论界和产业界共同关心的重要问题。而当前限制计算机实际广泛应用的因素已经不再是
无线传感器网络(Wireless Sensor Networks,WSNs)是一种自组织、面向任务型的网络,由多个传感器节点组成。WSNs综合运用了分布式网络信息处理、嵌入式处理和无线通信等技术,通过传
随着集成电路工艺水平不断提高,芯片的集成度也日益增长,设计复杂度随着电路复杂度的增长也在提高。因此现在半导体技术中测试变得越来越重要。而且在高层次设计中就应该考虑测
运动目标检测作为许多机器视觉应用中的预处理环节,在诸如智能空间、视频监控等领域中都有着重要的应用。在运动目标检测中,运动目标是人们感兴趣的区域,称为前景;而需要忽略的非
随着全球网络信息化的发展,如何基于网络安全地进行信息通信,无论对于国家、政府还是对于企业和个人都极其重要。因此,作为信息安全领域的一项前沿技术,信息隐藏已经越来越受到人
传感器网络综合了传感器技术、嵌入式计算技术、分布式信息处理技术和无线通信技术。传感器网络易于部署,不需要事先确定传感器节点位置,可任意放置,部署维护成本低且具有较高的
Internet的高速发展导致了信息成数量级的增长。海量的信息在极大丰富人们的生活的同时,也给Internet的用户带来了很大的困扰。人们在面对泛滥的信息时无所适从,陷入了信息过
项目级现金流(Cash Flow)是指工程项目资金的流入和流出,贯穿于项目的每个活动,决定了项目的价值创造,而净现值(Net present Value,NPV)能全面反映调度过程中发生的现金流入和流
基于移动代理的入侵检测系统因其所具有的动态、灵活、自适应的系统结构以及良好的协同性和扩展性等优点使其成为入侵检测领域的一个研究热点。目前已经有许多实验性的基于移