基于汉英机器翻译的名词回指分析——句组研究之二

来源 :全国第七届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户:shining321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
回指是语篇衔接的重要手段,其中名词回指对机器翻译会产生一定的影响.本文在详细分析各类名词回指的基础上,指出其中三类对机器翻译造成的障碍,并提出在句组层面上解决这些问题的算法.
其他文献
词义消歧是自然语言处理中的一个难点和热点问题.现阶段,多义词消歧的研究大多采用几个有代表性的歧义词作为研究与测试的对象,与实际应用还存在一定的距离,作者针对真实的应用情况,对大规模广西进行了词义消歧研究.本文比较了两个经典的统计模型解决大规模的词义消歧难题的优缺点,一阶隐马尔可夫模型考察了邻接的上下文,有些时候距离歧义词较远的词语往往对词义的确定起着至关重要的作用,所以这种方法的消歧正确率比较低,
时间短语是指描述时间概念的短语.在HNC理论中,时间概念大致可分为三种类型:基本时间概念,物化的时间概念,人化的时间概念.并依据语义将时间短语分为四种基本类型:特定时间短语,特殊时间短语,时间的序短语,时间间隔短语.本文给出了各个类型的构成模式,探讨了时间短语的处理策略.
本文介绍了HNC理论所定义的体词、动词及体词的动词兼类现象,分别从特征语义块的复合构成、对仗性组合、"的"字否定和某些特殊类概念等方面给出了消除体词的动词兼类的一些规则,最后给出使用这些规则的总策略和实验所得的数据.
本文给出我们为建立国家标准《信息处理用现代汉语分词词表》而制订的规范(草案),目的是广泛征求意见,引起讨论,以期改善之.
本文着重介绍了我们根据研制藏汉机器翻译系统的实际需要,在采用传统语法对藏语动词的已有分类基础上,采纳格语法和配价理论的合理思想,结合藏语的格接续特征,通过每个动词的配价信息以及所能携带的相应的格助词类型(格标)及其数量来对藏语动词进行再分类,从而形成一个集语法语义为一体的藏语动词再分类框架.
文章以内涵逻辑理论为指导,吸取训诂学精华,通过提取词的抽象类义来把握词的语义结构,以达到使汉语语义分析和解释形式化的目的.文章首先分析了未登陆词语义的求解困难,由此提出运用抽象类义求解复合词义的策略,论述了抽象类义的原则、操作方法.最后通过词语"关"验证了由抽象类义求组合义的模式.
20世纪60年代中期,由前苏联学者伊戈尔·梅里丘克等创立的《意思←→文本》模型是一种研究意思及其表达形式(文本)之间双向对应关系的语言学理论,其目标是模拟人的语言能力—文本的生成与理解机制,其基本思想成为随后兴起的莫斯科语义学派的方法论纲领.近年来,该模型受到国际学术界的广泛关注,并成功地应用于词典编纂和机器翻译设计.在本文我们将着重介绍该模型的理论框架及其主要构件,这对于我国计算语言学的基础研究
动词的语义框架研究是汉语信息处理研究中的一个热点.论旨网格和HNC(概念层次网络)理论的句类都是对句子语义框架研究的有益尝试.本文就论旨角色与HNC理论中的语义块,论旨网格描述的主要信息论旨模式(格框架)与HNC句类的分类标准等问题,进行了建设性的比较分析.
中国手写地址识别是一个具有广泛应用场合的大类别识别问题,针对这一问题,本文给出了一种新的基于中国地址知识模型的识别方法.方法中强调中国地址固有的树状分层结构信息,通过抽取较少的关键字和词语的整体识别,避免了传统识别方法中单字分割所带来的分割误差,体现出较高的分类性能,对一般书写的地址字符串识别率达到93.80%,单个字符的识别率达到96.45%.
TREC是信息检索领域最重要的国际评测会议,自适应信息过滤是TREC的关键任务之一.自适应阈值调整中评测指标的优化是自适应过滤任务中非常重要的研究方向.我们借鉴优化学习的思想,以TREC的评测指标为目标函数,提出了针对全程和局部效用指标进行优化的阈值调整方法,并对两种方法的优缺点进行了比较分析.实验表明,我们提出的局部效用指标优化方法是非常有效的,在TREC-10和TREC-11过滤任务评测中取得