汉语对应英语定语从句结构的一种自动翻译方法

来源 :中国中文信息学会 | 被引量 : 0次 | 上传用户：wudongjiang888

【摘要】

：

受到西方语言语法体系的影响，现代汉语中能够翻译成英语对应的从句的结构越来越多。但是因为汉语传统的语法结构与西方语言语法体系有着很大的不同，利用西方语言的句法分析方法对汉语句子进行语法分析始终无法达到令人满意的结果。句法分析效果不佳，就导致了像从句这类具有嵌套结构的句子翻译效果不会很好。本文尝试利用机器学习中的条件随机场方法先对这类从句结构进行识别，然后利用中心词转录机的方法进行基于依存关系的句法分

【作者】

：

王雷常宝宝俞士汶

【机构】

：

北京大学计算语言学教育部重点实验室北京大学英语系北京 100871 北京大学计算语言学教育部重

【出处】

：

中国中文信息学会

【发表日期】

：

2010年8期

【关键词】

：

汉语定语从句结构自动翻译

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

LDA主题驱动的中文多文档自动文摘方法

多文档自动文摘能够帮助人们自动、快速地获取信息，本文实现了一个基于主题模型的中文多文档自动文摘系统，其中主题模型采用浅层狄利赫雷分配(LatentDirichlet Allocation，LDA)，该模型是—个多层的产生式概率模型，能够检测文档中的主题分布。该方法使用LDA为多文档集合建模，通过计算句子在不同主题上的概率分布之间的相似度作为句子的重要度，并根据句子重要度进行文摘句的抽取。实验结果表

会议

中文自动文摘主题模型LDA多文档

特定主题概念关联的挖掘及其表示式的实现

本文提出了一种特定主题概念关联知识挖掘的方法。在实际特定主题的语料基础上，本文使用了信息增益的方法选取出主题关键词，并对关键词所对应的关联概念进行统计，结合对应关键词的重要程度值，赋予这些关联概念以权重值，从而根据权重值得到特定主题下的概念关联知识及其表达式。通过实验证明，该方法是有效的。

会议

概念关联主题关键词信息增益

基于概率潜在语义分析的词汇情感倾向判别

本文利用概率潜在语义分析，给出了两种用于判别词汇的情感倾向的方法。一种是使用概率潜在语义分析获得每个目标词和基准词之间的相似度矩阵，再利用投票法决定每个目标词的情感倾向;二是利用概率潜在语义分析对目标词进行语义聚类和扩展，自动找到每个目标词的同义词，然后采用基于同义词的词汇情感倾向判别方法对目标词的情感倾向做出判别。这两种方法的优点均在没有外部资源的条件下，可以实现情感倾向的判别。

会议

概率潜在语义分析数据稀疏语义聚类情感倾向

基于树核函数的中文语义角色标注研究

目前使用特征方法进行语义角色标注研究已经遇到发展瓶颈，性能难以进一步提高;而基于核函数的方法可以充分利用特征方法无法表示的结构化信息，有进一步研究的空间。本文使用SVM提供的卷积树核函数构造了—个中文语义角色标注系统，该系统以依存关系作为标注单元进行中文语义角色标注。本文重点描述了通过不同的裁剪方法来获得依存树的结构化信息，裁剪后的依存树分别为最短路径树和最小树。在中文ProDBank和NomBa

会议

语义角色标注树核依存关系

基于概率和句法分析的中文句子修剪

提出了一种中文句子修剪方法。引入噪音通道模型，经过改进，提出了更适合句子修剪任务的Bi—NC模型。引入无导的方法，解决了中文中缺乏原句-压缩句对齐语料的瓶颈问题。提出了一种自底向上的层级优化算法，避免在优化过程中删除最优修剪句，解决了长句处理时间过长的问题。实验结果表明，本文提出的中文句了修剪方法获得了较好的效果。

会议

句子修剪噪音通道模型句法分析中文句子修剪

“非常”、“特别”还是“相当”——基于语料库的用法计量研究

用语料库获得数据来观察近义词在使用方法上的区别从而发现它们的使用规律是一种有效方法。本文利用报纸语料库和有声媒体部分语料库，并通过自建玄幻小说语料库，对“非常”、“特别”和“相当”进行了定量考察，研究了各个词内部自身功能的使用概率、相同用法在语域上的分布、以及作近义词时相互之间的互换能力。

会议

语料库非常特别相当数据用法

基于标注语料库的现代汉语状元槽序研究

句义的核心内容由命题和情态两部分构成，格关系和槽关系是对命题的深入研究，副词、能愿动词等状元则是情态的一部分，目前中文信息处理领域还缺乏深入、系统的研究。本文在介绍前人研究成果的基础上，从“事件描述块句法语义标注语料库”中抽取了副词、能愿动词连用的句子929个，对现代汉语状元的槽序进行了深入的研究，共得出现代汉语状元槽序120种，其中两个槽类连用的共774个、52种，三个槽类连用的共145个、58

会议

状元槽序级位链

基于句子级的领域倾向词表构建

领域倾向性词典有助于提高文本倾向性挖掘的精度，是文本倾向性挖掘研究的一个热门话题。本文分析了文本级算法构建词表的局限性。提出了一种基于句子级的领域词表构建算法。该算法引入了拉普拉斯平滑计算相关性，并将文档词频和逆文档频率的概念扩展到句子级，最后采用IB算法来对候选词进行聚类。采用该方法对酒店领域的语料进行领域倾向性词表的构建，得到了准确率为71.55％的结果。

会议

倾向性检索领域倾向词表信息瓶颈算法

从语义关系的复杂性看语义词典建设

语义理解已经成为计算机处理自然语言的瓶颈问题计算机实现自然语言理解，离不开语义词典。虽然目前已经开发出来—部分语义词典，但是，从词汇语义学、句法语义学和篇章语义学来分析，这些语义词典并不能全面反映语义关系。在帮助计算机理解自然语言方面，我们必须综合语言学、计算机科学和认知科学，不断探索研究。

会议

语义关系语义词典语义学自然语言理解认知

基于流形排序的领域词抽取方法

领域词通常是由—个或多个领域部件词组成的短语，其领域性主要由部件词体现。由此，本文收集领域文本，将其中候选短语构建成短语网，并提出假设：具有相同部件词的领域词之间具有紧密的联系，互相推荐。在此假设下，本文利用领域词的内在联系，引入基于流形的半指导排序方法，标记少量领域词，通过短语网将领域性分数进行传播，从而计算出所有短语的领域性分数，选取高分的短语作为领域词。我们在4个领域上进行了实验，结果表明该

会议

领域词领域部件词流形排序半指导学习

汉语对应英语定语从句结构的一种自动翻译方法

与本文相关的学术论文