信息时代的语言问题(代序)

来源 :第一届学生计算语言学研讨会 | 被引量 : 0次 | 上传用户:xie2372
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息化的飞跃发展在世界范围内形成了数字鸿沟,数字鸿沟带来了语言间更大的不公平,并威胁着许多语言的生存,我国的信息化正在快步追赶世界先进水平,这为汉语在信息化时代的生存与发展提供了良好的基础.
其他文献
从各种自然语言文本中获取知识是自然语言处理技术的重要应用.本文描述了从百科辞典文本中获取知识的探索性的研究工作,介绍了一个实验性的,限定范围的百科辞典知识获取系统.具体工作包括:利用分词工具进行初步的词条分类;在词条分类的基础上,对处理范围内的词条文本进行观察,以人工方式归纳其中目标知识的基于语义特征的模式规则;利用YACC工具对模式规则进行解释,进而抽取目标知识.文中给出了试验结果及分析.
Web网上海量信息急速膨胀使得有效定向采集相关信息检索成为网上信息查询一个日益重要的研究方向.本文提出一种基于用户兴趣模型的Web文本信息预测采集过滤方法.这种方法根据正反集文本过滤方法,设计出一种用户兴趣模型,并在对Web站点结构进行分析的基础之上,通过对网页的相关度的预测来控制信息的采集.在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约了网络资源.
本文是写作中的《HNC语料库语言学》之第一章略加修改而成,全面介绍了黄曾阳先生关于建设HNC语料库的设想,重点阐述了语料库建设必须接受语言学理论指导的思想.
用户兴趣建模是互联网个性化信息服务的关键技术.本文中,提出一种基于加权概念网络的用户兴趣建模方法.该方法利用动态学习算法,挖掘蕴含在用户反馈文档中的概念及其概念关系,建立加权概念网络的用户模型,从而捕捉和表述用户兴趣偏好.基于加权概念网络用户兴趣模型,提出了检索提问个性化理解,以及文档个性化重评价的实现方法.为了检验提出方法的建模性能,设计了信息过滤仿真试验.测试结果表明:加权概念网络有较好的用户
英语从句识别对于英语复合句的分析至关重要.本文基于Penn tree bank语料库,通过分析从句的组成规律,利用统计规则,通过分析从句的结构,从句在主句中的位置以及与主动词的关系来识别从句的左右边界,在识别的过程引入了关键词,并考虑到从句嵌套的问题.测试结果表明,句首的封闭测试精确率和召回率分别为91.06﹪和94.07﹪,开放测试精确率和召回率分别为82.13﹪和85.05﹪.
传统语言学将"被"字句大致分为两种结构:甲.NP+被+NP+VP;乙.NP+被+VP,并作了相应的语言特征分析.本文在这个分类的基础上,运用HNC理论的概念表述模式和句类知识对"被"及"被"字句进行再分析,认为在两种不同的结构中,"被"字都是语言逻辑概念,表述为101,即作用者语义块的标志符.但是从作用效应链来看,两种结构的"被"字句在表达上存在角度差异.甲类是从作用角度进行描述的,因此相关的句类
大规模的标注语料库是语料库语言学发展的重要基础.随着许多科学研究的进一步开展,我们对语料的加工质量提出了更高的要求.本文采用基于上下文搭配的规则和统计相结合的自动校验方法,对机器切分标注语料进行处理,并把自动校验过程中获取的信息,应用于语料库的构建,即采用滚动式的方法,建立大规模的、具有更高加工质量的标注语料库.
基于"概念"进行自然语言处理是近期的研究热点.本文在分析近几年概念的研究成果和经验基础上,从统计模型和概念词典两个方面对基于"概念"的自然语言处理进行了总结,并分析了现存的问题,以及未来研究的方向.作者提出对于"概念"的研究应重视其主观性的一面,并从"概念"自身的规定性出发,逐步规范"概念"在语言学中的定义,从而理清应用"概念"作为语言处理基本单元的处理思路."概念"作为语言表义(完整意义上的主义
机器翻译系统中,语言技术是居于核心地位的技术;谓语是句子结构的核心,动词又是谓语的主要形式,因此翻译系统中的动词的处理至关重要.本文依据汉藏翻译系统的需要,通过汉藏实际语料的对比分析,进行了汉藏动词的特点比较,就动词的分类、动词的时态及动词作句子各种成分时其形态的变化规律进行了深入的讨论,并提出了处理策略,为有效地提高系统的翻译质量提供了有益的方法和思路.
本文主要谈的是我们在进行一次人机对话实验过程中的实际做法和遇到的困难,以及采取的解决办法.在内容上详细介绍了这个实验模型的实现策略,在某些特定环节上提出了自己的观点.实验中对HL模型进行了开放测试,共实验了100个句子,正确率92﹪,结果基本上是令人满意的.