中文信息处理相关论文
采用被动标记特征辅助语义角色自动标注是语义关系标注的一种重要思路,但被动标记处理还面临诸多难题,最突出的就是非典型被动标记难......
6月20日,中国社会科学院语言研究所庆祝建所50周年,国家语委和部分高校、出版单位的语言学工作者100多人欢聚一堂,共同庆祝语言研究所......
<正>中国古代文学学科 国家首批博士点、山东省重点学科.现有博士生导师6人:袁世硕、龚克昌、张克礼、郭廷礼、董治安、马瑞芳.该......
北京语言大学张普教授于2018年3月1日在北京不幸病世,享年75岁。张普教授1961—1966年在北京大学中文系语言专业学习,毕业后曾在湖北......
[目的/意义]对近几年的人民日报语料中文分词结果进行统计和分析有利于总结新时代的中文语料在分词歧义方面的规律,提高分词效果,......
中文信息处理的众多应用领域,诸如机器翻译、自然语言理解等,都面临着一个同样的基础性问题,即分词问题.本文主要讨论了基于网格的......
论文研究具有汉语特征的通用信息检索平台,探索适应汉语特点的信息简化逻辑表达和交互方式,支持具有汉语特点的信息逻辑表达和复杂......
Lucene API是Apache Software Foundation提供的一个共享的软件开发类库,可以免费下载执行程序和源程序,Lucene完全由JAVA编写,支......
本文介绍了需求牵引的重要性;中文信息处理技术产业化需要突破;“产学研用”协作困惑;不成熟技术如何发挥效用;要善于利用政府支持和资......
本文现就中文信息处理对汉语基础研究的课题语言单位的界定;自然语言处理的要求,以及计算机学科与语言学科必须深入交叉融合进行介绍......
本文概括介绍了我国中文信息技术的发展历程及汉字输入技术、中文搜索引擎、汉语分词、中文平台的发展现状和发展状况,并对各种汉......
一国之文化.是国民生活经验和智慧之累积,其载体主要为文字,所以文化和文字,两者相互依存,谁也少不了谁.中国的汉字,承载着中国的......
在历时20年的自然语言处理与计算语言学的研究历程中,笔者注意到,中文信息处理学界尚未涉及自然语言中最美、最富想象力的文学语言......
本文阐述了自然语言处理的研究的重要意义,介绍了哈尔滨工业大学在自然语言处理领域的研究历史和研究现状,并综述了哈工大在该领域......
本文给出我们为建立国家标准《信息处理用现代汉语分词词表》而制订的规范(草案),目的是广泛征求意见,引起讨论,以期改善之.......
本文采取统计的方法获取农业病虫害词汇的词性搭配规则、语义类分布规则,并进一步利用这些规则在大规模语料中采用并列同现、模式......
词语相似度的计算是自然语言处理领域中的关键问题之一.本文引入了一类改进的知网系统词语相似度计算方法.新方法首先从特定的语料......
语音合成技术(Text To Speech)是中文信息处理领域的一项前沿技术.本文介绍了从采用参数合成方法到基音同步叠加,语音合成的研究运......
未登录词的识别一直是汉语分词研究的焦点和难点,本文通过对各类未登录词的用字频率及上下文进行了详细地分析,提出一种基于混合策......
本文在研发维文版办公套件过程中,分析了复杂文本处理方法,提出了多语种复杂文本处理面临的任务及其解决方法,从而能够为完善复杂......
近年来条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链(linear-chain)模型一般采用L-BFGS参数估计方法,收敛......
动词重叠现象是现代汉语中常见的语法现象,传统语言学界对它给予了足够的重视,但是以往的研究受方法手段所限,调查规模很小,我们要......
计算机的人名自动识别一直是个比较复杂的问题.见诸报道的多数是统计方法识别中文姓名.本文通过分析称谓语与人名的分布关系,拟在......
本文介绍了北京语言大学应用语言学研究所在大规模动态流通语料库构建上的一些经验、相关的研究动向和开发流程.目前DCC语料库已经......
"a+a"结构是一种例化后可能产生歧义的结构,本文在潜在歧义理论的基础上,重点分析其中两个动词的语义特性,并结合两个动词的语法......
修辞结构理论(RST)是对文本进行结构描写的一种方法.本文概叙RST近20年的理论发展和工程应用开发,并结合相关研究展望了中文文本处......
我们的汉语统计句法分析模型从3个方面融合丰富的语言特征知识:1)利用非递归名词短语界的相对确定性重新标注树库中的名词短语;2)......
单字地名简称识别是中文专名识别的重要组成部分,其中单字国名简称又占到了单字地名简称的78.43﹪.但就现有的词性标注系统来看,还不......
新词识别一直是中文信息处理所关心的话题.本文针对三字新词的构造特点,并以训练语料为例,着重分析了含词尾的三字新词在自动识别......
汉语词典查询是中文信息处理系统的重要基础部分,对系统效率有重要的影响.本文对汉语词典查询算法研究作了简要回顾,设计实现了基......
基于树库和机器学习的语言处理方法是自然语言处理领域中的一个研究热点。本文旨在探索利用语言学手段来提高句法分析精度的可能性......
经过二十多年来我国计算机技术人员、汉语言文字研究人员、以及众多的汉语言文字爱好者的艰苦努力,汉语言文字信息处理技术有了长......
Bakeoff是国际中文自动分词评测的品牌。它已分别在2003年日本和2005年韩国举办过两届。Bakeoff究竟给自动分词的传统理念带来什么......
基于WEB个性化服务的主要目的是根据用户访问过并且感兴趣的网页进行准确描述,以满足用户对针对性、可定制性、主动性、智能性服务......
由于藏文编码国家标准和国际标准发布较晚,并且基于国际标准小字符集编码实现藏文支持的技术相对复杂,藏文应用软件一般使用自定义......
目前,中文信息处理在字和词两个层面上的研究已经出现了一批较为成熟的实用技术。在此基础上,中文信息处理的研究应该上升到面向短语......
21世纪是信息社会,时代呼唤和要求我们讨论和创建新的教学模式和手段,更好地实现教学的现代化、数字化,发挥多媒体技术在教学中的作用......
随着互联网信息爆炸增长,搜索引擎已成为最重要的互联网应用之一,关系到社会信息处理水平与利用效率;当前绝大部分国家的搜索服务......
网络新闻已成为传播的主要媒体,本文描述了自动抽取新闻报道中提及事件的发生时间、地点以及结果的一种方法。实现了基于时间与地点......
全世界有十多亿人在用中文,中文是全世界第二大语言中文信息处理是一个很大的话题不仅很大,而且很多不同的方方面面,本文现基于海量......
自计算机发明以来,汉字集合的选择、组织形式、特别是汉字编码问题,曾长期困扰着中文信息科技的发展.直到八十年代初,正式确立的中......
元根码是为解决汉字和特殊字符的信息化书写问题,在发展了汉字编码理论的基础上开发的新一代汉字输入方法.元根码立足于汉字博大精......
本文首先阐明了为什么要开展适应中小学教学用的编码研究,较详细的说明适应中小学教学用的汉字编码的特点.强调汉字编码应符合国家......