未登录词相关论文
自然语言处理(Natural Language Process,NLP)是一种让计算机尝试学会理解和处理人类口语或书面语的计算机技术。它与基于语言理解的......
神经机器翻译成为当前机器翻译的主流方向,在语料资源丰富的语言对上达到了极高的性能,但是在汉-缅这种低资源语言对上应用还不太......
日常生活中,人们的阅读量越来越多,但获取的有效信息却越来越少,这本质上源于信息过载。文本摘要技术可以帮助读者快速了解文章主......
命名实体识别任务的目的在于高效地从文本信息中抽取实体信息,是自然语言处理的基础性工作,但受制于数据中未登录词的影响,导致命......
当前,世界各国学者都十分重视自然语言处理的知识资源的建设,建立了许多带各种标注信息的语料库,以适应更为深入的语言研究和自然......
未登录词的识别一直是汉语分词研究的焦点和难点,本文通过对各类未登录词的用字频率及上下文进行了详细地分析,提出一种基于混合策......
简述了中文未登录词识别研究现状,结合中文生物医学领域词长分布和构词特点,提出以n-gram为基础,综合利用领域词典、语料和规则的......
在汉字的起源和发展过程中,一种类似计算机面向对象程序开发的面向对象思维对汉字构字产生了重要的影响。文章首先对汉字起源和现......
在互联网数据急剧扩张和深度学习技术高速发展的背景下,自动文本摘要任务作为自然语言处理领域的主要研究方向之一,其相关技术及应......
基于字词联合的中文命名实体识别模型能够兼顾字符级别与词语级别的信息,但受未登录词影响较大且在小规模数据集上存在训练不充分......
汉盲翻译是把汉字源文本自动翻译为对应的盲文文本,目前存在着多音字混淆、未登录词不能增加、不符合盲文分词连写规则等挑战。构......
产品属性抽取是产品意见挖掘的重要任务之一,直接影响着产品意见挖掘的性能.本文提出了一种基于语言依存分析和语料库统计相结合的......
语言学科“九五”重大课题启动———简介《信息处理用现代汉语词汇研究》本刊记者由国家语委承担的国家社科基金语言学科“九五”......
1.会议概况 由新加坡举办的中文电脑国际会议(International Conference on Chinese Computing,简称ICCC)起源于1986年8月。国立......
复杂的汉语分词系统中,各种信息的有效集成是系统实现的关键。本文介绍了分调系统SegTag中信息集成方法,并讨论了信息集成结构中的两......
通过对爆发词识别问题的研究和剖析,本文采用了基于条件随机场模型的方法进行爆发特征提取,在此基础上设计了频次、频率和词频文档......
本文探讨了地名的概念、构成等问题,并针对其分布特点,使用常见地名匹配、碎片分析和组合扩展相结合的方法初步识别了中文基本地名......
汉语词缀的显著特点是语义半虚半实、位置固定以及较高的能产性。词缀能够批量造就语言中急需的部分词语,造词规则较为明晰简单,符......
今年是上海XY语言学沙龙开始活动三十周年,听说上海要举办一个纪念性会议,感触很深。时间飞逝,不觉三十年过去了。这些年来其实我......
近年来,随着语义网、搜索引擎,信息检索的兴起,本体学习越来越多的被人们所提及,本文以维基百科为语料库,充分利用维基百科的机构......
随着经济全球化与互联网技术的飞速发展,跨语言的沟通以及信息传递成为学术前沿研究、企业持续发展的必要基础。因此,如何协助单语种......
随着科技的进步、社会的发展、全球化进程的加快和国际交流的日益频繁,消除不同语言的障碍也显得愈加重要。机器翻译作为解决这一问......
本文主要介绍了汉语分词中未登录词识别与词性标注方法。未登录词是影响汉语分词准确率的一个重要因素,未登录词包括人名、地名、时......
该文研究了自动分词和词性标注系统可以为短语识别、句法分析提供较好的基础,尤其为短语识别提供了较丰富的分词标注信息以及词频......
当前,随着Internet技术的推广和应用,国际互联网已经成为世界上最大的信息资源库和全球范围内传播信息的最主要的渠道.如何帮助用......
随着互联网科技的蓬勃发展,微博微信等即时通讯工具随之出现,由于其具有简单易用,传播迅速等特点,日益成为大众日常重要的沟通交流......
中文自动分词技术是网络搜索引擎的关键技术之一,是中文信息处理中的重要环节,也是智能计算、文献标引、自然语言理解和处理的基础。......
随着Internet的快速发展,Web信息的迅速增加,人们越来越依赖使用搜索引擎来获取互联网上有用的信息。中文未登录词的识别和歧义的消......
双语词汇的构建是自然语言处理领域一项很基础的工作。双语词汇的好坏直接影响到机器翻译、跨语言检索等自然语言处理系统的性能。......
关键词抽取是文本信息处理的重要技术,是在进行文本自动摘要、文本自动分类、主题提取及专利检索分析等文本信息理解工作时,都要应......
中文分词技术主要包含以下三个研究方向:理解分词,机械分词以及统计分词。基于理解的分词方法研究尚未成熟,所以,绝大部分中文分词......
作为中文信息处理的关键问题之一,汉语词法分析主要包括分词、词性标注和词义消歧三个子任务。虽然近年来汉语词法分析取得很大进......
中文分词是中文信息处理领域的一项基础性课题,未登录词识别问题又是中文分词的瓶颈问题之一。为了解决中文分词中的未登录词识别......
中文自动分词技术是中文信息处理的一个基础性课题,在中文信息处理中,首先需要对词进行切分,然后才能进行更深层次应用研究,随着信......
网络社区中产生的舆情信息包括大量文本、图片和视频等多种模态数据,其传播方式具有随意性、快速性、便捷性等特点,是社会舆论的聚......
本文在分析几种典型Internet搜索引擎的基础上,设计实现了一种面向Intranet的信息收集agent,着重阐述了WebIndex,一个基于IICA体系的Intranet搜索索引自动生成工具。该系统克服了......
动分词技术是计算语言学中的一个瓶颈问题,在刚刚做过的留学生汉语语料库词性标注工作中,我们也发现了许多关于自动分词的问题。围......
本文提出基于条件随机场(CRFs)的中文领域术语的自动抽取方法,在给定领域分类语料前提下,该方法不仅很好解决了未登录词中的领域术语抽......
针对专利文献的特点,本文提出了一种基于统计和规则相结合的多策略分词方法。该方法利用文献中潜在的切分标记,结合切分文本的上下文......
本文中比较详细地描述了维吾尔语数词词干提取所存在的问题,并对其进行了分析。提出了基于有限状态自动机和词典查询相结合的维吾尔......