训练语料相关论文
本文研究了文本自动摘要中的分类思想并将有监督的分类技术应用于文本自动摘要中.其创新处在于将有训练语料支持的文本自动摘要转......
中文包含很多多义词,结合不同的语境可以表达截然不同的意思。词义消歧的概念是针对计算机在自然语言处理领域中的应用提出来的。期......
在CRF模型下,进行单字标注和单元词标注的识别效果和识别效率的比较;实验结果表明,单字标注在付出更长运行时间的代价下,较单元词......
针对网络信息的时序性和多态性,提出基于条件随机场模型的复杂时间信息抽取研究模型,并通过实验验证该模型的可行性,选取词特征和......
【目的】为准确识别研究内容相似但使用不同关键词的作者关系,解决传统共现分析方法缺乏语义关联的问题,提出一种基于关键词语义网......
【目的/意义】无论是统计机器翻译,还是神经机器翻译,训练数据通常来源复杂,主题多样,文体不一,与待翻译目标文本的领域不能保证完......
本文以领域特征明显的词和短语作为聚类对象,在分类系统的大规模语料库中,利用文本分类的特征提取方法进行词语的领域聚类,从而获......
机器真的可以通过“学习”来取代人类的工作吗?实际上,优秀的译文应该具有灵活性和创造性,寄望于通过“大数据统计”路线来推进机......
机器学习技术在自然语言处理中的应用是一个研究热点。简单介绍并分析、评价了机器学习的方法之一--基于实例学习。就其在自然语言......
微博情感倾向性分析通常指对中文微博中每个句子褒义、贬义或者中性的情感进行自动分类。针对微博碎片化和情感类别失衡的特点,在......
针对微博的倾向性分析问题,提出了一种基于三元词组模式的情感分类方法。该方法通过构造情感词典及微博的三元词组模式,对未标注语......
汉语自动句法分析是当前计算语言学研究的一个热点,由于存在可利用的信息不足、汉语词性和汉语词的语法功能不存在一一对应的关系......
本文提出一种基于句法的预调序方法来解决基于短语的汉英翻译系统中的调序问题.该方法使用训练语料的源语言句法树和词对齐信息来......
将概率LR文法分析器应用于语音识别系统中.模拟实验表明,系统使用该模型后识别性能优于使用二元文法模型的系统.其中,两种不同的拒收策略......
将三元文法模型与词性模型组成一种新型的统计语言模型。分析和模拟实验表明:该混合模型不仅保持了前两种模型的长处,而且避免了它们......
本文给出了一种将词类信息融入三元文法模型的汉语组合语言模型。理论分析和实验均表明:该模型不仅复杂度低于三元文法模型,而且对......
命名实体识别是信息抽取中的一项基础性任务,如何利用丰富的未标注语料来提高实体识别的指标是该领域一个重要的研究方向。本......
传统语种识别中训练数据库的规模庞大,对于语种分类有鉴别性的信息大量重叠,且训练数据的不同信道条件、不同来源都会对训练和测试......
研究了一种全新的基于KCCA算法的全自动跨语言信息检索方法,这种算法能通过学习双语训练语料来获得文献的语义表示(向量空间)。运......
本文首先介绍了蒙古文附加成分的切分方法,然后描述了改进的蒙古文自动词性标注系统的总体结构,最后以规模为95万词的语料库作为训......
本文研究了人机日常对话领域语料的生成方法, 这些语料将被用来训练连续语言识别器的语言模型。语料的来源主要有两部分: 一部分是......
面向企业信息的机器翻译研究一直面临着特定领域标准语料不足,通用训练语料难以满足要求的尴尬局面。在专业训练语料不足的情况下,通......
传统的文本信息抽取方法有两种:知识工程方法和自动训练方法。前者需要对领域知识很熟悉的知识工程师的参与,而且需要大量的工作来发......
在统计机器翻译系统的解码过程中,经常会出现训练语料中没有的"未登录词",这些词的出现严重地影响了解码器的速度和整个系统的性能......
本文提出了一种基于贝叶斯分类的汉字编码自动识别方法,该方法将被识别文本看成连续字节流,选取字节作为识别特征.首先在训练语料......
日语依存关系解析是基于日语依存文法,确定句子中各个文节间的依存关系.为提高解析精度,提出一种基于NN-LSVM对大规模训练语料进行......
本文介绍了一种新的组合词义消歧法,该算法利用两种基本的分类算法构造了一个二级分类器.在Senseval3中文词汇样本任务的训练语料......
汉语中许多新生的词语都是短语的缩略形式.对缩略语的检测是未登录词识别的一部分,但用来作为训练语料的缩略语词典资源却很稀缺.......
提出一种模型补偿方法,以克服基于高斯混合模型的文本无关说话人识别系统性能随目标话者训练语料长度减小而下降的问题。该方法首......
在汉语语音合成中,音节内清音和浊音的时长是影响自然度的重要因素、并且与说话人关系较大的个性化特征之一。该文针对基于隐Marko......
【目的】通过在小样本量下基于机器学习算法实现文摘语句的自动分类,以此实现学术文摘结构的自动识别。【方法】设计多种学术文摘......
新闻媒体是传递信息的重要途径,在突发事件发生后,人们往往希望能够通过新闻及时了解到突发事件产生的缘由以及后续发展情况。为了......
对于大词汇量语音识别系统,适当选择基本单元至关重要。虽然以词为基本单元时避免了词边界的确定等复杂过程,但很多派生类结构中(......
该文提出一种基于Gauss混合模型(GMM)托肯配比相似度校正得分(GMM token ratio similarity based score regulation,GTRSR)的说话......
提出一种利用自适应语料和训练语料对模型状态结构调整的算法。该算法在易混淆的状态间参数共享,提高了模型对样本的后验概率和对......
面向训练语料有限的语音识别任务,基于动态时间规整(dynamic time warping,DTW)算法对俄语语音进行识别。首先,以跨语言标注的语音语......
提出一种算法,用来高效地完成训练语料的大量工作,并解决好训练语料的扩充问题,然后基于Viterbi算法提出一些改进之策,结合训练语料工......
摘 要:针对汉语一词多义现象,根据上下文所蕴含的语言学知识,采用受限玻尔兹曼机(restricted boltzmann machine,RBM)来确定歧义词汇的真......
通过提出一种新的训练语料算法,结合训练语料在二元模型上采用正向与逆向双向扫描方法进行搜索,完成训练语料的扩充,并给出了对Viterb......
提出一种基于Bootstrapping算法构建训练语料的方法.该方法从自动标注的语料中随机选取部分语料,人工修正后生成种子集,用该种子集......
新词识别是中文信息处理领域的关键技术。新词识别主要包括候选字串的提取过滤和词性猜测两项任务。中文没有特定符号标志词边界,因......
语言模型是大词汇量连续语音识别系统的核心模块,其性能受建模所用训练语料的影响很大。本文基于自然语言处理技术,设计并实现了一......