训练语料相关硕士博士期刊学术论文

训练语料相关论文

基于有监督分类技术的文本自动摘要研究

本文研究了文本自动摘要中的分类思想并将有监督的分类技术应用于文本自动摘要中.其创新处在于将有训练语料支持的文本自动摘要转......

会议

文本自动摘要有监督分类训练语料分类器质心相似度问题相似度

基于K-means聚类与LSTM的词义消歧研究

中文包含很多多义词，结合不同的语境可以表达截然不同的意思。词义消歧的概念是针对计算机在自然语言处理领域中的应用提出来的。期......

学位

K-means聚类词义消歧标注语料聚类中心贝叶斯分类器训练语料自然语言处理计算机消歧方法模型特征过程

中文化学物质名称识别研究

在CRF模型下,进行单字标注和单元词标注的识别效果和识别效率的比较;实验结果表明,单字标注在付出更长运行时间的代价下,较单元词......

期刊

单元词化学物质单字标注条件随机场特征数量专有名词分词系统训练语料字串识别效率

基于条件随机场模型的复杂时间信息抽取研究

针对网络信息的时序性和多态性,提出基于条件随机场模型的复杂时间信息抽取研究模型,并通过实验验证该模型的可行性,选取词特征和......

期刊

随机场模型词性时序性条件随机场特征选择时间短语训练语料文本召回率序列化

针对学术定义的抽取规则构建方法研究

学术定义是学术研究中一种基础性的知识。科技文献中蕴含着丰富的定义,对定义进行自动抽取是知识抽取的一种应用。这些定义具有一......

期刊

学术定义知识抽取规则构建文本信息自然语言处理

基于语义网络的研究兴趣相似性度量方法

【目的】为准确识别研究内容相似但使用不同关键词的作者关系,解决传统共现分析方法缺乏语义关联的问题,提出一种基于关键词语义网......

期刊

相似性度量关键词语义相似度语义网络研究兴趣矩阵语言模型共现语义相关度训练语料语义关联

融合领域知识与深度学习的机器翻译领域自适应研究

【目的/意义】无论是统计机器翻译,还是神经机器翻译,训练数据通常来源复杂,主题多样,文体不一,与待翻译目标文本的领域不能保证完......

期刊

神经网络领域知识训练数据训练语料深度融合模型领域自适应翻译领域自适应方法标注方法模型框架

基于文本分类中特征提取的领域词语聚类

本文以领域特征明显的词和短语作为聚类对象,在分类系统的大规模语料库中,利用文本分类的特征提取方法进行词语的领域聚类,从而获......

期刊

文本特征提取聚类对象领域词语语料库领域知识短语分类系统训练语料权重计算

机器人不会完全取代翻译

机器真的可以通过“学习”来取代人类的工作吗?实际上,优秀的译文应该具有灵活性和创造性,寄望于通过“大数据统计”路线来推进机......

期刊

谷歌译文质量神经网络翻译水平言语行为自然语言处理语用知识数据统计 robot 训练语料

古今汉语平行语料库自动分词及标注工具的研究

中文词法分析是中文信息处理的重要基础，汉语是没有自然分割的连续文本，古代汉语更是没有任何边界标志，我们现在所看到的文言文中的标......

学位

古今汉语平行语料库自动分词训练语料分词标注马尔科夫模型中文信息处理

基于实例学习在浅层句法分析中的应用

机器学习技术在自然语言处理中的应用是一个研究热点。简单介绍并分析、评价了机器学习的方法之一--基于实例学习。就其在自然语言......

期刊

实例学习句法分析相似度比较机器学习自然语言处理浅层词性标注训练语料归纳偏置相似度计算

基于半监督学习的微博情感倾向性分析

微博情感倾向性分析通常指对中文微博中每个句子褒义、贬义或者中性的情感进行自动分类。针对微博碎片化和情感类别失衡的特点,在......

期刊

半监督学习 reserved 情感分析训练过度训练度阈值文本特征情感倾向训练语料文微评测结果

基于三元词组模式的微博情感分类方法

针对微博的倾向性分析问题,提出了一种基于三元词组模式的情感分类方法。该方法通过构造情感词典及微博的三元词组模式,对未标注语......

期刊

微博训练语料情感词自动标注分类器三元词组词典情感倾向程度副词模式匹配

现代汉语自动句法分析中“打”的语法功能消歧

汉语自动句法分析是当前计算语言学研究的一个热点,由于存在可利用的信息不足、汉语词性和汉语词的语法功能不存在一一对应的关系......

期刊

句法分析语法自动句法分析语法功能消歧词语搭配现代汉语计算语言学训练语料词性

学习者语法错误自动检查研究述评

对学习者英语中语法错误的自动检测是计算语言学研究领域的一个重要课题,其进一步研究既需要理论层面的发展,也需要研究方法上的突......

期刊

语法错误语法检查英语学习者句法分析计算语言学训练语料开放性词类 sentences 母语迁移实义词

一种基于句法的用于汉英翻译的预调序方法

本文提出一种基于句法的预调序方法来解决基于短语的汉英翻译系统中的调序问题.该方法使用训练语料的源语言句法树和词对齐信息来......

会议

句法树汉英翻译预调训练和测试序方法源语言翻译系统训练语料

应用概率LR文法分析器于语音识别系统

将概率ＬＲ文法分析器应用于语音识别系统中．模拟实验表明，系统使用该模型后识别性能优于使用二元文法模型的系统．其中，两种不同的拒收策略......

期刊

语音识别系统 LR 文法分析语言模型应用概率训练语料阈值系统系统识别系统性能识别性

语音识别后处理中的混合统计模型

将三元文法模型与词性模型组成一种新型的统计语言模型。分析和模拟实验表明：该混合模型不仅保持了前两种模型的长处，而且避免了它们......

期刊

语音识别混合模型统计模型训练语料词性模型三元文法模型语言模型模型组成测试文本加权系数

将词类信息融入三元文法统计模型的汉语音字转换方法

本文给出了一种将词类信息融入三元文法模型的汉语组合语言模型。理论分析和实验均表明:该模型不仅复杂度低于三元文法模型,而且对......

期刊

统计模型复杂度三元词类模型三元文法模型组合模型训练语料文本域汉语音稳健性测试文本

基于ARMA模型的汉语讲话者识别

实现了一个仅用鼻音声母且与文本无关的汉语讲话者识别系统，根据讲话者在讲话时鼻腔相对固定、发鼻音时咽腔稳定，以及汉语鼻音声母（只......

期刊

讲话者 ARMA模型鼻音声母识别系统模板库幅度谱咽腔距离测度起始点训练语料

基于主动学习与自学习的中文命名实体识别

　　命名实体识别是信息抽取中的一项基础性任务,如何利用丰富的未标注语料来提高实体识别的指标是该领域一个重要的研究方向。本......

会议

主动学习自学习中文命名实体识别未标注语料置信度函数研究方向训练语料

基于鉴别性向量空间模型的语种识别

传统语种识别中训练数据库的规模庞大,对于语种分类有鉴别性的信息大量重叠,且训练数据的不同信道条件、不同来源都会对训练和测试......

期刊

向量空间模型鉴别性训练数据语种识别信息重叠识别系统训练语料语音段美国国家标准识别器

基于KCCA的跨语言专利信息检索研究

研究了一种全新的基于KCCA算法的全自动跨语言信息检索方法,这种算法能通过学习双语训练语料来获得文献的语义表示(向量空间)。运......

会议

跨语言专利信息信息检索方法专利检索语义表示训练语料向量空间算法检索结果技术方法全自动过学习文献双语实验

蒙古文词语切分在自动词性标注中的应用

本文首先介绍了蒙古文附加成分的切分方法,然后描述了改进的蒙古文自动词性标注系统的总体结构,最后以规模为95万词的语料库作为训......

会议

蒙古文词语切分自动词性标注准确率测试文本总体结构训练语料附加成分语料库系统描述改进封闭方法

系统融合方法在汉蒙统计机器翻译上的应用

系统融合方法通过对多个机器翻译系统的结果进行融合来提高机器翻译性能。系统融合可以充分利用各种系统的优势信息。本文针对汉蒙......

会议

机器翻译系统融合方法统计机器翻译系统融合汉蒙机器翻译训练语料优势信息数据稀疏性能问题实验结果 BLEU

实际场景语料和FSN语料的平衡方法

本文研究了人机日常对话领域语料的生成方法, 这些语料将被用来训练连续语言识别器的语言模型。语料的来源主要有两部分：一部分是......

期刊

关键词概率语料扩展语言模型有限状态网络人机对话

面向机器翻译的中文机构地址切分方法

面向企业信息的机器翻译研究一直面临着特定领域标准语料不足，通用训练语料难以满足要求的尴尬局面。在专业训练语料不足的情况下，通......

会议

机器翻译中文机构地址翻译训练语料行切分企业信息匹配模型构成特点翻译研究翻译系统单元知识库完整性实验分词标准

基于HMM的文本信息抽取方法

传统的文本信息抽取方法有两种：知识工程方法和自动训练方法。前者需要对领域知识很熟悉的知识工程师的参与，而且需要大量的工作来发......

会议

HMM 文本信息抽取方法知识工程师训练语料自动训练方法知识工程方法信息抽取系统性能平滑技术领域知识规则方法半结构化优越性模式劣势

汉英统计翻译系统中未登录词的处理方法

在统计机器翻译系统的解码过程中,经常会出现训练语料中没有的"未登录词",这些词的出现严重地影响了解码器的速度和整个系统的性能......

会议

汉英统计机器翻译系统未登录词训练语料汉语同义词语义知识解码过程处理方法词义消歧源语言解码器性能实验能力解释程度

影响统计翻译系统性能的因素分析

统计翻译方法已经成为目前国际上机器翻译研究的主流方法,但对于一个统计翻译系统来说,哪些因素是影响系统性能的关键因素,它们对......

会议

统计翻译系统系统性能训练语料系统模型实验关键因素翻译方法翻译研究短语预处理选择文献特征机器调研

基于贝叶斯分类的汉字编码识别方法

本文提出了一种基于贝叶斯分类的汉字编码自动识别方法,该方法将被识别文本看成连续字节流,选取字节作为识别特征.首先在训练语料......

会议

贝叶斯分类汉字编码识别特征字节文本概率原则识别方法训练语料可扩展性分布概率准确率选取显示统计提取实验节流计算

基于NN-LSVM的日语依存关系解析

日语依存关系解析是基于日语依存文法,确定句子中各个文节间的依存关系.为提高解析精度,提出一种基于NN-LSVM对大规模训练语料进行......

会议

日语依存关系解析训练语料依存文法训练样本精度京都大学解析方法语料库解析器修剪分类测试

组合中文词义消歧

本文介绍了一种新的组合词义消歧法,该算法利用两种基本的分类算法构造了一个二级分类器.在Senseval3中文词汇样本任务的训练语料......

会议

组合分类器中文二级分类器训练语料算法性能算法利用算法构造词义消歧参数设置上下文鲁棒性样本选择评测词汇窗口

中文缩略语自动抽取初探

汉语中许多新生的词语都是短语的缩略形式.对缩略语的检测是未登录词识别的一部分,但用来作为训练语料的缩略语词典资源却很稀缺.......

语义分析在Internet文件分类和过滤中的应用

目前网上文件过滤多采用基于关键词匹配的文本分类技术,虽然简单,快捷,但效果并不理想.本文提出一种在关键词基础上,通过对训练语......

会议

语义分析文件分类过滤中分类方法文本关键词时空复杂度语义模板训练语料分类技术误判率词匹配算法实验理想基础构造

基于高斯混合模型移动因子补偿的说话人识别方法

提出一种模型补偿方法,以克服基于高斯混合模型的文本无关说话人识别系统性能随目标话者训练语料长度减小而下降的问题。该方法首......

期刊

说话人识别高斯混合模型训练语料自适应过程说话人因子表示文本高斯向量因子

汉语语音合成中说话人自适应的时长优化

在汉语语音合成中,音节内清音和浊音的时长是影响自然度的重要因素、并且与说话人关系较大的个性化特征之一。该文针对基于隐Marko......

期刊

说话人汉语语音合成清浊音自然度时长优化声学特征模型训练语音数据合成系统训练语料

利用小样本量机器学习实现学术文摘结构的自动识别

【目的】通过在小样本量下基于机器学习算法实现文摘语句的自动分类,以此实现学术文摘结构的自动识别。【方法】设计多种学术文摘......

期刊

自动识别学术文摘结构识别自动识别方法训练语料机器学习自然语言处理语句支持向量机文摘

加权信息论下的突发事件新闻主题抽取方法

新闻媒体是传递信息的重要途径,在突发事件发生后,人们往往希望能够通过新闻及时了解到突发事件产生的缘由以及后续发展情况。为了......

期刊

突发事件新闻抽取方法加权信息论信息论方法文本形式权重计算训练语料字串埃博拉病毒词集

话题跟踪技术的研究综述

话题跟踪技术旨在实现对新闻媒体信息流中已知话题的动态跟踪。对话题跟踪的研究意义、表示模型和关键技术进行了综述。 Topic tr......

期刊

话题跟踪表示模型跟踪技术关键技术决策树算法训练语料特征项最近邻分类器跟踪任务

基于层次化结构的语言模型单元集优化

对于大词汇量语音识别系统,适当选择基本单元至关重要。虽然以词为基本单元时避免了词边界的确定等复杂过程,但很多派生类结构中(......

期刊

单元集语言模型语音识别系统层次化结构维吾尔语自然语言处理派生类边界信息训练语料黏着性

基于GMM托肯配比相似度校正得分的说话人识别

该文提出一种基于Gauss混合模型(GMM)托肯配比相似度校正得分(GMM token ratio similarity based score regulation,GTRSR)的说话......

期刊

说话人识别 GMM 相似度得分校正 token 混合模型背景模型 similarity 识别框架训练语料

决策树结构对说话人自适应影响的研究

提出一种利用自适应语料和训练语料对模型状态结构调整的算法。该算法在易混淆的状态间参数共享,提高了模型对样本的后验概率和对......

期刊

决策树树结构说话人自适应 speaker adaptation 训练语料系统识别率状态算法模型结构调整后验概率参数共享利用率样本实验

基于DTW的俄语短指令语音识别

面向训练语料有限的语音识别任务,基于动态时间规整（dynamic time warping,DTW）算法对俄语语音进行识别。首先,以跨语言标注的语音语......

期刊

语音识别 DTW 端点检测短指语音段训练语料语音特点动态时间静态特征算法改进

基于隐Markov模型汉语词性自动标注的若干分析与改进

提出一种算法，用来高效地完成训练语料的大量工作，并解决好训练语料的扩充问题，然后基于Viterbi算法提出一些改进之策，结合训练语料工......

期刊

隐MARKOV模型词性标注 VITERBI算法训练语料测试语料 hidden Markov model part-of-speech tag Vite

一种受限玻尔兹曼机的词义消歧方法

摘要：针对汉语一词多义现象，根据上下文所蕴含的语言学知识，采用受限玻尔兹曼机（restricted boltzmann machine，RBM）来确定歧义词汇的真......

期刊

受限玻尔兹曼机消歧特征词义消歧训练语料 Restricted Boltzmann Machine disambiguation features word

基于隐Markov模型汉语词性自动标注的新算法

通过提出一种新的训练语料算法，结合训练语料在二元模型上采用正向与逆向双向扫描方法进行搜索，完成训练语料的扩充，并给出了对Viterb......

期刊

隐MARKOV模型词性标注 VITERBI算法训练语料测试语料 hidden Markov model part-of-speech tagging

一种基于Bootstrapping构建训练语料的方法

提出一种基于Bootstrapping算法构建训练语料的方法.该方法从自动标注的语料中随机选取部分语料,人工修正后生成种子集,用该种子集......

期刊

BOOTSTRAPPING 命名实体识别训练语料类语言模型

中文新词识别技术综述

新词识别是中文信息处理领域的关键技术。新词识别主要包括候选字串的提取过滤和词性猜测两项任务。中文没有特定符号标志词边界，因......

期刊

新词识别未登录词候选字串训练语料词性猜测

语言模型训练语料处理方法及解码词典的设计

语言模型是大词汇量连续语音识别系统的核心模块,其性能受建模所用训练语料的影响很大。本文基于自然语言处理技术,设计并实现了一......

会议

语言模型训练语料分词

看过本文同时还关注