新词发现相关论文
针对现有舆情监测系统对于未登录词的钝化问题,构建了一个基于BERT模型(bidirectional encoder representation from transformers,......
深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟......
不同于英语等语种,中文词语之间没有明显的分隔符,这对于中文的理解造成了一定的困难。为了便于计算机对中文的理解,需要将中文文......
新词的有效识别是文本预处理过程中一项非常重要的任务,关系到分词效果的好坏.针对传统新词发现方法未考虑单字新词的识别,且忽略......
文本数据的分词及单词向量化,是目前大多数中文自然语言处理任务的必要任务。词汇是最小的能够独立运用的语义单位,能够表达基础的......
随着信息时代的到来,规模庞大的信息不断在网络环境下产生。这样大规模、跨领域的信息包含在新产生的文本、图像、视频当中。面对......
随着数字人文的发展,利用计算机对人文学科进行辅助研究已经逐渐成为一种趋势。而古汉语领域,诗词曲赋、散文、戏曲、小说等文学作......
新词指的是在词典中不曾存在,但现在被人们广泛使用的词语。随着互联网的飞速发展,大量新词也随之涌现。这些新词的出现给诸多自然......
本文提出一个基于字分析单元的辅助阅读和学习系统.该系统是为汉语学习者提供即时的辅助翻译和学习功能.在汉语网页中,该系统首先......
新词发现,作为自然语言处理的基本任务,是用计算方法研究中国古代文学必不可少的一步.该文提出一种基于古文语料的新词识别方法,称......
对于中文文本的分词研究来说,现有的分词方法和技术较多都是针对现代汉语,现代汉语的分词方法和体系已经很成熟,但对古代汉语的研......
在信息多元化时代,社会生活中的热点事件层出不穷,随之而来的是新概念、新词语的大量出现。新词发现是自然语言处理领域的核心问题之......
词语处理技术是基于词一级中文信息处理应用的重要基础,也是中文信息处理技术的瓶颈。词语处理首先需要解决的是词语切分问题。目前......
名实体及新词是能够准确反映文本内容的基本信息元素,是正确理解文本的基础。名实体识别及新词发现技术广泛应用于诸多自然语言处......
中文分词是中文自然语言处理的基础性任务,分词的准确性直接影响到后续处理任务,分词的速度影响到后续的直接应用。成功的分词方法......
数字智能网络时代下大量文化数字化资源被汇聚,急需新手段新方法对文化资源进行有效合理的组织与管理。目前文化领域已经积累了大......
随着网络技术的普及、网络文化的多元化发展以及我国网民的日益增多,社交媒体工具成为人们日常生活必不可少的交流媒介,社交媒体文......
随着移动互联网时代的到来,微博等社交媒体平台异军突起,其连接的用户数以及用户产生的数据呈现出爆发式增长,由此而促成了社交媒......
随着社交媒体网站的发展,微博成了用户自由表达观点和情感的聚集地。如何从海量微博中分析用户情感成为一项十分有意义的研究工作......
随着近些年来网络上Web服务数量的爆发增长,如何从海量的服务里匹配到最佳的服务从而达到Web服务复用和Web服务组合的目的,成为了......
本研究提出了一种基于二元背景模型的新词发现方法。采用前、背景语料二元似然比挑选候选二元组(bigram);然后根据频率、刚性、条......
复合词发现是新词发现的难点。本文在分析了单个汉字的构词能力和构词模式的基础上,提出了基于词的构词能力和构词模式公式,并以此......
在互联网技术和移动应用飞速发展的环境下,网络文本的信息量正与日俱增。微博作为一种开放式的互联网社交平台,由于其使用便捷、用......
近年来,随着中文地位的提高,自然语言处理中的中文处理技术也变的越来越多重要。中文自动分词作为中文处理技术的核心基础更是得到众......
现有分词系统不能及时收录新词语,因而不能有效识别领域组合词。针对此问题,提出一种位置标签与词性相结合的组合词抽取方法。首先对......
随着微博等社交网络的普及,新词源源不断涌现,分词系统经常将新词错误切分为单字.新词发现已经成为中文自然语言处理领域的研究热......
当前对新词发现、情感词极性标注与情感词库构建的研究比较多,却少有一个专门针对新情感词识别的方法。提出一种基于OC-SVM的新情......
现有分词系统不能及时收录新词语,因而不能有效识别领域组合词。针对此问题,提出一种位置标签与词性相结合的组合词抽取方法。首先......
随着我国环境政策法规数量的不断增加,采用纯人工方式对政策法规进行整理归纳和分析解读变得越来越困难。运用文本挖掘等计算机技......
辅助汉语学习研究作为一个重要的研究领域,已经在自然语言处理领域激发起越来越多人的兴趣。文中提出一个基于字分析单元的辅助阅读......
针对焊接专利中前沿技术挖掘的问题,提出一种基于改进词向量(Time word-embedding)、双向长短期记忆网络(Bi-LSTM)和条件随机场(CR......
随着社交网络的发展,新的词汇不断出现。新词的出现往往表征了一定的社会热点,同时也代表了一定的公众情绪,新词的识别与情感倾向......
摘要:该文尝试将序列模式挖掘算法Prefixspan应用于中文文本新词提取中,针对Prefixspan算法挖掘出的序列模式不连续、挖掘出的序列模......
领域术语是反映领域特征的词语.领域术语自动抽取是自然语言处理中的一项重要任务,可以应用在领域本体抽取、专业搜索、文本分类、类......
提出了一种基于网络蜘蛛的新词发现算法,通过该算法可以快速有效地搜集互联网资料,并从中自动发现新词。实验表明,该方法可以从网......
情感表达抽取工作是细粒度情感挖掘的重要任务之一.中文微博中包含大量网络新词和不规范词,现有的方法在进行微博情感表达抽取任务......
商品词是电子商务领域描述商品的新词。主要介绍基于购物网站用户搜索日志的商品词发现的方法。该方法从搜索日志中提取用户查询,......
在医疗命名实体识别中,由于存在大量医学专业术语和语料中语言不规范的原因,识别的准确率不高。为了识别未登录的医学术语和应对语......
为正确及时发现互联网新出现的各类网络用语和新词,文章提出基于TF-IDF算法的新词发现系统,自动识别并筛选关键新词,解决网络舆情......
针对传统的新词发现中,数据的稀疏性使一些低频新词无法识别等问题,提出一种对分词结果计算信息量且将深度学习模型BiLstm-CRF用于......
新闻新词的识别在中英文翻译、手机应用推送等方面有着重要作用.通过对网络新闻新词的使用情况、新闻新词的来源和特点的分析,提出......
针对通用新词发现方法对专利长词识别效果不佳、专利术语词性搭配模板的灵活性不高,以及缺乏对中文专利长词识别的无监督方法的问......
汉语科技词系统是科技词汇知识深层次组织与应用服务工具的集成体系。文章首先概述了词系统的内涵,然后总结了三年来在词汇自动......
随着气候变化成为全球议题,对能源政策文件进行量化分析与研究,具有非常重要的意义。现有的中文分词技术应用在能源政策这一特定领......
新词发现和命名实体识别是数据挖掘领域的两个重要研究课题。新词发现技术能够识别出未登录词进而改善中文分词的精度。命名实体识......
从特定领域的科技文献中发现新词,不断地丰富词表,以保证词表的容量是信息检索的一个很重要的基础工作.介绍了专业术语新词自动发......
针对企事业单位编目文档排版效率与规范等问题,本论述利用递归下降分析技术对编目内容分类整理,基于新词自动发现技术的格式规范纠......