中文分词相关论文
中医医案是中医医生学习临床经验的重要文献资料,对中医医案进行结构化处理有利于采用机器学习等方法总结临床经验,加速中医传承。为......
医学知识库是帮助医生和医疗从业人员获取医学知识和临床建议的重要工具,是提高医生医疗服务能力的重要手段。当前缺乏为基层医生......
针对当前优质中医古籍语料库较为缺乏的问题,对《黄帝内经》全书156,507字进行人工标注,构建集词性标注和分词一体的《黄帝内经》中......
中文分词作为实现机器处理中文的一项基础任务,是近几年的研究热点之一。其结果对后续处理任务具有深远的影响,具备充分的研究意义。......
中文分词是自然语言处理中一项重要的基础任务。由于中文词汇存在多义词、同音字等特殊性,能够准确地完成分词任务是近年来中文分词......
期刊
深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟......
随着人机对话技术的不断发展,各种各样的智能对话系统层出不穷,如:领域问答系统、闲聊机器人、终端导航机器人等智能产品,很大程度......
不同于英语等语种,中文词语之间没有明显的分隔符,这对于中文的理解造成了一定的困难。为了便于计算机对中文的理解,需要将中文文......
文本的情感倾向性分析是当今自然语言处理的研究热点之一。文本情感倾向性分析是通过对文本信息的挖掘,从而判断文本的情感倾向。......
知识图谱具备动态性、空间性、关联性、知识依赖性四个特点,不仅可以通过可视化模型将知识以有向图的形式直观地呈现出来,获取它们......
在日常生活和工作学习中,人们已经习惯从互联网中获取信息,搜索引擎成为沟通人与互联网信息的桥梁。伴随着各行各业不断信息化的发......
近年来,随着社会技术的突飞猛进,尤其是人工智能技术的飞速发展,便捷的语音人机交互技术在文体领域的各类应用场景快速呈现。文体......
随着牵引供电系统智能运维的发展,对牵引供电设备在全生命周期内形成的各类数据的挖掘、分析的重要性日益凸显。目前针对牵引供电......
文本自动分词是非物质文化遗产相关数字人文研究的基础与关键步骤,是深度发掘非遗内在信息的前提。文章构建了国家级非物质文化遗产......
一直以来,中文分词都被当做是中文信息处理的第一站。而命名实体往往是句子最令人关注的成分,而中文分词任务的输出是作为命名实体......
中文分词在自然语言处理中占据了十分重要的地位.为了提高中文分词的速度,论文提出了一种新的求解最大概率路径的方法.该方法主要......
随着我国互联网技术的进步和飞速发展,线上购物已然逐渐成为当下一种最主流的购物方式,给现代社会人们的日常生活和工作方式都带来......
近年来,随着人工智能技术的发展,越来越多人开始关注智能阅卷方面的研究。现阶段的自动评分系统对于客观题如判断题、选择题以及填......
近年来,随着大数据技术广泛的应用,语料库技术在各类语言中快速发展,并在很多领域内取得了巨大的进步。在自然语言处理领域中,中英......
中文分词是指将汉语句子按一定规则切分进而得到单独的词的过程,是中文自然语言处理中最为基础的任务。中文分词方法根据其原理可......
中文分词(Chinese Word Segmentation,CWS)是自然语言处理(Natural Language Processing,NLP)中一项重要的基础任务.由于不同领域......
中文短文本分类是自然语言处理的重要领域之一,文中提出了一种基于多维度图神经网络的短文本分类方法,通过对文档中的中文词语进行......
为便利听障人士的正常社会生活,提高其社会融入度,设计开发了基于B/S模式的仿真手语翻译系统.此系统包含语音识别模块、文本分词模......
自然语言是人类按照某种规则组成的语言,如汉语、英语和法语等。而自然语言处理则是利用计算机对自然语言的形、音、义等信息进行......
随着农作物病虫害研究文献的快速增长,对农作物病虫害领域文献进行文本挖掘变得越来越重要.开发有效、准确的农作物病虫害命名实体......
提出一种基于语境相似度的中文分词一致性检验方法.首先利用词法和句法层面的特征,设计基于构词、词性和依存句法的分类规则,再使......
随着信息共享时代的发展,海量数据的诞生对推荐系统提出了更高的要求.针对微博的海量数据,提出了一种融合朴素贝叶斯分类和基于用......
中文分词是作战文书中语义理解的基本任务.在中文分词的研究中,未登录词识别始终是一个难题.论文通过了一种可扩展外部知识的中文......
为了解决单一军事领域语料不足导致的领域嵌入空间质量欠佳,使得深度学习神经网络模型识别军事命名实体精度较低的问题,文中从字词......
中文分词问题的研究能够为其他中文处理问题提供更准确的特征。诸如:文本分类,信息检索,问答系统,机器翻译,机器阅读等研究问题都......
分词是中文信息处理的第一步,但由于预警信息的领域性较强,直接将现有分词方法应用于预警领域,算法效率和分词结果的准确性都急剧......
面对海量的企业文件,单纯地凭借人工进行密点标注,不仅费时费力,其划分标准更受到人为主观意识的影响.因此,对企业文件进行自动定......
Github已经成为当下最受欢迎的开源代码托管平台,越来越多的开发人员和企业将项目上传到Github平台上。开发人员由于疏忽和安全意......
中文分词属于自然语言处理技术子集,对中文分词技术的研究由来已久,文章基于Python结巴分词,从概述、分类、方法、挑战、应用及现......
全文检索提供了确定满足一个查询自然语言文档的能力,并可以选择将自然语言文档按照与查询的相关度排序.PostgreSQL数据库提供了完......
期刊
随着中医药行业的快速发展,中医药相关数字化资源急剧增加,传统的全文搜索引擎因专业性不够强、内容繁多等问题导致用户无法快速方......
[目的/意义]对近几年的人民日报语料中文分词结果进行统计和分析有利于总结新时代的中文语料在分词歧义方面的规律,提高分词效果,......
随着信息技术的不断发展,各专业领域的信息化和数字化建设正在不断推进,由此产生的海量数据对各专业领域的信息处理工作带来了挑战......
随着信息技术的普及与应用,人们可以使用互联网来获取所有需要的信息,而近几年对旅游信息的需求呈现出前所未有的发展态势.通过分......
限定词典背景下的中文分词有着较广阔的应用需求。根据限定词典词汇固定、词频统计精确、处理时效性要求高等实际情况,增加了词条的......
几乎所有专业门户网站都有站内搜索功能,以实现对不断增加的站内资源进行全文检索。站内检索的实现方法很多,有基于数据库的,有基于开......
文本特征提取是指从文本中提取有代表性的词作为特征,由于中文的特殊性,预先分词是中文文本的特征提取的关键步骤.本文在基于Aprio......
2003年在日本扎幌举行了第一届ACL-SIGHAN国际中文分词竞赛.这次竞赛指定专门的训练语料与测试语料,统一用一个Perl语言编写的程序......
由于地质矿产文本中含有大量的专业术语,通用领域方法无法很好识别其未登录词,而其他特定领域中文分词方法移植性较差,不适用于地质矿......
在当前的大数据时代,地理地址编码在兴趣点(POI)名称匹配中变得越来越重要.地理地址编码是研究如何快速有效地建立地点名称文字描述......