面向新闻文本的中文分词方法研究

来源 :长江大学 | 被引量 : 0次 | 上传用户:flyrat1997
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言是人类按照某种规则组成的语言,如汉语、英语和法语等。而自然语言处理则是利用计算机对自然语言的形、音、义等信息进行一系列处理得到最终结果的过程。如对车牌识别是计算机利用图像识别技术对自然语言的形进行处理;微信移动端的语音转文字是计算机利用语音识别技术对自然语言的音进行处理;文本分类和自动文摘等则是计算机对自然语言的义进行处理。中文分词作为自然语言处理技术的第一步直接影响到应用结果的好坏,故其研究具有重要的市场价值。本文围绕如何提高新闻文本领域的中文分词性能开展了研究,主要工作及其创新性体现在以下几个方面:1.新闻文本分词研究。汉语文化博大精深,不同领域的文本有不同的特点,本文针对新闻领域的分词工作开展了研究。站在前人的肩膀上,利用现有的中文分词器对新闻文本数据进行第一次切分,随后分别对分词结果中出现的歧义词和新词进行二次处理。2.歧义词消歧研究。针对新闻文本出现的歧义词问题,提出了一种新的基于N-gram语言模型的双向最大匹配分词算法。首先将待分词的新闻文本分别进行正向最大切分和逆向最大切分,得到两种分词结果,随后在两种分词结果定位歧义词的位置,利用N-gram模型对歧义词进行消歧处理。实验结果表明本文提出的分词方法能有效的对部分歧义词进行消歧处理。3.新词识别研究。针对新闻文本中人名、地名、机构名以及专有名词等无法识别的问题,本文提出一种基于N-gram模型的多字无监督分词算法,当前大部分算法都在通过互信息和信息熵等统计量来判定中文字符串是否成词,本文反其道而行之,通过这些统计量,降低不同字与字之间的相关性,得到不符合成词规则的部分,将其删除,剩下的便是我们新闻文本中的新词。实验结果表明,本文所提出的方法在识别出文章中新词方面有较好的效果。
其他文献
植物在正常生长和应激条件下,体内会产生活性氧(Reactive Oxygen Species,ROS),植物体内多种信号转导途径被激活,通过多种生理反应来实现自身的氧化还原平衡。RCD1(radical-induced cell death1)参与植物的正常生长发育,是重要的转录因子调节子,在许多抗逆信号通路中起着重要作用。其中RCD1与ROS相关逆行信号转录因子ANAC013和ANAC017相互
目的:探讨骨肉瘤组织中环氧合酶-2的表达及临床病理意义,以期为骨肉瘤的诊断及靶向治疗提供一定的参考依据。方法:选择40例2018年1月-2021年1月期间在我院手术切除的骨肉瘤组织标本作为观察组,同时选择40例正常的癌旁组织标本作为对照组。采用免疫组织化学染色法检测骨肉瘤组织与癌旁正常组织中环氧合酶-2的表达情况,并分析不同病理特征骨肉瘤组织中环氧合酶-2的表达情况。结果:(1)40例骨肉瘤患者中
目的探究Hcy、hs-CRP、HSPs、SAA、25-(OH)D3用于川崎病患儿冠状动脉损伤预测的效果。方法采用临床对照试验研究的方法,自2017年6月至2019年12月,对黄冈地区199例川崎病患儿进行调查研究,选取同期参加体检,且身体状况健康的132名儿童纳入对照组,比较川崎病组和健康组的相关指标(Hcy、hs-CRP、HSPs、SAA、25-(OH)D3)的含量;比较5项指标用于川崎病组患儿
本文针对复杂断块“双高”油藏所存在的油水关系复杂、油气水层间相互出现、非均质性严重等问题,在体系运行稳定、地面注入工艺适应性强的有利条件基础上开展了HPAM/石油磺酸盐二元复合驱研究。首先对化学驱配聚用水处理研究,实验结果表明:新鲜采出水中二价铁的存在是聚合物降解的主要原因,随着二价铁离子浓度上升,聚合物溶液粘度呈急剧下降趋势,采出水中二价铁离子含量至少应控制在0.2mg/L以内,聚合物溶液粘损可
乡村建设一直以来是国家工作中的重中之重,2017年,党的十九大明确提出实施乡村振兴战略,标志着我国城乡统筹和乡村建设迈入全新发展阶段。乡村振兴战略提出产业兴旺、生态宜居、乡风文明、治理有效、生活富裕的总要求,明确了当前美丽乡村建设的重点任务。同时,在美丽乡村建设进程中,乡村社会暴露出不同程度的问题,包括空心化、老龄化、乡村聚落衰落、去产业化、风貌缺失和文化认同感降低等,引起社会各界的关注和重视。乡
现代生活中离不开快递,快递离不开物流。缓冲包装就是负责保证运输的产品在恶劣运输环境中不受到破坏,保持物品良好性的一种包装。主要有发泡塑料缓冲材料、气垫缓冲材料、纸质缓冲包装材料和植物纤维类缓冲包装材料等几大类。本文介绍了发泡塑料缓冲材料和气垫缓冲材料以及可降解塑料缓冲材料。
目的:研究黄连解毒汤对高脂饮食诱导的载脂蛋白E敲除(ApoE-/-)小鼠动脉粥样硬化的干预作用。方法:高脂饮食建立ApoE-/-小鼠动脉粥样硬化模型,给予黄连解毒汤进行干预。通过苏木素-伊红(HE)染色观察动脉粥样硬化病变后主动脉病理形态变化;全自动生化分析仪检测血清总胆固醇(TC),甘油三酯(TG),高密度脂蛋白胆固醇(HDL-C)及低密度脂蛋白胆固醇(LDL-C)水平变化;蛋白免疫印迹法(We
深度学习的快速发展将动作分析的研究推向了高潮,由此出现了很多基于视频对连续帧的行为语义识别和分析的相关研究。特别是包含时空特性的动作语义分析的研究,一般需要借助专用设备捕捉动作信息,例如光流场、数据手套等。这样就难以实现大规模、低成本地进行语义识别和分析,同时也给动作语义分析的算法研究带来了一些限制。基于目标检测算法,本文提出一种具有连续性和时空特性的动作语义识别模型。它可以适用于需要快速而准确地
潜山油气藏是国家重点勘探的油气藏类型之一,特别是在渤海湾盆地,近来潜山构造带天然气勘探取得了重大突破,这些潜山构造带的发现,对推动渤海湾盆地勘探开发具有重要意义。然而潜山储层复杂的岩性为测井评价研究带来了极大的挑战,导致储层物性关键参数难以精确预测评价。本文在岩石学、岩石力学和测井学的指导下,以渤海A区太古界潜山变质岩储层为研究对象,系统地分析了储层岩性特征及岩石的蚀变作用,对储层岩性特征及岩石的
期刊