统计全切分中文分词系统的研究与实现

被引量 : 0次 | 上传用户:yy5621913
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是中文信息处理的一个主要组成部分,也是文本挖掘、机器翻译、信息检索的基础。由于中文分词问题本身的复杂性,准确有效的中文分词方法成为中文信息处理的主要研究内容之一。本文首先分析了现有中文分词方法及存在的主要问题,研究了基于语料库的统计分词模型和关键技术,并在此基础上提出了基于统计的全切分粗分模型的改进算法。该方法通过构造出基于统计词典的有向无环词图,利用基于统计的筛选算法从中选出一个粗分结果集,经过未登录词识别后得出最佳的分词路径。最后本文给出了基于统计全切分粗分模型中文分词系统的设计与实现。实验结果表明,该系统结合了改进的全切分匹配方法与基于语料库的统计分词方法的优势,带来了较好的处理问题能力,具有一定可行性和适用性。
其他文献
《论语》从成书到现在,解释已经很多。在这篇论文里,我将引用解释学的观点来看待《论语》的教学问题,并且进一步考虑在当今时代,有着初中语文教师身份的解释者在面对学生时,
本研究利用注意瞬脱的范式来检验情绪性刺激影响注意捕获的加工过程,检验情绪分心物对目标识别的影响。实验采用快速序列视觉呈现(RSVP)任务,以情绪性刺激为实验材料,要求被
教室里发生的任何情况都要通过教师和学生之间的互动,尤其在英语教学课堂上,在英语教学中,英语既是教学的媒介语,又是教学的目标语,因此教师与学生之间的语言互动便起着举足
当今全球范围内,双边、区域乃至多边贸易协定正呈现显著增长,加入国际贸易协定的国家数量也越来越多,国际贸易协定涉及的范围越来越广。在国际贸易协定蓬勃发展的背景下,国际
随着计算机和网络技术的普及,基于网络的人际交往、电子商贸活动等大量出现,电子信息的存在与取得方式的飞跃发展使证据学研究乃至证据立法面临诸多考验。与此同时,给刑事犯
<正>恽南田(一六三三—一六九〇),原名格,字寿平,常州武进人。为清代著名画家。中国美术史上与王时敏、王鉴、王翬、王原祁、吴历齐名,合称“清初六大家”。他开创的“常州画
期刊
沈阳“八王寺”有着近六百年的悠久历史,2007年4月份学校将“八王寺”的主殿拆迁重构放置于校园内,并更名“八王书院”。对于这样一个见证着沈阳历史的古建筑,创意于在书院墙
旅游歌曲是现代旅游宣传的常见手段之一,随着旅游业的迅速发展,旅游营销成为旅游企业提升品牌形象、加强竞争力的有效手段,旅游歌曲作为一种独特的传播载体获得了广阔的发展
目的:探讨在非典型症状急性心肌梗塞患者中急救护理的效果。方法:此次抽取2017年5月至2018年5月在本院医治的非典型症状急性心肌梗塞患者(120例)当分析的对象,此次研究患者均