基于构词法的中文自动分词方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:prettyxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文自动分词是中文自然语言处理的核心问题之一。近年来,随着汉语词语切分标注语料库的丰富,以及相关评测的推动,基于机器学习的分词方法取得了巨大成功。然而,实际应用中的中文分词仍存在推广能力差、适应性不强等问题。本文从构词法知识入手,针对上述问题开展研究工作,并给出相应的解决方案。   首先,在对现代汉语构词法进行分析的基础上,参考《现代汉语合成词结构数据库》,对《人民日报》标注语料库进行了扩展标注,构建了《现代汉语语素类别标注语料库》,为后续构词法的自动分析提供了语料支持。   其次,针对分词方法推广能力差、处理集外词能力较弱等问题,探讨了构词信息在分词中的作用,并提出了一种结合构词信息的条件随机场分词方法。宾大中文树库上的实验结果表明,分词F1值达到了97.5%,召回率相对提高了11.5%。   最后,针对由于词难以定义,以及词语切分语料库中词定义各不相同而导致的适应性不强的问题,分析了语素与词之间、词和短语之间的层次结构,并提出了一种结合构词信息的词法、句法联合分析方法。该方法将语素、词和短语三个边界模糊的层次统一到了一个结构中,从而为“词”的不同需求提供了选择。   实验证明,将构词信息引入到中文自动分词的策略,在提高分词性能的同时也保证了系统的推广性,并解决了实际应用中切分结果不能随应用需求灵活变化的问题。
其他文献
PDCP协议(Packet Data Convergence Protocol)是LTE无线接口协议栈中的主要组成部分之一,围绕PDCP的主要功能,本文对LTE PDCP协议中的关键技术进行了研究分析和实现,其中具体包括:P
在信息爆炸的时代,数据间的关系和数据的规律常常隐藏于纷繁芜杂的数据海洋中。近年来,与日激增的社会网络数据更是成为现代社会学研究中的研究热点。与此同时,相关科研团队
生产实践中存在很多难以优化的约束优化问题,智能进化算法与传统约束处理方法相结合成为解决这类问题的有效方法。拟态物理学优化算法是一种最近提出的启发式算法。矢量拟态
随着经济全球化的日益加快,以客户为中心的业务创新和差异化竞争逐渐成为企业战略的主旋律,企业为了保持持续的竞争力,一直不断努力的开展各种方式的业务创新,企业信息化建设
在计算机技术和信息技术的高速发展的当代,计算机通讯网络以惊人的速度拓展,将世界的各个角落连成一个地球村信息网。随着高新技术的发展,实验室的测试技术、设备与数据应用也得
EAST是中科院等离子体物理研究所自行研制的世界首个全超导非圆截面托卡马克实验装置,目前已经进行了6轮核聚变放电实验。随着EAST实验的不断深入,实验正在由过去几秒钟的短
随着计算机与网络通信技术的高速发展,在开放的网络平台中部署企业级的网络应用也越来越多,网络与信息安全成为了网络技术研究的重点。针对网络安全技术体系,国际化标准组织
随着旅游业与交通的迅速发展,旅行信息爆炸性的增长,旅行数据已经形成一个巨大的海量信息空间。如何快速、准确、方便地对日常所积累的反映旅客信息的海量旅行数据进行客户关
随着通信技术和计算机技术的飞速发展,计算机网络已经成为当前信息交流的主要媒介。越来越多的国家、企业和用户接入因特网,网络安全问题日益突出。防火墙可以阻挡针对网络层
随着企业系统日益庞大,流程日益复杂,业务流程建模已经成为了企业系统设计和运行中重要环节。迄今为止,基于流程模型的建模方法,关注点一般都集中在流程控制方面,而对于流程