基于字位的中文分词方法研究与实现

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:stacy_sj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动分词是中文信息处理领域的一项基本技术,也是智能化中文信息处理的关键,它在机器翻译、信息检索、文本分类等中文信息处理的各项任务中都发挥着基础性的重要作用。 本文在分析中文分词技术现状和问题的基础上,采用和试验了一种基于字位的新的分词方法。此分词方法以中文字在词中的位置分布为依据进行切分,平衡地看待词表词和未登录词,因此在未登录词识别方面有比其它方法更优秀的表现。本论文分别使用最大熵和条件随机场这两种机器学习模型来实现并通过实验得出结果的比较分析。最后对本文的研究工作进行总结,并对未来的继续研究方向和发展前景做出展望。 本文的贡献和创新主要有以下五个方面:(1)探索研究了最新的基于字位的中文分词方法:此方法通过确定每个字在词中的位置来确定分词,把分词问题转变为分类问题。(2)运用试验了最大熵和条件随机场两种具体的处理方法在字位分词中的应用。(3)对特征模板选取和训练模型进行了较为深入的研究:分别使用最大熵和条件随机场比较6特征模极和10特征模板的分词准确率,并对两种模型进行比较。(4)汉字位置标记集选择:对Bakeoff十二种语料库进行分析最终选用6字位标记。(5)未登录词的处理:对汉字位置进行标记,平衡地看待词表词和未登录词,较好的处理未登录词,同时也兼顾切分歧义。
其他文献
宋人“尚意”书风的形成是一个复杂的过程,既有历史的继承性,也受其时代政治文化的影响,也必有其哲学基础,当然最重要的还是书法家自身的才学胆识和敢于创新的精神。 The format
随着市场经济体制建设不断完善,人事制度改革逐步深化,流动人员人事档案管理面临着一些新问题。 本文在对流动人员人事档案与传统人事档案比较分析的基础上,以个人信息保护法
1920年发生的甘肃大地震,虽然是不可抗的自然灾异,但由此所引发的社会问题是复杂的。透过灾异的表象去发掘由人为造成的后灾害现象,有着十分重要的社会意义。因为人为的祸害要比自然
随着我国高等教育管理体制改革的逐步推进,很多高校形成了多校区办学模式。图书馆是高校办学的基本条件之一,是一个大学的精神所在,文化氛围的主宰,是高校的文献信息中心、咨