论文部分内容阅读
随着信息社会的飞速发展,人们对信息的理解的准确性提出了越来越高的要求。如何提高计算机自然语言处理的能力已经成为摆在研究人员面前的一个非常紧迫的课题。计算机在处理中文语言的文本时,要对处理的文本要进行词的切分,正确的分词是计算机对中文文本进行理解的前提和基础。本文提出了通过概念分词对中文文本进行处理的方法,有效地降低了文本向量的维度,处理了同义多义的语言现象,缩短了文本处理的时间。
1.在介绍了中文分词技术发展的历史以及所面临的主要问题和难点;同时介绍了当前中分词技术所用到的一些主要的方法和他们的优缺点。
2.为了构建概念分词所需要的概念知识库,本文论述了概念理论领域内主要的研究现状,分析和比较了Hownet(知网)和HNC(概念层次网络)理论各自的优点和不足。
3.提出了概念空间模型的定义,通过概念知识库的设计和概念语义距离的定义来计算文本向量的维度;同时,作者设计实现了概念分词系统模型,包括系统的结构设计和分词相关的各种算法。
4.对实现的分词模型进行了实验和分析,实验数据说明了概念分词技术在某些指标上要优于传统的分词方法;同时,也指出了这种方法的不足和仍需改进的地方。