基于S-EK图最短路径中文分词的研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:tian314714
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是中文信息处理的基础。在自然语言理解、语言文字研究、中文文本自动标引、信息检索、机器翻译等领域中,中文分词具有不可替代的作用。因此,中文分词的研究至关重要。但是,中文分词的研究水平已经远落后于与它关联的相关技术,成为制约其它技术发展的瓶颈。中文分词的研究过程中遇到了以下问题:语言学方面的困难,新词的不断出现,歧义的判别,分词的标准不统一等;计算机方面的困难,没有合理的自然语言形式模型,没有有效方式对语义进行理解以及形式化等。这些问题将会制约着中文分词的发展。本文在综合分析现有的中文分词研究成果,重点对基于图的中文分词进行研究,提出了基于S-EK图最短路径的中文分词。研究的主要内容如下:1.对中文分词的主要的算法进行了研究,比较和分析了常用的三种分词算法:基于字符串匹配的分词算法,基于统计的分词算法和基于知识理解的分词算法,并对它们之间的优缺点进行了总结。最后文章还给出了中文分词的评测标准及其意义。2.重点在有向图和中文分词结合方面进行了深入研究,对N-最短路径中文分词的算法中的有向图进行改进,提出了S-EK图,并采用N-元统计模型计算出一个词在一定的语境下的概率,并对该值做了平滑处理,把最后的结果作为S-EK图的边的权值。3.基于S-EK图的优点提出了S-EK最短路径算法。该算法在与N-最短路径算法和Dijkstra算法进行对比,实验和理论推导均证明该算法有一定的优点和价值。
其他文献
三维视频表现的信息更丰富、形象,它不仅应用在娱乐领域还能用于生产实践领域,它可用于虚拟现实、实时控制、精确制导、交互控制等方面,具有巨大的应用空间和应用价值。本文
近几年来,计算机网络技术高速发展,网络信息量呈指数级增长。想在网络中找到需要的信息越来越难,故搜索引擎应运而生了。搜索引擎中的一个重要技术为网络爬虫技术,将网络爬虫
随着科技的发展和信息技术的进步,运动目标检测和跟踪作为智能视频监控的基础和核心在计算机视觉领域里成为了人们研究的热点问题之一,它的效果好坏,直接影响着整个系统工作
激励合约优化模型包括道德风险、逆向选择和信号传递问题三个优化模型。近十年来,激励合约优化模型的研究和应用基本上依赖解析分析的理论推导,其应用也仅停留在定性分析层面