论文部分内容阅读
随着信息化社会的发展,通过网络进行信息的检索,已经成为人们获取信息的主要来源。网络中中文信息的爆炸性增长,给中文自然语言处理的发展应用带来了挑战和契机。本文主要是在基于虚词停顿的中文分词方法的基础上,参考石墨的碳结构,研究词与词之间的关系,计算语义的相似度,构建词与词之间的语义网络模型,进行同义词的检索,为后期实现从关键词检索到概念检索的目标打下基础。
要进行信息的检索,就必须做好自然语言基础研究工作,它必须以中文分词为研究基础。主要的分词方法可以归纳为三类:基于规则、基于统计和基于规则统计结合的方法。到目前为止,并没有一个成熟的方法来解决中文分词问题,仍然存在分词规范、分词切分歧义和未登录词问题。
根据汉语词汇的特点,研究虚词特性,结合虚词的停顿规律,采用基于虚词停顿的方法对中文词汇的切分进行消歧。在整个分词过程中,将概率统计和规则两种方法相结合,借助双向最大匹配分词算法,解决虚词停顿中所遇到的词性转换和词性覆盖率问题,最后采用将高元模型和低元模型进行结合的Katz方法对分词中数据稀疏和零概率问题进行平滑处理。
在基于虚词停顿的分词方法基础之上,通过研究语义知识词典,揭示中文语义包含的各种关系,如同义关系、反义关系、近义关系和层次关系等等,利用语义距离、语义位移、语义相似度和对立度定量对其进行研究处理。同时参考石墨的层次碳结构,将石墨中碳原子之间的距离关系应用到语义网络中,计算语义网络中结点之间的相似度和位移,构建汉语语义网络模型。虽然采用此方法只能解决部分语义关系,并不能构建一个合理完善的语义网络模型,但是对从语义角度解决检索问题具有一定指导意义。
实验表明:基于虚词停顿的中文分词方法可以有效的减少虚词带来的歧义分词,提高分词的准确率,还可以缩小未登录词的边界范围。在此基础上,参考石墨的碳结构,计算结点的语义相似度,构建语义网络信息检索模型进行信息检索,可以提高搜索的准确率和速度。