基于中文自然语言理解的智能检索关键技术研究

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:haihaiboyfei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化社会的发展,通过网络进行信息的检索,已经成为人们获取信息的主要来源。网络中中文信息的爆炸性增长,给中文自然语言处理的发展应用带来了挑战和契机。本文主要是在基于虚词停顿的中文分词方法的基础上,参考石墨的碳结构,研究词与词之间的关系,计算语义的相似度,构建词与词之间的语义网络模型,进行同义词的检索,为后期实现从关键词检索到概念检索的目标打下基础。   要进行信息的检索,就必须做好自然语言基础研究工作,它必须以中文分词为研究基础。主要的分词方法可以归纳为三类:基于规则、基于统计和基于规则统计结合的方法。到目前为止,并没有一个成熟的方法来解决中文分词问题,仍然存在分词规范、分词切分歧义和未登录词问题。   根据汉语词汇的特点,研究虚词特性,结合虚词的停顿规律,采用基于虚词停顿的方法对中文词汇的切分进行消歧。在整个分词过程中,将概率统计和规则两种方法相结合,借助双向最大匹配分词算法,解决虚词停顿中所遇到的词性转换和词性覆盖率问题,最后采用将高元模型和低元模型进行结合的Katz方法对分词中数据稀疏和零概率问题进行平滑处理。   在基于虚词停顿的分词方法基础之上,通过研究语义知识词典,揭示中文语义包含的各种关系,如同义关系、反义关系、近义关系和层次关系等等,利用语义距离、语义位移、语义相似度和对立度定量对其进行研究处理。同时参考石墨的层次碳结构,将石墨中碳原子之间的距离关系应用到语义网络中,计算语义网络中结点之间的相似度和位移,构建汉语语义网络模型。虽然采用此方法只能解决部分语义关系,并不能构建一个合理完善的语义网络模型,但是对从语义角度解决检索问题具有一定指导意义。   实验表明:基于虚词停顿的中文分词方法可以有效的减少虚词带来的歧义分词,提高分词的准确率,还可以缩小未登录词的边界范围。在此基础上,参考石墨的碳结构,计算结点的语义相似度,构建语义网络信息检索模型进行信息检索,可以提高搜索的准确率和速度。
其他文献
近年来,随着互联网信息技术的迅速发展,互联网上的信息资源已经达到海量级别,并且正呈指数级形式增长,海量网页数据的结构复杂性和用户查询词简短及语义模糊性等特点给现有搜索
本文将GIS的空间分析功能应用于无线传感器网络的汇聚节点与特征点的选取以及网络布设过程中,将动态地理路由算法应用于普通无线传感器节点向汇聚节点传送数据的路由选择过程,
随着无线通信技术的迅猛发展,可用的频谱资源变得越来越紧张,尤其是随着无线局域网、无线个域网和无线城域网等技术的高速发展,目前的宽带无线应用技术已无法满足人们的需求
随着数据库技术的快速发展,各个领域堆积的数据也越来越多。数据库虽然有着很强大的采集数据和存储数据的能力,但是数据分析能力却相对薄弱。无法挖掘到隐藏在海量数据背后的信
随着计算机网络应用的普及和发展,信息安全作为新兴学科日益受到重视。受CPU串行体制的限制,传统的串行密码算法已经越来越不能满足信息安全对运算速度和系统安全性的需求。基
无线传感网被广泛地应用于国防、环境检测、医疗卫生以及交通等领域。具有实用性强、应用范围广、使用灵活等特点。而时间同步是无线传感器网络的关键技术之一,受到越来越广
延迟容忍网络主要是指由于节点移动、部署稀疏等原因而使得端到端的数据传输路径常常处于间歇性连通或者长时间中断状态的一类网络。数据聚集,通过将相关联的数据包进行聚集操
事务存储和线程级推测是解决并行编程难的两种经典有效的方法。虽然它们所解决的问题不同,但是却有很多的相似之处,在一定的条件下可以相互转化,可以将这两种方法结合起来构成混
随着社会老龄化进程的不断发展,老年人口所占比重也逐年增加,伴随而来的老年人群的日常行动安全也成为社会关注的焦点。老年人的生理特点造成了他们这一人群的特殊行为特征—
携能通信(Simultaneous Wireless Information and Power Transfer,SWIPT)技术,可挖掘蕴藏无线射频(Radio Frequency,RF)信号中的能量,并供给网内终端用户使用,从而为延长能