基于粒子群优化算法的中文全文检索系统研究与开发

来源 :四川大学 | 被引量 : 0次 | 上传用户:pazixu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何从海量的信息中获取有用的信息,如何从迅速爆炸的信息中及时获取最新信息,这是检索技术目前面临的挑战。全文检索是现代信息检索技术的一个非常重要的分支,是为解决信息的高效获取问题而应运而生,它是以电子文本数据为主要处理对象,基于全文索引,使用自然语言进行检索的技术。 存在两种基本的索引库结构,即基于“字表”的索引库和基于“词表”的索引库。在对中文全文检索的有关技术,尤其是对中文信息处理的基础技术:“中文分词技术”进行了较为深入的研究后,本文提出了一种基于粒子群优化算法(PSO)的适用于构建全文索引的分词方案。该分词方案结合了“字表法”和“词表法”的优点,在减少信息冗余的前提下得到准确的检索结果。 粒子群优化算法自提出以来,由于它的计算快速性和算法本身的易实现性,引起了国际上相关领域众多学者的关注和研究,已在函数优化、神经网络训练、模糊系统控制等领域取得长足的发展。本文是粒子群算法在求解实际问题中的应用。受粒子群算法解决旅行商问题的启发,本文把中文分词问题转化成了求解最短路径问题,并给出了其完整的建模和求解过程。精选了128条具有典型交集型歧义字段的切分例句作为测试用例,在与中科院计算所汉语词法分析系统ICTCLAS的实验结果对比中,表明该分词方案是适合于全文检索系统的分词方案。 根据本文提出的分词算法,从实际问题出发,把该分词算法应用于实际的FAQ(常见问题解答)全文检索系统的设计中。采用面向对象和模型驱动的程序设计方法,利用开源项目Lucene建立和实现全文本索引库,文中给出了系统
其他文献
对人类来说,了解人脑自身的结构和功能是一个非常有趣和有挑战性的工作。而功能磁共振成像(fMRI)就是近二十年来才发展起来的一种非入侵脑功能成像技术。它的原理是:大脑在执行
随着国家金税工程的不断深入,国税总局在全国全面推广税控收款机的使用。目前,普通的税控收款机有着成本过高、管理不方便等缺点,而基于嵌入式系统的税控收款机则具有成本低、可
社会越进步,经济越发展,人类对能源的需求量也就会越大。目前,新能源的研究和应用已经在全世界范围引起广泛的关注。尤其是哥本哈根会议以后,提出了如低碳城市、低碳交通、低碳生活等理念,勾勒出未来的能源供应的新体系,也为未来的能源发展指明了方向。太阳能资源以其独特的优势,在未来能源比例中占有很大比重,太阳能光伏发电就是一种理想的可再生能源发电技术。光伏组件是太阳能光伏发电系统的重要组成部分,也是整个光伏发
我国是抗生素生产大国,其中洁霉素作为一种广泛使用的抗生素具较大的市场需求,但由于其发酵生化反应过程机理的复杂性和部份生物参数难以实时在线测量的技术现状,洁霉素发酵过程
在现代战争中,地面侦察机器人已经发挥着举足轻重的作用。侦察机器人指挥控制系统是侦察机器人的重要组成部分,是连接指挥员和侦察机器人的桥梁。 本文研究了侦察机器人指挥
光纤布拉格光栅(FBG)是近几年发展最为迅速的光纤无源器件之一。光纤光栅对特定波长的光具有反射作用,反射光波的峰值波长随着温度、应力等物理量的变化而变化,并具有优良的温
学位
车载导航中的查询服务是指,在驾驶员不熟悉所处城市环境的情况下,为其提供目的地地理位置以及相关信息的查询,辅助驾驶员顺利抵达目的地。目前,由于车载设备的存储量有限,又
海洋是人们生活中所需各种资源的重要来源之一,但是由于海洋资源开采的困难性,导致了其开采手段只能采取有限的几种手段,搭建海洋平台即是其中的一种重要手段。 安全性和可靠
网络化控制系统中网络的引入导致系统存在分布式时延。本文讨论了网络化控制系统中时延的分布及影响时延的因素,并总结出处理网络化控制系统中时延的三类主要策略:保证QoP的