DRIS系统中的中文自动分词模块设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yellow1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为信息检索技术核心之一的中文自动分词技术就是利用计算机程序对中文文本进行词语的自动识别,其处理结果直接影响信息检索服务和搜索引擎的检索效果。本课题的主要目的就是在数字图书馆系统——基于域内资源整合系统(DRIS)理论的检索系统中,研究并设计具有中英文处理能力的中文自动分词模块。论文介绍了基于DRIS的中文自动分词模块研究的背景、意义、内容以及中文自动分词技术研究的国内外现状,概述了中文自动分词算法的类型划分,探讨了四类基于中文词典的分词算法的原理及优缺点,归纳了中文自动分词系统的性能评价标准,分别从五个方面分析了目前中文自动分词技术研究所遇到的难点问题,研究了DRIS原理、功能、组织形式以及基于Lucene.Net的搜索引擎原理和结构。在描述四种常用的中文自动分词算法及介绍中文词典机制之后,论文展示和分析了这四种分词算法的分词结果,考虑到DRIS的实际需要,选择基于中文词典的正向最大匹配法(FMM)为DRIS系统中的中文自动分词模块所采用的中文自动分词算法。在理解语言分析器子包Lucene.Net.Analysis的主要功能和结构的基础上,论文设计并实现了中文自动分词程序模块Lucene.Net.Analysis.CJK2,描述了此模块的文件构成、中文词典的初始化过程以及对中英文混合源文本的处理过程,给出了此模块的部分程序和主要流程图,展示了集成此模块的DRIS对Web网页源文件进行索引而得到的标准Token结果。论文还分析了DRIS中有关索引合并的问题,并在提出了相应的解决方案之后,展望了后续研究工作。采用FMM中文自动分词算法的DRIS具有较理想的中文分词效率,索引效率和检索服务质量都得到了提高。
其他文献
太阳电池缺陷的检测是生产中的关键,生产中每一细微环节的失误都将可能导致缺陷出现。若可以快速准确的识别出太阳电池的缺陷类别,分析出缺陷产生机理,便可及时调整生产工艺,产品的合格率将会得到提高。传统的缺陷检测方法有人工目视检测、伏安特性检测、可见光图像检测等,这些检测方法易受到外界环境干扰致使检测结果不佳,而红外图像检测采用非接触式,可以检测到肉眼难以看到的隐裂等缺陷,故本文采用电致发光红外图像检测手
近年来,随着网络和多媒体技术的飞速发展,和网络视频相关的应用越来越多。在视频监控技术领域出现了利用Internet实现远程视频监控的趋势,即实现随时随地的监控功能,不再受距离等
随着我国科学技术的快速发展,流量的检测广泛应用于石油、化工等行业的控制和计量方面。由于电容式涡街流量计具有灵敏度高、抗振性强、安装方便等突出的优点,因此在各种各样
为了解决传统直线驱动装置采用旋转电机通过中间转换装置转换为直线运动,而带来的损耗大等诸多问题,直线电机应运而生。传统的直线电机均采用弹簧复位,本课题设计的直线电机在结构和驱动方式上进行了创新,直线电机的次级采用稀土永磁材料,通过改变电源的方向实现电机往复运动,整个运动过程均采用非接触式的电磁传动。 直线电机主要由电机和工作电源两部分组成。课题重点介绍了电机的结构和工作电源的设计,为了实现电机
自上世纪80年代以来,智能优化算法(如人工神经网络、混沌算法、遗传算法等)通过模拟或揭示某些自然现象和过程而发展起来,为优化理论提供了新的思路和手段,并在科学、经济以及工
从上世纪八十年代开始,许多国家有计划地开展了移动机器人技术的研究。其涉及图像处理,计算机视觉,传感器技术,人工智能,自动控制,计算机并行处理技术,机械学等,体现了信息科学和人工
随着仪器仪表工业的不断发展,传统的8位单片机已经越来越不能适应日渐复杂的应用需求。友好的交互界面、网络互连功能、智能化的软件、高效的数据处理已成为智能化系统的共同需求。因此,将嵌入式芯片用于工业控制现场的记录仪表成为必然趋势。本文以基于32位ARM微处理器LPC2210和嵌入式实时操作系统uC/OS-Ⅱ的嵌入式网络仪表的开发为主要内容,介绍了一种利用ARM技术、嵌入式实时内核和TCP/IP协议设计
随着科技的进步,家庭网络在整个网络中占的比重越来越大,面对纷繁的设备维护工作,服务提供商需要比简单网络管理协议的功能更加丰富的新技术,而DSL论坛正是在这时提出了技术报告(T
近年来我国的煤矿安全事故虽然有所下降,但同国外相比还是有一定的差距,瓦斯灾害依旧困扰着我国煤矿系统,尤其是瓦斯爆炸和突出事故的发生,严重威胁着井下工作人员的生命安全
本文研究了国内外对于感应电动机故障诊断技术发展与现状,论述了感应电动机故障诊断技术的特点和研究成果,在现有的一些研究基础之上,依据定子电流法,利用遗传-神经网络实现了对电动机较为常见的电气故障和机械故障的智能检测、识别。针对感应电动机的工作机理,系统分析了感应电动机在发生定子匝间短路故障、转子断条故障、转子气隙偏心故障和轴承故障时的表现特性,提取出了电动机在故障时相应的特征频率和特征幅值,揭示出各