全文检索系统中文件预处理技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:deadhorse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和网络技术的发展,人类社会的数据量呈爆发式增长,信息检索就是研究如何在这些信息中快速有效地检索到有用信息。网络上获取的信息形式多样,其中半结构化和非结构化形式的信息占据了很大一部分,对于结构化信息的检索可以使用数据库技术,而对于非结构化信息的检索却缺乏有用的工具,因此全文检索技术应运而生。全文检索系统主要由文本预处理、索引建立、索引管理和web检索平台等多个部分组成。本文主要对全文检索系统中文件预处理模块用到的相关技术进行研究,主要包括文件实时监控、文件类型识别、文本内容提取等。该模块使用Inotify机制对数据源实时监控,将监控到的文件路径提交至基于高级消息队列协议实现的消息队列中,依次识别文件类型,根据不同文件类型使用不同的接口提取文件的文本内容。最后准备大量文件对预处理模块的功能和性能进行测试,实验结果表明该模块具有较高的识别正确率和较好的文本提取完整度,基本满足设计要求。本文对基于内容的文件类型识别算法进行了研究,将文件内容按字节值划分,使用字节值和字节值频率建立文件的向量空间模型。识别过程使用K近邻做分类算法,为降低分类过程的计算复杂度提高分类的效率,引入了主成分分析算法和聚类算法对样本空间做降维处理。最后对算法进行测试,实验结果表明改进后的算法减少了分类时间,具有较高的分类效率和识别正确率。本文最后研究了将信息增益特征选择算法和TFIDF权重计算算法用于文件分类过程,针对样本集分布不均衡时分类正确率下降的情况,在传统算法的基础上引入类间集中度和类内离散度,并对权重算法和特征选择算法进行改进,用支持向量机做分类算法。最后对算法进行实验验证,结果表明,使用改进后的算法分类正确率在一定程度上得到了提高。
其他文献
随着城市建设规模的扩大化、快速化,塔式起重机在现代化楼宇建筑施工过程中起到了至关重要的作用。与此同时,塔式起重机事故也在频繁发生,减少事故及提高塔式起重机使用过程中的安全系数一直是业界密切关注的重大问题。为使塔式起重机安全运行、协调工作、减少因事故造成的经济及人员损失,研究开发一种塔式起重机智能监控系统有着极其重要的工程应用价值。本文对塔式起重机监控技术进行了研究,并在此基础上设计开发了基于ARM
随着网络技术的发展,云中心加边缘服务器的服务请求处理方式已经越来越普及。这一结构既能发挥云端精细处理数据的能力,又能运用边缘服务器实时响应的特长,已经被用在了视频
声纹识别技术属于生物认证技术的一种,是通过人的说话声音来辨识说话人身份的技术。近十几年来随着Internet和电话技术的发展,声纹识别被广泛的应用到Internet的访问控制和无线
生物质气化技术是生物质能利用的重要方式之一,其目标是能够得到高品质的燃气,然而燃气焦油的存在影响着气化技术的推广应用。无论气化燃气用于发电还一是民用集中供气,生物质气化燃气都存在燃气焦油含量过高的问题,因此,生物质气化焦油脱除的研究具有重要的实际意义。本文首先介绍了焦油的产生、脱除机理和方法,并针对燃气发电和民用燃气,列出了我国对燃气焦油含量的工业标准。然后根据燃气焦油的产生过程和脱除条件,对生物
立体视觉技术是机器视觉的重要研究方向之一,而双目立体视觉技术则是立体视觉的重要研究方面。双目立体视觉基于视差原理来模拟人眼处理景物的方式,利用三角测量原理,通过对同一
多轴运动控制技术是最近半个世纪发展起来的,目前广泛应用于汽车制造、工程机械制造、数控机床、医学设备等领域,是当前国内外研究的热点和前沿方向。本文设计实现了一多轴运动
在现代工业生产发展的进程中,工业生产对物位测量的实时性、精度及稳定度提出了越来越高的要求,工业测量现场的测量条件也日趋复杂,传统的物位测量仪器已经无法满足这种需求
无线网络控制系统是涉及无线网络、计算机与控制等多领域的复杂系统,相对于有线网络控制系统,它安装便利、可移动性强,便于升级和维护,随着无线网络技术的快速发展,其必将在
网络的应用从以主机为主的端到端通信转变为用户驱动的内容检索,为了适应这个趋势,提出信息中心网络(Information-Centric Networking,简称ICN)。ICN最重要的特征之一就是利
小波神经网络是由具有相当发展程度的人工神经网络与小波分析理论相结合而产生的,其既拥有小波分析时-频局部化的特点,又继承了人工神经网络强大的自学功能。因为其具备强大的