论文部分内容阅读
随着企业的不断发展与进步,企业会积累大量的文件、图片、视频等相关资料,这些资料数量庞大。当企业需要某份文件时,需要花费大量的时间进行检索;如遇到硬盘损坏等问题,则要面临资料丢失的风险。这些情况暴露了传统系统架构下的局限与不足,如资料受硬盘使用限制,需定期备份;检索大量文件时速度缓慢,无法根据文档内容进行检索;无法一次找到所有有价值的文件等问题。大数据环境下的企业知识管理需要更快的检索速度,更稳定的存储方案,对原有架构和技术提出了更高的要求,因此,本文提出适合中小型企业知识管理的云检索平台的架构与实现方法,以及分布式系统的混合存储解决方案,实现了文档的全文检索,并对检索内容、文档进行智能推荐。该平台支持全格式文件,支持OFFICE、PDF、TXT、HTML等多种格式文本提取,支持RAR、ZIP文件在线解压,支持图片、视频等文件的在线预览等。云检索平台采用智能检索,用户在检索时可以精确检索到所需要的文件,能够提高下次检索的成功率。用户在使用检索功能时,可推荐相关搜索词、最热搜索词等,可在检索结果中找到可能的文件,并进行在线预览。检索工具支持全格式文件标题、描述信息等的查看,支持图片、视频在线预览功能。用户可在右侧查看与该文档相似的文档,可进行查看并下载。云检索平台的实现采用面向对象的开发方法,具体研究内容包括:1.适合中小企业的云检索平台的架构设计中小企业在知识管理方面往往不能投入过多的资金,而可定制化的、开源的组件、架构、平台能够有效降低企业的投入。因此,适合中小企业的云检索平台的架构的实现就显得尤为重要,通过在企业现有条件下,定制化的搭建符合企业要求的网站架构、云平台架构,从而实现企业的知识管理。2.文档存储的混合解决方案本平台主要解决差异存储问题。目前大多数云存储平台都存在着不能有效支持大文件、小文件共存的问题,因此本系统通过提出一种启发式算法来解决该问题。由于HDFS对于小文件的支持并不好,过多的存储小文件会大量的占用内存空间,导致机器处理速度下降。HBase适合较小文件存储,存储方式为将文件转为BASE64编码传入,并通过编码转换进行下载。因此系统使用HBase来存储小文件,HDFS存储大文件,提高系统的使用效率,降低了不必要的资源的消耗。3.智能推荐系统的研究与实现为了使用户在检索时能够找到相关、相似的文档,平台需要提供一种有效的智能推荐系统。该系统使用Spark运行机器学习算法、Elasticsearch实现系统的检索需求。算法主要包括LDA聚类算法及Elasticsearch自带的检索算法等,将这些算法应用于平台上的相关搜索词推荐、最热搜索词推荐、文章聚类分析推荐等模块。之后可通过机器学习算法优化用户检索准确度,提高检索成功率,提高产品质量。在上述研究基础上,验证分布式知识文档存储的混合解决方案、利用机器学习和大数据分析实现智能化的知识推荐系统的可行性和有效性,并对混合方案的性能,推荐算法的有效性和实时性进行验证,最终设计实现了云检索平台。在理论层面,本文提出大数据环境下考虑读写个性化、混合存储需求的海量多源知识检索系统。在应用层面,本文可以有效地指导企业成功实施类似工程项目。企业云检索平台相比于百度云、360云盘等,拥有全文检索、同名文件保存等功能;相比于一些企业级云盘,企业云检索平台可以根据现有设备部署,降低了企业的先期投入;出于安全的考虑,部分企业更愿意将机密的文件保存至企业内部。因此,企业云检索平台是一个考虑读写个性化、混合存储需求的海量多源知识检索系统;企业云检索平台是一个基于大数据分析,机器学习算法的实时智能推荐系统;企业云检索平台是一款针对企业级用户,基于云平台的可降低企业运营成本、提高企业工作效率的一款B/S架构的企业知识管理平台。