企业云检索平台关键技术与智能推荐算法研究与实现

来源 :东北财经大学 | 被引量 : 1次 | 上传用户:zz_mars
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着企业的不断发展与进步,企业会积累大量的文件、图片、视频等相关资料,这些资料数量庞大。当企业需要某份文件时,需要花费大量的时间进行检索;如遇到硬盘损坏等问题,则要面临资料丢失的风险。这些情况暴露了传统系统架构下的局限与不足,如资料受硬盘使用限制,需定期备份;检索大量文件时速度缓慢,无法根据文档内容进行检索;无法一次找到所有有价值的文件等问题。大数据环境下的企业知识管理需要更快的检索速度,更稳定的存储方案,对原有架构和技术提出了更高的要求,因此,本文提出适合中小型企业知识管理的云检索平台的架构与实现方法,以及分布式系统的混合存储解决方案,实现了文档的全文检索,并对检索内容、文档进行智能推荐。该平台支持全格式文件,支持OFFICE、PDF、TXT、HTML等多种格式文本提取,支持RAR、ZIP文件在线解压,支持图片、视频等文件的在线预览等。云检索平台采用智能检索,用户在检索时可以精确检索到所需要的文件,能够提高下次检索的成功率。用户在使用检索功能时,可推荐相关搜索词、最热搜索词等,可在检索结果中找到可能的文件,并进行在线预览。检索工具支持全格式文件标题、描述信息等的查看,支持图片、视频在线预览功能。用户可在右侧查看与该文档相似的文档,可进行查看并下载。云检索平台的实现采用面向对象的开发方法,具体研究内容包括:1.适合中小企业的云检索平台的架构设计中小企业在知识管理方面往往不能投入过多的资金,而可定制化的、开源的组件、架构、平台能够有效降低企业的投入。因此,适合中小企业的云检索平台的架构的实现就显得尤为重要,通过在企业现有条件下,定制化的搭建符合企业要求的网站架构、云平台架构,从而实现企业的知识管理。2.文档存储的混合解决方案本平台主要解决差异存储问题。目前大多数云存储平台都存在着不能有效支持大文件、小文件共存的问题,因此本系统通过提出一种启发式算法来解决该问题。由于HDFS对于小文件的支持并不好,过多的存储小文件会大量的占用内存空间,导致机器处理速度下降。HBase适合较小文件存储,存储方式为将文件转为BASE64编码传入,并通过编码转换进行下载。因此系统使用HBase来存储小文件,HDFS存储大文件,提高系统的使用效率,降低了不必要的资源的消耗。3.智能推荐系统的研究与实现为了使用户在检索时能够找到相关、相似的文档,平台需要提供一种有效的智能推荐系统。该系统使用Spark运行机器学习算法、Elasticsearch实现系统的检索需求。算法主要包括LDA聚类算法及Elasticsearch自带的检索算法等,将这些算法应用于平台上的相关搜索词推荐、最热搜索词推荐、文章聚类分析推荐等模块。之后可通过机器学习算法优化用户检索准确度,提高检索成功率,提高产品质量。在上述研究基础上,验证分布式知识文档存储的混合解决方案、利用机器学习和大数据分析实现智能化的知识推荐系统的可行性和有效性,并对混合方案的性能,推荐算法的有效性和实时性进行验证,最终设计实现了云检索平台。在理论层面,本文提出大数据环境下考虑读写个性化、混合存储需求的海量多源知识检索系统。在应用层面,本文可以有效地指导企业成功实施类似工程项目。企业云检索平台相比于百度云、360云盘等,拥有全文检索、同名文件保存等功能;相比于一些企业级云盘,企业云检索平台可以根据现有设备部署,降低了企业的先期投入;出于安全的考虑,部分企业更愿意将机密的文件保存至企业内部。因此,企业云检索平台是一个考虑读写个性化、混合存储需求的海量多源知识检索系统;企业云检索平台是一个基于大数据分析,机器学习算法的实时智能推荐系统;企业云检索平台是一款针对企业级用户,基于云平台的可降低企业运营成本、提高企业工作效率的一款B/S架构的企业知识管理平台。
其他文献
<正>茶树安全越冬防护技术可有效解决我省茶叶产区冬季寒冷,干旱和低温持续时间较长,对茶树越冬易造成冻害而减产的问题,对促进茶叶稳产优质高效发展和农民增收,具有重大的意
目的:探讨剖宫产术后的观察及护理方法。方法:将我院收治的168例剖宫产产妇随机分为对照组和观察组,对照组采用常规护理,观察组采用舒适护理。分析两组术后抑郁情况、镇痛情
纳税遵从研究在我国尚处于起步阶段。尽管西方众多现有的纳税遵从研究理论和成果在我国目前的市场经济中应用广泛,对我国的税收征管起到良好的作用,但是由于我国经济制度、政
<正>近几年来,随着国内生活水平的大幅度提高,国内市场对高品质生姜的需求日益增多,目前已经出现了"供不应求,价高无货"的现状,特别是在山区丘陵地带窖存的生姜,因其姜色黄亮
入主中土的北方游牧民族在较长时期内保持本民族遗风,它的作家多以刚直果敢著称。汉族文人在民族融合大潮中,也形成了豪爽粗犷的性格,只是在表现方式上和少数民族文人有所不同。
提出一种基于高清面部图像的人脸疲劳检测方法,针对现有疲劳检测技术的不足,提出将面部彩色图像处理与纹理特征相结合的一种新型疲劳分析方法。采集不同测试者早(健康状态)、
从黄酒发酵液中分离得到6株乳酸菌,16S rDNA序列分析和生理生化鉴定结果表明:菌株R1、R4、R5、R8、R20为Lactobacillus rossiae,菌株R2为Lactobacillus casei。采用平板检测
以我国22个省以及4个直辖市为研究样本,运用面板向量自回归模型建模,对人口老龄化、房价波动与地方政府债务风险之间的相互影响关系进行了研究。研究表明:人口老龄化对房价和
本文对20个北方小麦品种的综合理化指标与粉质指标进行了测定,并进行了速冻饺子的制作实验,分析了小麦各理化及粉质指标与速冻饺子质量之间的关系。结果表明,湿面筋含量、蛋
在借鉴国内外研究方法和研究成果的基础上,对汉语邀请言语行为在中国的实施情况从语用学的角度进行了系统的研究。提出了"邀请"的概念,区分了邀请类别的标准,探讨了邀请的方