论文部分内容阅读
随着电子公务的发展,越来越多的政府、机关公文开始通过网络在部门间进行传递。对于政府公文的整编、管理工作在过去是由人工来完成的。但随着电子公文的数量急剧增加,过去针对纸质档案的人工整编方法对于电子档案已经力不从心。因此,开发一套用于电子档案存储、管理以及利用的电子档案管理系统是一件对于保存这些珍贵的电子档案具有重要价值的事情。本文根据电子档案管理中存在问题与挑战,参考实体档案的管理,利用流程,开发了一套用于政府内部的电子档案管理系统。这套系统严格地遵循了实体档案整编过程中需要进行的流程。并根据电子档案管理中的实际问题,着重在保障电子档案安全性问题、提高电子档案利用效率上做了研究。通过结合使用数字签名和数字信封技术,完成了电子档案借阅业务中的安全保护工作,通过对偶编码技术实现了电子档案的密文检索功能。在此基础上,为了提高档案利用者的阅读效率,通过构建基于二分类模型的关键词提取算法,实现了基于关键词的关键句提取功能。进而通过关键句子形成文章的摘要。本文主要做了以下几方面的工作:结合电子档案管理工作中的主要问题,实现了一套完全遵循实体档案整编流程的电子档案管理流程,以此保证了电子档案管理流程的权威性。1、通过数字签名、数字信封技术,完成了电子档案的借阅业务中的安全保障功能。2、通过对偶编码函数,完成了密文检索模块的搭建。使得电子档案的密文存储和密文检索成为了可能。保证了电子档案在存储过程中的安全性。3、在传统的文本摘要算法的基础上,结合了基于词频的词向量和基于主题的词向量来构建分类模型所用的词向量。通过结合tf-idf、Textrank、LSA、word2vec四个算法的输出,作为分类模型的输入。并对生产的词向量做了特征选择和降维。4、综合比较了 SVM、logistic regression、随机森林、GBDT 等四种分类算法在训练集上的表现,选择了最优的分类模型和最优的特征参数。5、采用ssh框架及基于mvc模式的模块式开发模式完成了系统的开发,并通过测试,能够完成电子档案在管理业务上的各项需求。