基于神经网络的政府开放数据网站评价研究

来源 :现代情报 | 被引量 : 0次 | 上传用户:leafxzc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  〔摘要〕本文基于对政府网站评价和政府开放数据评价的研究,建立了政府开放数据网站评价指标体系。以美国20个具有代表性的政府开放数据网站为例进行指标数据获取和专家打分,在此基础上利用神经网络的BP算法确定总体的评价结果,与专家打分结果进行比较,满足误差精度的要求,从而验证了该方法应用于评价政府开放数据网站的可行性,为今后评价该类网站提供了科学、迅速、精准的评价体系。
  〔关键词〕神经网络;政府开放数据;网站评价;美国;BP算法
  DOI:10.3969/j.issn.1008-0821.2016.09.003
  〔中图分类号〕G203;D63-39〔文献标识码〕A〔文章编号〕1008-0821(2016)09-0016-06
  〔Abstract〕This paper built an index system for evaluating the government open data website based on the studies about government website evaluation and government open data evaluation.By taking 20 American representative governmental open data websites as a sample,this paper got the index data and score by experts and obtained the overall evaluation results through BP algorithm of neural network to compare the experts scores for getting the requirement of error precision.So it could test and verify the feasibility of this way to evaluate the government open data website and could supply a scientific,rapid and accurate system to evaluate the government open data website in the future.
  〔Key words〕neural network;government open data;website evaluation;America;BP algorithm
  政府数据是由政府部门或者政府相关机构在管理公共部门得事务过程中产生的数据与信息。开放则意味着政府部门将这些数据与信息公开,并可以为任何人所浏览、下载和使用。政府开放数据包括,法律法规、政策文件、部门报告、公共注册信息、气象、科研等基于公共目的产生的信息与数据。大数据时代,政府开放数据主要通过开放数据网站实现数据的开放,由此便于用户无碍的查询、检索和使用数据。因此,政府建立并完善开放数据网站,能够有效的提高政府行政办事的公平性和透明性,方便公众监督政府行为。
  自2009年美国首先建立了政府开放数据网站——Datagov,目前,该网站已经发布了逾127 113项数据集,并不断有新的数据加入。其数据涉及20个主题,且可以通过各种分类进行排序。截至目前为止,美国已有40个州、48个市、县推出了开放数据网站[1],在整个世界范围内处于领先水平。对比来看中国的政府数据开放平台成立的时间较晚,网站内容和功能的建设都存在较大的提高空间。学者钱晓红等对比了美国、欧盟、英国政府数据开放网站的建设现状和现有的问题,认为我国网站还有大量基础性建设工作需要完善,比如跨部门的数据共享、合理的元数据结构、服务功能等[2];侯人华等以美国政府开放数据网站为例,从数据管理的视角,对数据的特点、采集、管理、利用以及优势这5个方面进行了梳理和分析,以期对本国的网站建设提供借鉴[3];陈美从数据保障机制着手,分析了美国利用云计算和大数据方式完善数据,建立保证体系,从而实现政府开放数据共享,为我国发展政府开放数据网站提出了建议[4];可见,大多数学者都通过对比研究的方式,将处于领先地位的美国等国政府开放数据网站的发展历史、现状、特点、优势等作了描述性的分析,从而为提高中国政府开放数据网站水平提出意见。但是,较多的研究都集中于定性分析,缺乏从定量的视角客观的解析美国开放政府数据网站现状,而且这种对比研究没有一套标准的衡量体系,不具有全局观,因此研究出的结果也具有主观性和片面性。
  基于此,本文综合借鉴前人评价政府网站以及政府开放数据的评价研究,首先确定评价政府开放数据网站的体系指标。再以美国20个地方政府开放数据网站为样本收集定量和定性指标的数据和专家总评结果,在此基础上利用神经网络的BP算法确定总体的评价结果,与专家打分结果进行比较,从而验证了该方法应用于评价政府开放数据网站的可行性,为今后评价该类网站提供了科学、迅速、精准的评价体系。同时也构建了一种综合的、应用广泛的评价政府开放数据网站的体系。
  1政府开放数据网站评价体系构建及评价过程设计
  11神经网络法
  人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为神经网络(NNs),是20世纪80年代以来人工智能领域兴起的研究热点。它的工作原理是仿照人脑的运作模式,具有并行处理机制和学习、联想、记忆等功能和强大的容错能力,这使它在环境知识的获取与处理中表现得相当出色,从而受到各学科学者的关注。BP神经网络模型是人工神经网络算法的一种,是一种通过多层结构来解决非线性问题的算法,这多层结构包括输入层、若干个隐含层和输出层[5]。本文构建四层网络结构,采用四层前向BP神经网络结构,包含两个隐含层,一个输入层和一个输出层。将训练样本输入网络进行运算,采用梯度下降法对BP网络进行训练[6],直到系统误差符合指定要求后,所得到的网络模型便是所需要的政府开放数据网站评价模型,文中基于BP神经网络的政府开放数据网站评价,训练神经网络并计算训练误差方法如下:   12评价指标选取及体系构建
  合理的指标选取是评价一个网站的重要前提,但是关于政府开放数据网站评价体系的研究还不是很充分。因此,笔者将综合前人评价政府网站的评价体系,因为政府网站和政府开放数据网站都是政府举办的信息公开,资源共享的服务性质网站,在一定程度上具有相似性。并且结合政府开放数据的评价特点,总结一套适合政府开放数据网站的评价体系。
  Cora Sio KuanLai等以用户接受和满意的视角构建了评价政府网站的四维度测试模型,包含信息质量、系统质量、感知效率和社会影响,并对464名测试者进行问卷测试,通过技术接受模型检验,认为社会影响是最重要的影响因素[7];Freida Palma等从系统质量入手评价政府网站,通过对比韩国政府网站和伯利兹城网站在网站性能、网站可达性、隐私保护及安全方面的差异,对伯利兹城为代表的发展中国家提高政府网站建设水平提供经验[8];A Vetrò等认为评价政府开放数据可以从可追溯性、价值性、延迟性、完整性、规范性、可读性和精确性方面考虑,并建立了一套数据集评价模型[9];国际开放政府工作组经过会议研究认为,政府开放数据从数据的特点出发,应该具有及时性、全面性、原始性、可获得性、机器可读、非歧视性、非专有性、无须授权(涉及隐私、安全和特别限制的除外)等特性,因此评价政府开放数据应该满足这八大原则[10]。
  综合上述研究成果,本文建构了5个维度下16个评价指标,这5个维度分别是网站规模、网站性能、网站体验、网站内容和网站影响。网站规模体现了网站资源丰富程度,它的投入大小会直接作用于用户的线索效率,是评价任何网站必不可少的要素,通过网站总页面数、网站总链接数、Web对象数量来进行评价。网站性能体现网站在建设过程中的技术投入,本文通过链路完整性、页面返回率和内链数指标进行评价。网站体验是用户在浏览网站过程中的主观反应,会受到很多因素的直接影响,本文通过连通率、下载速度、页面友好程度进行评价。网站内容是指政府开放数据网站公开、共享、可下载的内容,这项指标是政府开放数据网站评价体系的独有且最基本的指标,是该类网站存在意义的基础,通过数据可获性、数据及时性和数据全面性进行评价。网站影响是指网站建设及运行过程中对外产生的直接或间接的作用。本文通过被搜索引擎收录、访问量、网站评级、网站信任得分进行评价。具体政府开放数据网站评价体系及指标内容如表1所示。
  13评价过程设计
  第一步:收集数据,依照上文构建的评价体系,选择合理的样本,通过软件抓取和问卷调查的方式获取样本数据。为让神经网络计算结果表现的更好,要对原始数据进行归一化处理。归一化处理后的数据集分为学习样本和测试样本,用来对BP网络进行学习与测试。
  第二步:构建BP网络模型,确定BP网络参数。合理确定网络层数及各网络层的神经元数是成功应用BP网络模型的关键。为使神经网络更加可靠,本文选择隐含层数为2,采用4层BP网络来构建政府开放数据网站评价模型。
  本文建构的评价体系包含16个二级指标,评价目标是政府开放数据网站。由此BP网络的输入层节点数定为16个,输出层神经元个数确定为1,神经网络输出值即政府开放数据网站的评价值。我们采用常用的“试凑法”,即根据隐含层节点数的启发式规则,某一隐含层节点数m=log2n,n为神经网络中上一层的节点数,从而我们确定隐含层节点数第一层为4,第二层为2。根据以上分析,BP神经网络模型结构确定为16—4—2—1。
  关于BP网络参数作出以下设定:BP神经网络隐含层单元和输出层单元上的激活函数都取为logsig函数,隐含层神经元的传递函数和输出层神经元传递函数都采用S型对数函数logsig,初始权值取在(0,1)之间的随机数,学习速率定为075,期望误差为000010。
  第三步:利用Python实现BP神经网络,并用训练数据进行训练。本文通过Python352软件平台开发程序,输入学习样本,读入网络参数,对BP网络进行训练。如果网络运行结果符合要求(训练达到预定学习次数或者误差小于期望误差),则网络训练成功。否则,就要调整网络参数,或输入新的学习样本对网络重新训练。
  第四步:利用Pyhton程序对训练好的BP网络进行仿真测试。BP网络训练好后,还必须对它的精确程度加以检验。同样利用Python程序,将测试样本输入到训练好的BP网络中,检验测试误差是否满足要求。如果满足,则网络成功建立。如果测试结果出入较大,则要删除不理想的样本或输入新的样本重新对网络进行训练,得到新的网络权值后再利用测试样本对网络进行测试[11]。
  2政府开放数据网站应用分析
  样本的有效性是确保评价科学合理的基本条件。为保证网络训练与模型的质量,为使原始数据更加准确、科学,笔者通过比较筛选,选取美国的20家地方网站作为实验对象,如表2所示,本文将其中前12个网站作为训练样本,后8个网站作为测试样本。
  针对上文设计的体系指标,定量指标网站总页面数、网站总链接数和Web对象数量、链路完整性、页面返回率和内链数、连通率、下载速度通过软件Maxamine Web Analyst软件进行抓取,搜索引擎收录、访问量、网站评级、网站信任通过站长工具获取;定性指标包括页面友好程度、数据可获性、数据及时性、数据全面性以及最终总评由相关专家进行打分,获得最终的数据。为使数据符合训练过程的函数运算要求,加快训练网络的收敛性,必须首先对所有原始数据进行归一化处理。数据归一化结果保留小数点3位,如表3所示:
  笔者选取表2中前12个样本数据作为训练数据对神经网络进行训练。通过Python程序,输入预定网络参数,利用归一化处理后的训练样本对BP神经网络进行训练,经过3075次训练后,网络误差达到预定阈值,其训练误差随迭代次数变化曲线如图1所示,得到网络输出结果与专家总评数据比较如表4所示:   结果表明,8组测试数据的网络输出与专家评价值误差均在设定范围之内,因此基于BP神经网络的政府开放数据网站评价模型训练和预测精度符合要求,是一个合理的、可行的、精度较高的预测模型。因此可以用来评价政府开放数据网站,且能够精准的模仿人类专家的思维方式进行准确的计算,避免人脑的在评价同一事物时会因为情绪的不稳定,而影响评价结果。
  3结语
  本文首先分析了国内外在政府开放数据网站方面的相关研究,并建立了一套评价政府开放数据网站的指标体系,通过软件抓取和专家打分得到分析数据。在此基础上用BP神经网络算法进行计算得出一个评价结果,将此结果与专家打分结果进行对比,它在合理的误差范围内,表明BP神经网络方法不但能够高效、迅速的进行计算而且满足误差精度的要求,它能够通过非线性的方法考虑评价标准的多样性和不确定性,是一种可以用来评价政府开放数据网站的新型评价工具,具有十分重要的意义。
  参考文献
  [1]Open data in the United States[EB/OL].https:∥www.data.gov/open-gov/,2016-08-12.
  [2]钱晓红,胡芒谷.政府开放数据网站的构建及技术特征[J].图书情报知识,2014,(3):124-128.
  [3]侯人华,徐少同.美国政府开放数据的管理和利用分析[J].图书情报工作,2011,(4):119-122.
  [4]陈美.美国开放政府数据的保障机制研究[J].情报杂志,2013,(7):148-153.
  [5]韩力群.人工神经网络理论、设计及应用[M].北京:化学工业出版社,2007:47-48.
  [6]周瑛,刘天娇.基于神经网络的高校图书馆知识服务评价体系研究[J].情报理论与实践,2013,(2):55-59.
  [7]CSK Lai,G Pires.Testing of a Model Evaluating e-Government Portal Acceptance and Satisfaction[J].Electronic Journal of Information Systems Evaluation,2010,(1):36-46.
  [8]F Palma,SG Hong.Evaluating the Website Performance of Belizes e-Government Portal[J].Journal of Convergence Information Technology,2013,(5):986-993.
  [9]A Vetrò,L Canova,M Torchiano,et al.Open Data Quality Measurement Framework:Definition and Application to Open Government Data[J].Government Information Quarterly,2016,33(2):325-337.
  [10]Open data barometer global report[R/OL].http:∥boletines.prisadigital.com/Open Data Barometer - Global Report - 2nd Edition - PRINT.pdf,2016-08-12.
  [11]贾洁,彭奇志.基于BP神经网络的图书馆电子资源质量评价研究[J].图书情报工作,2010,(21):84-87.
  (本文责任编辑:马卓)
其他文献
〔摘要〕[目的/意义]我国经济进入“新常态”的发展阶段,以互联网为代表的信息技术已然成为重要的经济引擎,在此背景下,由中国信息经济学会举办的主题为“信息经济理论创新与中国问题”的2016年度学术年会顺利召开。为了帮助学界了解在本次学术论坛上各位学者的最新研究成果,精准把握信息经济学的研究动态,[方法/过程]本文根据会议主题和分论坛议题及讨论,以“信息经济统计测算与预测研究”、“政府管理的信息经济学
〔摘 要〕[目的/意义]随着国民经济的持续增长,人们的消费从物质需求转向精神需求,移动音乐平台的发展迎来新的增长点。本文基于PPM模型,以网易云音乐为研究对象,通过实证方法分析用户在移动音乐平台之间的转移行为。[方法/过程]本文将不满意度作为推动因素(Push Factor),将财务转移成本和关系转移成本作为锚定因素(Mooring Factor),将网络义务性和相对匮乏性作为拉动因素(Pull
〔摘 要〕本文首先介绍了web2.0的定义及其技术特征,并针对web1.0进行区别与比较。接着详细分析了web2.0技术在图书馆信息服务中的应用现状及实践研究,并且提出了新的网络环境下图书馆信息服务的一些创新方法。最后展望了web2.0与图书馆信息服务相结合的发展前景。  〔关键词〕web2.0;图书馆;信息服务  〔中图分类号〕G202 〔文献标识码〕B 〔文章编号〕1008-0821(2009
〔摘 要〕本文主要论述公共图书馆对学习型社会到来的知识管理应对方案。讨论了知识管理是学习型社会对公共图书馆的必然要求,在公共图书馆应该实行怎么样的知识管理措施,这些措施之间又该如何与学习型社会学习特征相联系。最后,在知识管理基础之上提出学习型社会中公共图书馆的服务模型。   〔关键词〕学习型社会;公共图书馆;知识管理;服务模型  21世纪前期,中国将用20年的时间全面建设小康社会。学习型社会作为小
如今那些热爱篮球的中国留学生,还能好好打篮球吗?  北美疫情政策的施行,使得大批篮球留学生归国。8月份,由北京首钢篮球俱乐部出资的留美篮球小将曾凡博归国进行训练,在组队对阵2020年中国大学生篮球联赛冠军队清华大学校队的一场比赛中,单独砍下了26分11篮板7盖帽的数据,比赛录像中,迎着两名防守球员,献上的一记突破后的暴力隔扣,更是令在这个疫情期间无比赛可看,无球可打的广大球迷感到耳目一新。而除此之
〔摘要〕在回顾“信息茧房”研究的基础上,分析了内容智能分发平台用户“信息茧房”量化研究的可行性。从内容智能分发平台服务用户的具体过程入手,对内容智能分发平台“信息茧房”问题进行深入分析,并基于中医临床诊断中“症状—证型—组方—评价”的全过程进行分阶段的多维量化研究,进而推出内容智能分发平台用户“信息茧房”系统量化研究模型,最后对研究中存在的优势与局限性进行简述,并展望下一阶段的研究。  〔关键词〕
每个家庭都有个守护神?或许只是幻想,但偶尔找找安全感也不错。  每年腊月,当春节逐渐临近的时候,人们总会忙碌起来。特别是年前的几个日子,每天都像过年的彩排一般愈发隆重,“小年”便是其中尤为重要的一天,在我国的传说中,这天是灶王爷上天“总结工作”的日子。在过去的时代里,灶王的地位相当于一家之主,人们在一年中都要供奉他。在小年这天,为了不让他说出家里不好的事,人们还要用小年专用食品——糖瓜,作为礼品贡
〔摘要〕[目的/意义]本文旨在基于健康素养,探索大学生健康信息行为差异对实际健康水平的影响,以期能够改善国内面向大学生的健康信息服务,提高大学生健康水平。[方法/过程]本文通过问卷调查收集了1 168位大学生的数据,结合武汉大学体育部真实体测数据,利用相关统计方法,对大学生的健康信息行为与健康素养差异对实际健康水平的影响进行研究。[结果/结论]研究发现:健康信息搜寻、健康素养都与大学生的健康水平显
摘 要:[目的/意义]引文情感分析揭示施引文献对被引文献的褒义、贬义和中性的情感倾向性,解析文献之间深层语义关系,能够帮助更加准确地评价被引文献和作者。[方法/过程]以自然语言处理领域文献的引文情感为数据集,利用引文中情感表达的引文标识位置指引和情感词汇等特征,采用支持向量机(SVM)构建引文情感的自动识别系统,探索生成更大规模数据的方法。[结果/结论]实践应用证明,该系统特征的区分度较强,准确率
摘要:科研社交网络在我国的应用正日益广泛,文章探究科研社交网络中用户学术社交不足的前置动因,以小木虫为数据收集场所,通过半结构化访谈法深入访谈12名用户,运用NVivo质性分析软件对访谈原始数据进行分析,归纳出13个主范畴并聚焦为4个核心范畴,分别是个体意向因素、平台客观条件、信息因素和学术交流特性,在此基础上提出优化用户学术社交行为和改善科研社交网络学术社交功能的建议和对策。  关键词:科研社交