融合LDA模型的政策文本量化分析

来源 :现代情报 | 被引量 : 0次 | 上传用户:mdskct
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  〔摘要〕政策文本是政策生命周期的核心要件,对其进行多种维度的内容挖掘与国内外的对比分析不但有利于指导政策的制定,还有益于把握国际局势,以提升国家软实力。对于政策文本内容的量化研究而言,目前的学术成果采用的方法主要有基于数理统计的内容分析类、文献计量类、社会网络分析类、文本挖掘类等方面。文章选取国际气候领域作为试点对象,采用主题模型的新视角,对采集到的政策文本数据进行基于语义的主题挖掘,并同时融合词频及分布形态研究、时间离散化、实证研究等方法综合对比分析我国与美国、欧盟的气候政策情况。最后,根据数据证据为我国相关政策的制定提出完善建议。
  〔关键词〕LDA;模型;政策文本;主题挖掘;量化分析;R语言;国际气候领域
  政策法规原始文本作为一种特殊类型的文献具有期刊论文、专利文献等信息资源无法比拟的权威性、严肃性、约束力。其广义上的文本内涵表现为由国家或地区的各级权力或行政机关以文件形式颁布的法律、法规、部门规章等官方文献,通常被统称为政策文本。学术界对于政策法规的研究由来已久,研究对象涵盖政策法规的制定、执行以及效果、环境变量和反馈等重大方面,研究触角遍及政策法规的整个生命周期,采用的量化分析手段涉及运筹学、系统论与控制论、计量经济等众多领域。以上的研究切面很多是跳出政策文本,进行宏微观环境的模拟与探讨。作为社会的风向标以及生命周期的核心要件,相对于整个生命周期瑰丽的量化分析手段而言,政策文本的量化分析手段则较为简约,亟待开发与拓展。
  相对单调的量化分析手段与政策文本自身的特性休戚相关。作为文本对象,政策文本的研究方式源于文献解读,即在思辨的基础之上结合研究者的专业素养和政策领悟,通过分析政策文本的谋篇布局以及修辞与表述方式,探测出相关政治立场,并基于此进行深度解读或政治变迁的预测与估量。然而,当思辨形式的文本解读无法满足学术界关于理性主义、科学主义的诉求,以试图弥补以往研究的模糊性、经验性的量化主义便开始萌芽与发展。量化主义着手于从政策文本的外部特征和内容特征发现数量规律与政治现象,研究方式不仅是基于单篇文本层面的微观统计,还涉及特定领域大批量文本的宏观计量。
  纵观政策文本量化分析的历史进程,时至今日,在循序渐进中已经形成几条较为可行的研究方法与基本范式,笔者认为可以归纳为以下几大方面:①基于数理统计的内容分析类。模式表现为基于一定的理论工具,提出基本的文本分析框架并制定量化标准,采用多人编码或者专家打分的方式,从不同维度来测度文本的基本单元和内涵。典型的流程如国内学者盛亚[1]等人在研究创新政策中的利益相关者时,通过引入Rothwell等学者有关政策分类工具的理论成果,制定分类维度与内容编码标准,融合抽样以及多组多轮的分析方式,在结果的信度水平满足基本要求的情况下得出研究结论。②文献计量类。旨在将传统的文献计量方式迁移至政策文本,并在此基础上进行创新。李江[2]等学者提出“Policiometrics”即政策计量学这一概念,认为其是一种研究政策文本外部和内容结构属性的定量分析方法。研究切入点不仅涉及关键词共现、发文主体以及年份计量、政策类型及效力等传统视角,还包括文本内容中参照分析以及知识扩散等方面。③社会网络分析类。政策文本的社会网络分析视角常与文献计量方法融合交汇,不同的是,社会网络分析视角更加注重融合图论和传播学知识,注重从宏观视角展现政策文本中所隐含的关系网络、语言关联、行动关系。如张永安[3]等学者就运用社会网络分析法描绘出了相关领域政策发文主体的关系网络图谱。④文本挖掘类。在以往的定量分析方法均存在人力耗损较大、信息抽取方式过于简单、内容细节容易被忽视等情况下,部分学者开始尝试文本挖掘视角,这也是本文随后探讨的主要方面。⑤综合方法。通过对以上方法进行两两或多方融合并辅以其他特定分析手段,力求从多角度进行文本内容的全方位探讨。这种融会贯通的量化分析偏好将成为政策文本分析今后发展的重要方向。
  通览上述方法的特性,不难发现文本挖掘的应用程度将成为提升政策文本量化分析成熟度的关键。其丰富的研究手段不仅能够从政策文本中发掘出潜在的信息与知识,还能够凭借技术理性和机器效率完成文本内容多种维度的特征识别与信息抽取,为内容分析和政策文献计量等方法提供坚实的数据基础与效率支撑。由于政策文本有诸多特性,目前文本挖掘对其的应用程度尚不高,研究处于起步期。针对政策文本的高词项维度、多主题分布特征,本文将主题挖掘技术引入政策文本分析,通过基于主题的语义降维,探知政策文本潜在的主题内容及演化趋势。为使研究成果能够反映当下热点并更具实际价值,本文选取气候领域作为研究对象,因为随着发达国家碳资本主义的发展以及发展中国家能源消耗的加强,气候问题日益突出并国际化。由于不同国家或者地区的经济发展水平、战略利益等方面彼此不同,气候政策制定存在差异,因此基于主题挖掘来对比分析相异的气候政策的内容及发展趋势,能够利于把握国际气候治理局势并提高国家的软实力,对我国气候政策的制定具有重要的意义。本文的研究目的在于从主题分析的理论角度推进政策文本挖掘进程,并结合气候领域的分析实践验证主题挖掘的可行性及性能,最终根据研究结论为国家气候治理提供建议。
  1政策文本挖掘研究进展
  文本挖掘技术是指可以从文本中获得隐含知识的一类技术的统称,相关研究与应用兴起于20世纪90年代,处理的对象从最初的非结构化文本逐步扩展到半结构化的网页,再进一步延伸至专利文献、科技报告等特殊类型的非结构化文本。随着政策文本量化分析的需求逐渐凸显,以及文本挖掘技术在众多领域所实现的璀璨价值,有学者开始尝试将文本挖掘前沿技术应用于政策文本的内容分析。例如,Prior等人(2012年)[4]对英国的卫生领域的政策文件进行比较研究,基于政策文本叙事结构的特征识别,将文本挖掘策略与语义网分析相结合,揭示出政策文本内容的基本元素;Talamini与Dewes(2012年)[5]对巴西有关科研机构的学术文献以及政府公文施行文本挖掘,从宏观环境维度和d-words视角抽取高质量文本内容,从而对比分析液体生物燃料的科研成果与实际政策间的差异;Li Jiexun等人(2010年)[6]提出了一个名为政策过程挖掘(Policy-based Process Mining)的新方法,将文本挖掘算法融入商业政策文本,以完成特定信息自动抽取;刘兴(2011年)[7]通过融合正则自动机模型、改进的TF算法以及朴素贝叶斯算法(Naive Bayes)实现了税收政策公文识别;苏变萍(2008年)[8]改进了文档自动分类模式,提出了面向政策法规Web文本的一种动态可扩展的分类方法;熊小梅(2007年)[9]构建出法律案情文本分类系统,利用潜在语义分析技术进行文本二次降维,并使用支持向量机(Support Vector Machine)以及K近邻(K-Nearest Neighbour)技术测试文本分类。   综合当下的研究成果,可以发现政策文本挖掘的成熟度和丰富度均有待提升。一方面从研究成果“量”的角度来看,政策文本挖掘类文献较少,其学术投入的加强对改善政策内容分析定量不足而定性有余的整体态势具有实际意义。另一方面从研究成果的“质”上来看,当下政策文本挖掘类成果的研究视角主要集中在信息抽取、分类、聚类以及词项降维等方面,基于语义视角的技术补充则成为接下来的重要工作。由于主题挖掘技术的语义价值以及在降维方面的特殊作用,将其应用于政策文本分析以实现主题抽取则更具实际效用。
  2主题挖掘的发展概况以及政策文本的主题模型适用性论证主题挖掘技术伴随着自动文摘的研究而产生,其兴起始于学术界有关提升文本挖掘效能和深度的需求,技术开始从词项间的语义视角探知文本内容结构。随着单篇文档的局部主题无法满足研究需求,以及文本聚类、分类迫切需要语义视角的补充,基于大规模语料库的多文档主题挖掘便成为研究热点。目前相关研究内容主要包括探知主题外延、主题内涵、主题寿命、主题强度、主题迁移以及主题间的关系等,分析手段主要包括基于主题模型、基于网络图、基于词汇链的构造、基于共词分析等。
  主题模型是主题挖掘常用手段,被广泛用于自然语言处理和机器学习。其产生源自1990年Deerwester SC等人提出的潜在语义索引(LSI),以及随之发展的概率潜在语义索引(pLSI)。随后,David M Blei等人拓展了pLSI,提出了一个更完善的概率生成模型,即潜在狄利克雷分配模型(LDA)。作为非监督机器学习技术,LDA成为使用最为广泛的主题模型,现在的主题模型大多是基于其的扩展,如CTM、Labeled-LDA、PAM。目前,LDA的使用范围遍及文本情感分析、微博主题挖掘、话题追踪、垃圾评论屏蔽、知识挖掘、计算机视觉以及生物医学等领域,并由学术界逐渐延伸至工业界,已经发展成较为成熟的主题分析方法。
  对于政策法规这类特殊文本而言,由于其词项的高维特性,传统的基于相似性度量的分类和聚类等文本挖掘技术实施后的结果则缺乏可解释性,而其多主题特性则致使基于词频和内容结构规则的主题归纳方法失去实用价值。然而,主题模型则提供了新型语义降维与探索主题结构的新方法,将成为解决以上两大核心问题的关键技术。因为,主题模型具有清晰的层次结构,不仅能够从语义视角将高维的“文档-词项”分布映射至低维的“文档-主题”、“主题-词项”分布,从而将基于语义的“中层特征”(即主题)取代“底层特征”(即词项),达到更具意义的文本降维,还能够将文本主题结构及其分布量化的展现出来,并挖掘出定性的角度难以归纳出的潜在语义关系,从而定量的实现政策法规这类特殊文本的多主题分析价值。此外,对于大规模语料库,主题模型的适用性和支持性均较为突出,这也使得分析大容量的政策法规文本库可行性较大。基于以上论断,本文将采用LDA主题模型进行气候领域政策法规原始文本的主题挖掘实践。
  2数据来源和处理方法
  2采集对象
  依据UNFCCC(联合国气候变化框架公约)历史缔约方的气候治理态度,参与气候国际谈判的国家或地区可被分为领跑者、伞形国家、发展中国家和特殊利益集团3种主要类型[10]。本文选取欧盟、美国、中国分别作为这3种类型的典型代表,以发布的气候政策文本作为分析对象,进行主题挖掘与对比分析。为确保分析对象的可比性,本文聚焦最高层面的政策法规,因为顶层设计基本反映了一个国家或者地区的整体规划。此外,气候与能源、环境等国家核心架构联系密切,很多有关气候的政策法规其核心主题并不是气候,而是能源、环境等,这样的政策文本显然不能作为本文的主要数据来源,否则会形成较大的偏差。本文所采集的政策文本明确限定于标题包含气候的政策法规。
  2数据来源
  由于三方的法律体系、政府机构、公文类型均有差异,本文以政府官方门户发表的公文情况为基准,利用爬虫抓取门户上的目标法律、法规、政策文件。本文将政策文本大类定义为:法律(法律、草案、议案等形式)、政府公布的所有相关类型的文件(所有相关部门或委员会公布的条例、政策、白皮书等),数据抓取时间为2015年7月。
  2欧盟
  欧盟法除了成员国国内法外,主要包括条约、二级法、补充法3个层面。有关欧盟的联盟层面的政策法规在官方门户EUR-Lex(url:http:∥eur-lex.europa.eu/homepage.html/)均可以查到。符合要求的文件类型为除Consolidated Legislation(合并立法)和Parliamentary Questions(议会疑问)外的所有类型,实验最终抓取满足条件的文件共计249份。
  c美国
  美国是宪政联邦共和制国家,有关美国的法律(包括议案)在国会门户(url:https:∥www.congress.gov/)均可获得,联邦政府以及相关部门的政策文件来自GPO(美国政府出版办公室,url:http:∥www.gpo.gov/)的FDsys(美国政府出版办公室联邦数字化系统)。该系统提供了美国政府自90年代以来的官方文件。根据文件集的简介,选择满足条件的文件集作为文件来源,融合两大门户最终抓取文件754份。
  2中国
  全国人大是中国的最高权力机关,享有立法权。国务院(即中央人民政府)是最高行政机关的执行机关。我国政策文本的采集理应来自这两方。由于政府门户公布的信息仅是近年的,且检索界面不够友好,故将数据来源替换为“北大法宝”(url:http:∥www.pkulaw.cn/),目前国内最为权威的法律法规信息检索系统。筛选数据集后,最终抓取文件86份。
  3基于R语言的主题挖掘模型构建
  政策文本具有典型的长文本特性,其政治术语较多,语义表述较为完整。同微博等个人类短文本不同,政策文本并不涉及较多的情感词汇,也不涉及千变万化的表达习惯和个性标签,其内容的特征单元词往往具有规范性与文本间的连续使用性。此外,与学术文献等不同,政策文本往往不具有摘要类结构,其内容结构随着政策类别或政策领域而形态各异。因此,对政策文本内容的挖掘往往是基于政策全文的。由于基于词频热度的主题词表达热点主题的能力有限,语义层面的主题分析则成为关键的补充。本文通过融合词项层面和语义层面的分析视角进行政策文本的主题研究,并在以内容特征作为挖掘对象的基础之上,加入时间窗口的外部特征,利用主题的时间离散化以进行趋势分析。   本文构建了基于R语言的主题挖掘模型(见图1)。模型整体由左上角政府官方门户开始至右下角主题强度迁移结束,共分为五大模块:①政策法规数据的采集与语料库的建立;②文本预处理;③N-gram模型;④高维数据降维与信息过滤;⑤LDA主题模型与模型参数的构建。此外,虚线框及其右上方标识代表相应的R语言模块。图1基于R语言的政策文本主题挖掘模型示意图
  1文本预处理
  施行数据清洗后,得到欧盟228件、美国751件、中国84件文本。①英文:对原始文本进行基础字符处理,创建融合政策法规常规停用词的针对性停用词表,使用Porter词干提取算法[11]对语料库文档进行词干化。②中文:采用Rwordseg(原理为利用rJava调用基于中科院中文分词算法ictclas的开源工具Ansj)进行中文分词,加载搜狗专业词典23个(其中包括气象、能源、法律政策等领域专业词汇)以提升分词效果,融合哈工大停用词表、四川大学机器智能实验室停用词库、政策特征停用词以进行停用词处理。
  2N-gram模型
  在进行文本挖掘时,仅分析单词显然不能满足要求,如“text mining”中的元素“text”单独出现没有实际分析价值。N-gram模型可以避免单词分析的不足,其基本思路为[12]:假设句子S由k个特征项构成,即S=(w1,w2,w3,…,wk),且其中一个特征项出现的概率仅与前k-1项的概率相关,第i项出现的概率由公式(1)计算所得。公式(1) 使用最大似然估计法求取条件概率,公式中的c(wi-n 1,wi-n 2,…,wi-1,wi)为相应的特征项序列在语料库中出现的次数。RWeka提供了NGramTokenizer函数,用于基于N-gram的特征项抽取,通过提供最小和最大的元数,将字符串分裂成N元。国外已有学者将NGramTokenizer函数用于银行业的文献主题挖掘[13]。本文利用该函数,将N区间设置为1~3,以单词和二三元词组作为研究对象,这样设置的优势是在概率统计的基础上,能将核心词汇和核心词组一并得出。
  P(wiw1,w2,w3,…,wk)=P(wiwi-n 1,wi-n 2,…,wi-n)=c(wi-n 1,wi-n 2,…,wi-1,wi)c(wi-n 1,wi-n 2,…,wi-1)(1)
  3高维数据降维与信息过滤
  降维和信息过滤是实现数据可分析的两项核心任务,二者交互进行。对于政策法规而言,其大多为长文本且信息噪声较大,在预处理过程中会产生十几万甚至更多维数的稀疏矩阵。目前常用的高维数据降维方法可以归纳为3大类。①纵向投影:利用映射、抽取或者综合的方法将文本集合的特征项由高维转换至低维,如主成分分析(PCA)、潜在语义索引(LSI)、多维尺度分析(MDS)、局部线性嵌入(LLE)[14]。②横向过滤:除了使用停用词剔除噪声、提高精度,还包括建立评价函数,筛选分值较高的特征项用于后续挖掘,如TF和TF-IDF[15-16]、信息增益(IG)、互信息(MI)、期望交叉熵(ECE)[14]。③其他:利用聚类或主题分析等方式,以提取“中间特征”进行降维。本文融合方法②③,先使用停用词表等基础处理方式,然后剔除TF-IDF过低的词项,接着将TF阈值设置为5[15],并利用removeSparseTerms函数去除稀疏度达到95%以上的词项。通过融合以上处理方法,得到的文档词项矩阵维数更加接近有意义的实质维数,再利用LDA施行语义降维。
  2 4LDA主题模型与模型参数的构建
  LDA主题模型认为主题是词项的概率分布,文档是多种主题的概率分布,文档集合中的单篇文章以不同概率共享一组主题。LDA融合了贝叶斯理论、Dirichlet分布等成果,是一种对自然语言建模的语言模型。其文档生成过程如下:①对一篇文档d,选择主题概率分布θ,且θ~P(θα);②从以上抽出的θ中,抽取一个主题z,且z~P(zθ);③从主题z的多项式分布中抽取一个单词w,且w~P(wz,β);④对文档中的每个词项重复③④。求解过程中,θ、分别有带有超参数α和β的Dirichlet先验分布,w作为观测变量,z、θ为隐藏变量,通过选取的参数估计算法,将文档在词项空间的表示转化为文档在主题空间的表示。
  本文采用topicmodels包进行主题模型的构建,该包在输入数据结构上继承了tm包的特性,因此用于本文的主题模型构建较为合适。根据Griffiths利用Gibbs采样技术发现科学主题的实验[15],以及有关Gibbs采样技术和VEM(变化的最大期望算法)的比较[16],本文选用Gibbs采样技术,并综合Griffiths的实验将上文提出的LDA模型的两个超参数α和β分别设置为50/K和01,迭代次数设置为1 000次。已知LDA模型有两个重要的输入参数,一个是文档词项矩阵,另一个是主题个数K,其中文档词项矩阵的元素值为词频tf。本文基于以上前四大模块的文本处理技术,得出文档词项矩阵DTM,并采用Perplexity(困惑度)指标衡量模型[15-16]以选取主题个数K。其中D为文档集,V为词项集,n(jd)表示第j个词项出现在第d个文档中的频率。本文根据文献[15]中的设定方法,在10~100区间内以10为间隔取样,而后每隔50取样一次,直至主题个数为200,根据实验结果,最终将主题个数设定为欧盟50个、美国30个、中国15个,此时三方的主题模型达到相对较好状态。
  3政策分析
  3政策文本高频词汇及其分布形态
  为更加具体的观测气候政策文本的热点,在经历过上文的词法分析后,选用二、三元词组作为对象,以词频为统计指标。进行词形还原和同义词归并后,选取排名前20的高频词组(见表1)。在欧、美、中气候政策文本热点中,“气候变化”频次最高。此外,本文在进行资料收集时发现,很多国家并没有直接分管气候的专门常规部门,却有“气候变化”问题的专门板块,可见“气候变化”已然成为气候领域的代表性问题。   欧盟美国中国词项频率词项频率词项频率Climate Change8 374Climate Change4 564气候变化1 506Developing/ed Country2 653Greenhouse Gas Emission1 187温室气体〖〗306Greenhouse Gas Emission2 078National Oceanic Atmospheric1 157气候可行性论证177Energy Efficiency1 989Was Hington DC688节能减排170Emission Reduction1 647Environment Protection641发展改革154Kyoto Protocol1 197Natural Resources610交通运输145Renewable Energy1 135Department Commerce578国务院139Climate Change Adaption1 089National Climate569二氧化碳133Emission Trade691Global Change550中国气象局131Adapt Climate611Impact Climate484发展中国家123Impact Climate Change585Carbon Dioxide454水资源122Adaption Strategy563Fish Wildlife426应对气候变化工作117Energy Consumption542Impact Climate Change410联合国116Low Carbon518Secretary Commerce324可持续发展107Economy Social497Climate Change Science317气象灾害104表1(续)
  欧盟美国中国词项频率词项频率词项频率Sustainable Development458Envionment Protection Agency306发达国家96Energy Save451Effect Climate282国际合作96Reduction Target451Department Energy265低碳技术92Climate Change Impaction446National Marine234气候事件91Fossil Fuel415Local Governments224极端天气90
  虽然美国的文本量比欧盟多,但表1词频表明,欧盟频次前20的词项词频较高,显示出欧盟气候领域关注热点较为集中。此外,作为气候变化行动的领导者,欧盟有关能源的提及较多,包括能源效率、新能源、能源消耗、能源保存。再者,欧盟反复强调Kyoto Protocol(《京都议定书》),这一国际气候行动的核心文件,在一定程度上表现了欧盟对国际气候行动的支持。欧盟还反复提及的一个热点便是气候变化适应问题,并关注相关适应策略的制定。欧盟致力于具体的减排目标,并在完成度上处于国际领先,“Reduction Target”的出现频率也反映了欧盟气候行动的具体性。对于美国而言,得出的高频词项的含义则相对宽泛。其气候变化涉及到行政部门包括National Oceanic and Atmospheric(NOAA,美国国家海洋与大气管理局)、Department of Commerce(DOC,商务部)、Environment Protection Agency(EPA,环境保护署)、Department of Energy(DOE,能源部)。NOAA高频率在一定程度上反映了其在美国气候变化应对方面的核心地位。Climate Change Science Program(CCSP,美国气候变化科学项目)起源于小布什政府,正是因为小布什政府的气候怀疑论,才产生了气候一系列有关气候科学项目的研究。此外,DOC具有如此高的提及频率显示了美国市场因素的热度。对于中国,“气候可行性论证”一词高频出现,其相关政策旨在规范气候资源的合理开发和利用,尽最大努力减轻或者规避一些项目实施后的气候风险。因为中国正处于快速发展时期,经济发展与能源消耗相伴产生,一些项目会很大程度上影响局地气候,为可持续发展,必须进行相关的规范与监管。表2显示,中国还通过节能减排与低碳技术来降低温室气体的排放,国际能源署首席经济学家法提赫·比罗尔就表示,中国在过去5年承担了全球低碳技术应用量的40%[17]。此外,数据还展现了气候变化所带来的水资源分布不均以及极端天气等问题。
  为从可视化角度透视三方的热词分布,本文根据词频数值降序排列,截取排名前100的二、三元词组制作词频云图(表1最后一行)。其中,词项的频率决定词项的大小,且由于欧盟、美国前3个词组以及中国第一个词组的频率过大不利于显示,故截去。从三者的云图可以可看出,在前100的词组中,尺寸较大的词组为核心词项,在三方中所占的比例均不大。字号的大小对比反映了词组热度的差距,而欧盟对比较为明显,表现为诸如“Energy Efficiency”的高频词组与外围最小词频的词组之间的大小差距,属于“金字塔”型结构。美国高频热词的密度与数量比欧盟大,且分布较为均衡,反映了其关注热点相对平衡的“中坚”型结构。对于中国,除“温室气体”外,词组大小的递减幅度较小,大部分词频差距不大,外围词组与核心词组界限不明显,呈现出缓慢递减的“阶梯”型结构。
  2政策文本主题分析
  2主题强度分析
  利用上文LDA模型的θ、矩阵,可得出每篇文档与每个主题相关的后验概率及每个词项与每个主题相关的后验概率。本文利用主题强度分布,查看欧、美、中每个主题在语料集中的相对分量。本文的主题强度计算公式如下:
  Pk=∑NiθkiN(2)
  其中,Pk表示第k个主题的强度,N为文档数,θki表示第k个主题在第i篇文档中的概率。以公式(2)为基础进行计算,得出欧、美、中三方的宏观主题强度分布如图2所示,其中横坐标表示主题标号,纵坐标P表示主题强度。可以看出,主题强度反映了主题的宏观均值。   本文发现,实验所得的主题词项以及其分布情况与人工判定结果具有较好的一致性。根据主题情况,本文将选取三者的热门主题(Hot Topics)、冷门主题(Cold Topics)以及辨识度较高的随机主题(Others)各3个进行分析。其中热门主题和冷门主题是按照主题强度选取的最高三值和图2三方主题强度分布
  最低三值,随机主题是按照主题内容情况进行筛选。最终选取的主题标号为EU(Hot Topics:29、36、11;Cold Topics:47、25、22;Others:16、27、43)、US(Hot Topics:22、9、17;Cold Topics:16、1、6;Others:3、11、14)、China(Hot Topics:1、5、4;Cold Topics:10、9、14;Others:7、13、15)。
  2主题内容及强度逐年演化趋势分析
  表2展示了选中主题内容的局部特征词集合。通过查阅语料与人工判定相结合,总结主题对应的标题。上述主题强度反映主题相对于所有文档的概率均值,由于文档数N恒定,主题强度反映的则是主题的累计概率值,并不能反映主题的变迁。为分析这27个主题及其强度逐年演化趋势,本文进行了时间后离散化。已知θki表示第k个主题在第i篇文档中的概率,采用同一年份的主题在相关文档中概率的算术平均mean(θki)表示当年主题强度[15],图3以其为纵坐标,展示了主题强度逐年演化趋势,主题标号与表2相对应。
  相关主题主题含义主题含义主题含义词项相关度词项相关度〖〗词项相关度(A)欧盟
  热门主题29?气候变化官方行动36?京都议定书承诺期的减排情况11?应对气候变化的支持系
  由表2(A)可知,欧盟热门主题29主要涉及气候变化官方行动,包括委员会和欧洲议会制定相关法律政策,也包括一系列重要会议的召开。此主题并不涉及具体应对气候问题的内容,而是形式或官方机制。主题36事关欧盟在《京都议定书》承诺期的减排情况,由图3(A)中演化趋势可以看出,其强度由2000年开始递增,在2000年与2005年间达到一个相当的峰值,且2010年又开始了另一轮的递增。纵观欧盟的气候行动,2000年启动了第一个欧洲气候变化计划ECCP Ⅰ,该计划具体落实了减排目标,确定了温室气体的排放交易体系ETS。而后,欧盟又草拟了相关法令,尝试建立相应的市场。2005年,其启动了ECCP Ⅱ,改将碳捕获和存储作为未来重点。随后,在经历了2009年哥本哈根会议的挫折后,2010年欧盟又提出了“后哥本哈根”的相关政策,重申了大尺度的减排目标和发展路线。这些时间段的实际情况均与与图中主题强度演化趋势相对图3主题强度逐年演化趋势
  应。11号主题是欧盟应对气候变化的支持系统和制定的相关行动、标准和框架,其强度虽然不高但一直较为稳定,这有赖于欧盟完备的环境保护立法和制度,以及一直致力于制定并完善具体的行动与措施。欧盟的冷门主题包括减少资源浪费、地区性环境问题、发达国家与发展中国家排放量基准的讨论。本文所指冷门主题的宏观强度值虽与热门主题有一定的差距,但却可以在某一个时间段高于热门主题,具有相对性(如47号主题便在1996年和2009年达到近03的峰值,并不亚于部分热门主题)。22号主题即发达国家与发展中国家排放量基准的讨论,虽然处于稳定的波动状态,但强度较低,主要因为欧盟对于发展中国家的减排义务较美国而言要更加妥协,基本遵循公约的“共同但有区别的责任原则”。图3(C)展示的是辨识度较强的随机主题(节能投资计划、温室气体排放规划、为适应气候变化所进行的相关监控与投资)的强度变迁。3个主题的强度均在2007年、2008年发生变迁,在2013年、2014年几乎同步达到峰值。这在一定程度上是因为欧盟2007年提出的“能源气候一揽子决议”、2008年通过的“气候行动可再生能源一揽子计划”以及2013年提出的“欧盟适应气候变化一揽子计划”。这个3个重要文件对欧盟相应的政策制定和走向产生了重要的影响,奠定了欧盟的战略规划与治理模式。
  (2)美国
  展示了美国的主题强度变迁。热门主题22号涉及碳排放权,反映了美国政府减少温室气体排放的市场倾向。这种倾向在1997-2005年一个9年的时间段内均占据主导地位,且近几年又有回升的趋势。美国气候问题的国际立场一直是在不损害经济的前提下,以市场为基础进行调节的方案。《京都议定书》的三大机制:CDM(清洁发展机制)、ET(排放贸易)、JI(联合履约)均在美国的倡导下建立起来[30],这种市场倾向在克林顿政府和小布什政府期间较为明显,表现为如图3(D)所示的1997-2005年的变化趋势。主题9展现了气候问题涉及的部门,包括国家海洋和大气管理局(NOAA)、商务部(DOC)、国家海洋渔业局(NMFS)等。主题17即有关国土资源调控的主题在1996-2006年间一直保持着一定的水平,在近年有些回落。美国的冷门主题强度与热门主题强度的差距并没有欧盟显著,其3个主题分别在1985年、1993年、2004年达到峰值,其余年份均较为稳定的波动。美国辨识度较高的随机主题主要包括自然资源的保护、清洁能源技术、环境污染管理。其中,清洁能源技术主题在1993年达到了前所未有的峰值,其他两个主题则一直处于平稳状态。1993年有关清洁能源技术的讨论达到峰值在一定程度上是受到1992年《能源政策法》的影响,美国尝试减少对石油的依赖,开始探索清洁道路。此外,对于清洁能源而言,美国较为有影响力的法案还包括奥巴马政府出台的《清洁能源与安全法案》。
  (3)中国
  较欧美而言,中国的15个主题均具有较高的强度值,这表明中国气候领域的关注点较为集中,主题并不分散,且强度冷热只是相对而言。中国气候领域的热门主题包括国际合作、相关领域的改革、气候可行论论证等方面。2005年《京都议定书》在中国生效,次年,中国有关国际合作的主题1强度达到峰值,表现了中国气候治理的合作理念。作为发展中国家,气候变化的治理与社会和经济的建设发展存在一定的冲突现象,由主题5可知,气候政策的制定也融合了城乡建设、工业、环境保护等综合因素。主题4有关气候可行伦的监管,其旨在防止不良的工程影响局地气候。1、5、4三个主题在近年来强度均稳定在一定的水平上下波动。对于冷门主题而言,宏观波动趋势较为一致。海洋领域的预警与监控与林业领域的监管这两个主题在近年的涉及度均有上升,且在2013年和2014年达到了较高的峰值,这与近些年来的极端天气所引发的气候事件有关。辨识度较强的随机主题主要包含当下热点议题,包括节能减排、气候事件与极端天气、低碳技术。气候事件与极端天气的主题长期处于稳定的波动状态,但客观而言,中国应对极端天气的能力还较弱。节能减排和低碳技术的强度值在2012年同时达到峰值,主要因为有三项重要的行动和计划,包括新一轮低碳交通运输体系的城市试点工作、科技部等16个部委协会制定的《“十二五”国家应对气候变化科技发展专项计划》、工信部等4个部委制定的《工业领域应对气候变化行动方案2012-2020年》。节能减排和低碳技术是中国应对气候变化问题的主要手段,节能、减排、低碳城市、低碳消费、低碳企业已成为社会性的行动。但是,作为发展中国家,经济快速发展带来了能源需求的增长、供需矛盾的凸显以及环境问题的制约,中国一方面面临着“彰显大国风范”的国际压力,一方面需要面对国内较大的减排难度。气候问题,可谓是中国国际政策的一大难点与挑战。   33基于主题挖掘的欧、美、中三方气候政策对比分析作为国际热点课题,政府间的气候政策侧重点具有明显的差异性。由于每个国家党派特性不同、内外环境不同、发展水平不同,对于气候问题的治理也会采用不同的政治工具。本文以政策文本作为定量分析对象,通过对欧盟、美国、中国这三方的主题挖掘实践,窥探UNFCCC 3个层次的历史缔约方对于气候治理的典型态度。
  ①欧盟热衷于减排计划,并更加注重可持续发展与气候保护政策相关制度体系的构建。其高频词项分布形态具有以“可再生能源”、“能源效率”等词项为塔尖的“金字塔”型结构,主题分布更多地涉及公约承诺期减排完成情况、应对气候变化的支持系统、节能减排、监控与投资等实质性的计划和规制,属于“实干家”。
  ②美国联邦层面的气候政策市场导向明显,其在国际气候治理上的政治立场受到党派特性以及利益集团的综合影响,表现为时而阻挠时而推动的摇摆不定态势。虽然政治立场摇摆不定,但是在数据采集中本文发现,其顶层气候政策是三方发布最多的。高频词项分布展示了其以NOAA和环境保护为代表的多部门宽领域的“中坚”型结构,主题分布更多的涉及市场因素、管理部门、自然资源、清洁能源和环境保护等,属于“多面派”。
  ③中国更加强调规范气候资源合理开发利用、相关领域改革以及利用低碳技术。其高频词项分布形态则呈现出频率缓慢递减的“阶梯”型结构,主题分布更多的涉及合作、改革、气候可行性论证以及节能减排和低碳技术。作为发展中的大国,经济快速发展与能源消耗相伴产生,中国与欧盟和美国因此具有截然不同的内部矛盾与外部制约。虽然相对于欧盟和美国,中国对气候问题的关注起步较晚,能够采集到的政策法规较少,但是就主题挖掘而言,中国的各个主题强度较高且主题概况较具中国特色。中国以改革、合作、可行性论证为政策主旋律,辅以节能减排、低碳技术为政策工具,为“改革与发展者”。
  4总结与建议
  本文构建了基于R语言的主题挖掘模型,以主题分析的新视角对政策文本进行基于语义的量化分析。通过辅以高频词项及其分布,着重从主题内容和强度演化角度分析了欧盟、美国、中国的气候政策法规,取得了较好的实践结果,这在三方的热门、冷门、随机主题的内容及演化规律上得到了有关实证支持。针对此次主题挖掘成果以及国内气候治理的不足之处,本文认为国内气候政策法规体系的建设与完善可以从以下5个方面着眼:
  1考虑气候方面专门立法
  气候问题是一个涉及环境、能源、经济、国土资源的综合议题,很多情况下气候政策只是能源政策和计划的附带产品。近些年来我国逐渐意识到了气候问题的严峻性以及其与发展改革的重要关系,开始注重可行性论证与领域改革,但是气候变化却始终缺乏坚硬的法律基石作为支持。模糊的公共职能、不明朗的领域边界都在不同程度上削弱了气候治理的效率。欧盟对于气候变化有着坚实的法律基础,除了英国颁布的《气候变化法》外,其他成员国均以“能源气候一揽子计划”为基石进行分散立法。美国采取综合立法模式,通过了《清洁能源与安全法》规定应对气候变化的一系列相关方面。我国应尽快进行气候方面专门立法,并基于此构建包括《气候税》等后续相关法律。
  2完善宽领域与多部门协同应对气候变化的制度体系虽然《中国应对气候变化报告》公布了国内已成立应对气候变化领导小组,并建立了相应的工作机制,但是从数据采集和主题挖掘的结果可以看出,相对于美国以NOAA为核心的应对气候变化多部门协同体系,我国诸如环境、能源等部门所制定的不同视角的气候政策还是捉襟见肘,气候政策的发布与制定部门较为单一。为了更好地增添气候治理的政策视角、增加处理气候问题的主动性与效率,应建设并完善多部门协同作用的应对气候变化制度体系,变各部门的“协助”为“自理”。
  3适度强化市场力量
  美国是气候政策市场导向较为明显的国家,其气候问题的国际立场一直是在不损害经济的前提下,以市场为基础进行调节。我国不应照搬美国的政策模式,但可以借鉴其市场工具。在国家宏观调控的前提下辅以市场手段,可以在一定程度上保证气候治理的健康稳固的发展。因此,我国应尽早建成碳交易体系,并尝试探索其他以市场为依托的新方面、新路子。
  4增进与发达国家的技术、科研等领域的双边或多边合作目前,节能减排、低碳发展是我国气候治理的主要手段,我国正以“绿色能源”为目标,向“去碳化”发展迈进。作为清洁能源技术的三大超级投资方,欧盟、美国、中国拥有各自的能源投资计划,之间面临着一些竞争以及合作机会。为了可持续发展,我国应当增进与发达国际的技术和科研合作,增加三方专利技术的利用率并分享经验教训,在技术出口上进行协调与配置,以此推动全球的能源机制转型。
  5构建新型国际气候法规智能信息库等决策支持系统气候问题是国际重点问题,每个国家均会施行基于本国国情的以及不同视角的政策法规。随着政府官方门户、自媒体以及各种商业数据库的完善与进步,国际政策法规、决策者言论、决策影响力、受众接受力等政治相关要素均可以通过互联网平台进行获取与挖掘。因此,构建气候政策法规智能信息库将是一项重要的任务,其可以将国际气候方面的政策法规以及相关政治要素进行自动采集并施以分类、聚类、主题分析等数据挖掘方法,以便决策者更好的洞悉国际政策发展以及执行成果,从科学性和可行性等角度支撑我国决策制定。同时,建设高水平、功能丰富的新型气候法规智能信息库将有利于提升我国的软实力与国际竞争力。
  参考文献
  [1]盛亚,陈剑平.区域创新政策中利益相关者的量化分析[J].科研管理,2013,34(6):25-33.
  [2]李江,刘源浩,黄萃,等.用文献计量研究重塑政策文本数据分析——政策文献计量的起源、迁移与方法创新[J].公共管理学报,2015,12(2):138-144.
  [3]张永安,邬龙.基于政策计量分析的我国大气污染治理现状研究[J].生产力研究,2015,27(1):122-126.
  [4]Prior L,Hughes D,Peckham S.The Discursive Turn in Policy Analysis and the Validation of Policy Stories[J].Journal of Social Policy,2012,41:271-289.
  [5]Talamini E,Dewes H.The macro-environment for liquid Biofuels in Brazilian science and public policies[J].Science and Public Policy,2012,39(1):13-29.
  [6]Li J X,Wang H J,Zhang Z,et al.A policy-based process mining framework:mining business policy texts for discovering process models[J].Information Systems And E-Business Management,2010,8(2):169-188.
  [7]刘兴.贝叶斯分类算法在税收政策公文识别的研究和应用[D].长沙:湖南大学,2011.
  [8]苏变萍,侯筱婷.面向政策法规数据的分类方法[J].微电子学与计算机,2008,37(7):166-168.
  [9]熊小梅,刘永浪.基于LSA的二次降维法在中文法律案情文本分类中的应用[J].电子测量技术,2007,(10):111-114.
其他文献
〔摘要〕[目的/意义]农村民间图书馆众筹项目应用社交媒体可有效提高其成功率。[方法/过程]基于适应性结构化理论构建了社交媒体对农村民间图书馆众筹项目成功影响的框架,以典型农村民间图书馆众筹项目为例对构建的框架进行了验证和诠释。[结果/结论]本文提出的应用框架丰富并完善了农村民间图书馆众筹项目社交媒体应用理论,能有效指导农村民间图书馆众筹项目社交媒体的应用实践。  〔关键词〕农村民间图书馆众筹;众筹
〔摘要〕在科技研究的过程中,“睡美人文献”很有可能是意义重大的里程碑式文献,不少诺贝尔奖获得者的早期论文亦是“睡美人文献”。本文通过邮件访谈的方式访问了若干“睡美人文献”和“王子文献”作者,对于零被引论文的情况以及唤醒“睡美人文献”的过程等问题进行调查,试图揭示两者之间的内在关系,得出了形成“睡美人文献”的原因主要有作者的谦虚性、团队的不稳定性等因素;“王子文献”多为具有高影响力的高被引论文等结论
教育部部署开展防范中小学生欺凌专项治理行动  近日,教育部印发《防范中小学生欺凌专项治理行动工作方案》,启动开展防范中小学生欺凌专项治理行动。  通知要求,本次防范中小学生欺凌专项治理的重点是指导各地进一步摸排工作死角,织牢联动网络,健全長效机制,建设平安校园、和谐校园,促进学生健康快乐成长。  此次行动主要采取六项举措。一是全面排查欺凌事件。对所有中小学校和在校学生开展全面排查,对可能发生的欺凌
〔摘要〕移动团购发展迅速,用户的持续使用意愿是移动团购发展和竞争的关键,ECM、IS成功理论以及两者整合研究是持续使用意愿的主要方式,哪个模型对用户的持续使用意愿解释力度更强是本文研究的主要问题。本文以移动团购为研究对象,基于ECM和IS成功理论比较和整合研究用户的持续使用意愿,构建研究模型。通过调查问卷收集数据,使用SPSS和Smat PLS分析数据,进行假设检验。研究发现ECM、IS成功理论以
摘要:[目的/意义]针对我国在线用户评论习惯,探索用户评论行为对评论时间的影响作用因素,对电子商务运营商探究用户评论行为规律及探索潜在用户评论时间偏好具有重要的潜在商业价值。[方法/过程]基于TAM模型抽取在线用户评论行为时间特征规律研究的影响因素并构建模型,通过抽取消费者购买行为和评论行为的时间间隔为时间序列,通过多元线性回归模型进行假设验证。[结果/结论]通过对在线评论数据的实例验证,本文所构
摘 要:[目的/意义]感知风险对科研人员持续使用云存储服务造成了巨大阻碍。因此,探究科研人员在使用云存储过程中对具体风险因素的感知,可以为提高云存储服务质量,提升用户满意度与用户粘度提供参考。[方法/过程]对科研人员进行半结构化访谈,基于扎根理论对访谈文本进行开放式编码、主轴编码和选择式编码得到19个概念,10个子范畴和4个主范畴,构建感知风险视角下的科研人员云存储服务持续使用行为模型。[结果/结
为中国职业院校提供世界舞台,讲好中国职教故事。  自1999年入职中国教育国际交流协会(以下简称交流协会)以来,余有根的人生经历就与交流协会的发展历程紧密交织在一 起。  20多年来,他跟随着交流协会的步伐砥砺前行,见证了中国国际教育事业的迅猛发展,结识了一群“有情怀、有理想、有抱负”的教育人。在他看来,教育是真正的朝阳行业,教育的国际交流也有大好的前景。  接受《留学》记者的专访时,余有根分享了
摘 要:[目的/意义]近些年来,在线健康社区变得越来越流行。然而,较少社区能成功地维持用户并激励他们持续的分享知识。本文将社会支持理论和承诺—信任理论结合起来,构建一个集成模型来研究在线健康社区用户的持续知识分享意愿的影响因素。[方法/过程]根据获得的475份有效调查问卷,本文使用SPSS20.0和AMOS20.0检验所提出的假设。[结果/结论]研究发现,信息支持、情感支持对满意度和信任均有显著影
〔摘要〕本文就我国科技情报(信息)类事业单位改革历程、现状以及科技情报(信息)机构管理体制与运行机制的创新,谈一点自己粗浅的看法。  〔关键词〕科技情报(信息);事业单位;体制创新;改革  〔中图分类号〕G25〔文献标识码〕A〔文章编号〕1008-0821(2013)02-0121-04  随着经济全球化和信息化浪潮的日趋加快,科技情报(信息)机构正面临着国内外市场竞争加剧和科技进步等方面的严峻挑
〔摘要〕[目的/意义]通过对美国8所大学的信息安全政策体系进行研究,为国内大学加强信息安全政策体系建设提供有益的参考。[方法/过程]采用网站调查法和案例分析法研究了美国大学的信息安全政策构建的模式和特点。[结果/结论]基于对美国大学信息安全政策体系构建特点的分析,提出了5项启示性建议。  〔关键词〕美国大学;信息安全;风险控制;政策体系  DOI:10.3969/j.issn.1008-081.0