当前位置:中国法学创新网 >> 最新文选 >> 中国法治评估的再评估 ——以余杭法治指数和全国法治政府评估为样本

中国法治评估的再评估 ——以余杭法治指数和全国法治政府评估为样本

来源:《江苏行政学院学报》2017年第4期 作者:孟涛、江照 日期:2017-11-20 18:02:00 浏览:797

 

孟涛、江照[]

(中国人民大学法学院 北京,100872

 

 

:中国法治评估基本属于定量评估,定性的再评估不能完全揭示其问题和缺陷。通过信度、效度、误差、一致性和稳健性的分析,可以审查法治评估的科学性和合理性。对于余杭法治指数和全国法治政府评估项目的审查发现,两者均具有信度和一致性不高、效度有偏差、稳健性不足、评估结果难以直接用于比较的问题,其根源在于缺乏有效的法治理论支撑、混淆不同种类的指标、计算方式比较随意、没有合理配置评估主体。未来的中国法治评估,需要建构严谨而合理的法治理论基础、设计同质性的法治指标体系、合理安排专家和公众的评估、采取科学合理的权重分配和计算规则、结果划分等次进行评估、对定量评估结果进行统计审查。

关键词:信度;效度;误差;一致性;稳健性

 

 

 

法治评估是当前我国最富争议的法律现象之一:理论界和实务界不断地提出各种法治指数和评估方案,同时,这些指数和评估方案又持续地遭受质疑和批判。这些质疑和批判,在相当程度上构成了对于法治评估的“再评估”。作为一种新生事物,法治评估肯定存在着这样那样的问题和缺陷。对法治评估开展“再评估”、改进已有的评估方法、促进当前方兴未艾的法治评估更科学更合理地发展,是当前学术界和实务界面临的迫切任务。迄今已有的各种“再评估”分析,主要集中于四个问题:指标设置和权重分配不合理;[1]评估主体中立性缺失;[2]评估方法不够科学;[3]评估结果虚假、缺乏公信力。[4]这些分析指出了法治评估存在的一些重要问题,很有意义。但是,此类分析都属于不依赖数据分析的“定性再评估”,而我国目前的各种法治评估事例,几乎都是以数据形式展示出来的“定量评估”。定量评估往往投入了大量的成本、收集了众多的数据、经历了复杂的处理,不深入分析相关数据、仅仅进行主观的“再评估”,不能完全揭示定量评估的其他问题,例如信度(Reliability)和效度(Validity问题。如何对法治定量评估进行再评估,是本文首先需要解决的问题。

事实上,社会科学领域早已开发出了一些行之有效的评判方法,例如使用最广的信度分析和效度分析。国际法治评估也存在着“再评估”事例:世界正义工程(The World Justice Project,简称WJP)曾邀请欧盟委员会联合研究中心(European Commission Joint Research Centre,简称JRC)计量经济学和应用统计学小组,从2010年以来连续四年对WJP法治指数进行审查评判。[5]115-121在我国,郑成良教授很早就提出用信度和效度的方法来审查余杭法治指数,但是迄今未见实施。[6]58-59最近,在最新出现的“中国司法文明指数报告”中,研究者对其指数进行了主成分分析和信度分析,[7]60-61迈出了我国法治评估进行 “定量再评估”的第一步。不过,法治评估的“再评估”方法并不限于信度分析和主成分分析。本文将基于社会科学定量研究的基本原理,参考JRC的定量审查实践,提出一套以定量分析为基础的“再评估”方法。然后,本文将运用这些方法,对中国的法治评估事例进行再评估;最后,针对审查发现的一些问题,探讨相应的改进方案。

 

一、法治评估的再评估方法

 

法治的定量评估,需要经过法治的概念化(conceptualization)、指标的界定、数据的收集与计算等环节。[8]概念化的目标是实现对于“法治”的清晰确定。指标的界定则是法治量化的关键环节,直接决定量化的成败。对于“法治”这样内涵丰富的评估对象而言,需要较多的指标予以反映。理论上,同一事物的指标之间要具备四种属性:互斥性(mutually exclusive)、穷尽性(exhaustive)、单项性(unidimensionality)和互换性(interchangeablility)。[]互斥性是指各个指标互不相同、不能相互涵括;穷尽性是指各个指标加总起来,能够反映法治指涉的基本现象;单项性是指各个指标所反映的都应该是同一事物;互换性是指:各个指标之间应该高度一致、可以替换,如果某个国家的法治指数很高,那么各个指标的得分也应该相应较高。数据的收集,除了使用第二手数据以外,一般采用调查统计的方法。数据的计算,需要考虑不同的权重和计算公式。针对这些量化步骤,根据社会科学定量研究方法和JRC的审查实践,我们把再评估方法归纳为如下六种:

1.信度的分析。信度是指:采用同样的方法,对同一对象重复测量,所得结果的一致性程度。信度越高,测量结果越稳定可靠。信度的计算方法主要有四种:再测信度、复本信度、评分者信度、克隆巴赫系数(Cronbach-alphacoefficient,简称C-alpha)。[9]70-75社会科学研究最常使用的方法是C-alpha。信度系数在01之间,0表示完全缺乏信度,1表示重复测量的结果完全一致;0.7以上的系数可以接受,0.6-0.7的还可以接受,0.6以下的就要重新调整指标了。

2.效度的分析。效度是指测量在多大程度上反映了被测事物的真实含义,可以评判指标的穷尽性、单项性和互斥性。测量结果与测量对象的内容越吻合,则效度越高,反之越低。效度的审查方法也有四种:表面(face)效度、标准关联(criterion-related)效度、结构(construct)效度和内容(content)效度。[10]146-147其中,结构效度和内容效度都采用了定量分析的方法。

3.误差(error)的估算。在统计调查中,对于总体(population)较大的测量对象,往往需要从中抽取若干样本(sample)来判断总体的情况。法治的定量评估一般采取抽样调查的方法。每个样本的结果各不相同,与总体的真实值也会不同;样本观测值与总体真实值之间的偏差,就是“抽样误差”(sampling error)。为了保障结果的科学性和严谨性,统计学要求:任何一次抽样调查结果的公布,都应该说明抽样误差的大小。[11]26抽样误差可以通过统计学方法进行计算;误差值越小,说明观测值越接近真实值。因此,我们可以用抽样误差的大小来衡量测量结果的准确程度。

4.外部一致性(coherence)的分析。从事法治评估工作的,并非仅有一家,其他机构可能也会对同一对象进行评估。如果不同机构对于同一对象的评估结果相差太大,那么肯定有至少一方会出错。国内有些报道基于香港法治指数得分而质疑余杭法治指数“过高”,其实就是一种变相的外部一致性审查。

5.内部一致性的分析。指标的单项性和指标之间的互换性,都要求各个指标之间有着高度的正相关性。相应的审查方法是各种系数,包括上述的C-alpha系数、斯皮尔曼秩相关系数(Spearman Rank Coefficient)等等。其中,C-alpha系数从各指标得分结果的角度检验内部一致性:如果某一指标得分很高,那么与其同属一个事物的另一指标的得分也相应会很高;Spearman秩系数则是从各指标得分排名顺序的角度检验一致性:如果法治指数的某一指标排名比较靠前,那么该指数其他指标的排名也不会过于靠后。

6.稳健性(robustness)的分析。指数出台之后,可用于纵向比较和横向比较,这些比较的结果是否稳健,直接取决于该指数的计算方法,例如权重的分配、计算的公式、调查缺失数据的处理,等等。任何一个环节的改变,都会导致指数得分的改变,进而影响指数之间的比较排名。如果影响较大,那么这种指数排序就是不稳健的。相关的审查方法,就是敏感性分析(Sensitivity Analysis),它可以找出最不稳定的影响因素、确定其影响程度。具体的方法包括蒙特卡洛试验(Monte-Carlo experiment)、多模型方法(multi-modeling approach)等等。如果稳健性较弱,就需要重新改进计算方法了。

这些再评估方法,曾被JRC多次用于审查WJP法治指数,每一次审查建议都得到了WJP的吸收——WJP法治指标体系的变动,就是基于相关的审查建议。这种审查,对于提升WJP法治指数的科学性和公信力发挥了巨大作用。中国的法治评估严重缺乏此类审查,本文致力于弥补这些工作。由于中国大多数法治评估都是隐秘地进行的,没有公布具体的指标体系、评估方法和原始数据。目前,能够进行定量再评估的,只有余杭法治指数和中国政法大学的法治政府评估项目,它们提供了更多的数据,可以开展一定程度的定量审查。此外,这两类评估分别代表着中国法治指数和法治政府评估的最高水平,是其他各类评估事例的借鉴对象,因此可以作为再评估的最佳样本。

 

二、余杭法治指数的再评估

 

余杭法治指数不仅是中国内地第一个法治指数,也是透明度最高的、唯一持续至今的法治指数。本文所使用的余杭法治指数材料,来自《法治评估的实验——余杭案例》、《中国法治增长点——学者和官员畅谈录》、余杭法治指数的年度报告以及该评估课题组专家的学术论文等公开出版物。以下是再评估的具体过程和结果。

(一)信度和内部一致性的分析

blob.png

此外,我们还运用主成分分析(Principal Component AnalysisPCA),从另一个角度来审查该指数的内部一致性。主成分分析是研究多个变量之间相关性的一种方法,也就是从原来的变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关;其数学运算是将原来的多个变量进行线性组合,从中导出主成分;[]如果原来的变量之间相关性越强,则获得的第一主成分的方差贡献率越大,该主成分越能代表原来的变量。我们可以通过第一主成分的方差贡献率大小,来衡量各个指标变量之间相关性的高低。

余杭法治指数是由内部组、外部组、专家组以及民意调查四个组的打分加权处理得出的,如果各个组的信度难以保证,那么总指数的信度也难以令人信服。因此,我们在检验信度的时候,对四个组分别进行了检验;但是,由于民意调查的数据没有对外公开,因此仅能检验其余三个组的信度。信度的审查需要立足于每一位评估者的打分,目前仅能查到2008年度内部组、外部组和专家组的具体数据,[]此外,还能查到2010年度专家组每一位专家的数据。[12]250我们运用主成分分析和C-alpha系数的方法,得出了2008年度三个评估组和2010年专家组的检验结果:

1  余杭法治指数的内部一致性[]

组别

方差贡献率

综合指标

指标一

指标二

指标三

指标四

指标五

指标六

指标七

指标八

指标九

内部组

80%

0.98

0.97

0.96

0.97

0.96

0.96

0.97

0.97

0.97

0.97

外部组

57%

0.87

0.81

0.81

0.82

0.84

0.94

0.85

0.85

0.82

0.80

专家组

70%

0.95

0.95

0.92

0.93

0.94

0.94

0.94

0.93

0.94

0.93

专家组

2010

47%

0.66

0.72

0.52

0.64

0.60

0.60

0.54

0.61

0.67

0.54

 

从上表可以看到,内部组的方差贡献率和C-alpha系数都很高,但是不能说明余杭法治指数的信度和内部一致性就很高,因为内部组是“自己评自己”,打分普遍偏高,而且几乎都高于外部组和专家组,[13]其公正性和客观性很成疑问。外部组是由非政府机关的本地人士组成,立场相对客观一些,其分值的C-alpha系数明显低于内部组,而方差贡献率在60%以下。2008年度专家组的方差贡献率和C-alpha系数也较高,但是,在2010年度,专家组的方差贡献率和C-alpha系数却大幅度下滑,以至于出现了信度不合格的问题。专家组打分变化较大的原因可能有两个,一是专家组本身的变化较大,二是指数本身有问题——由于缺乏历年的具体数据可作比较,因而无法判断哪一个是主要原因。就前一种原因而言,2008年度的评估专家一共15人,2010年度只有10人,人数少了很多,分数很容易出现剧烈波动;就后一种原因而言,可能是指标本身的相关性较弱,容易出现较大波动。总之,总体检验表明:各指标之间的相关性和信度是存在问题的。

(二)效度的分析

由于余杭法治指数披露的数据有限,而且采取的是四个组加权打分的特殊方法,因此无法通过结构效度和内容效度的定量方法来审查效度,只能通过表面效度和标准关联效度的方法进行定性审查。表面效度是指各个指标在表面上能否合理地测量某一概念,在余杭法治指数中,一级指标共有九个:党委依法执政、政府依法行政、司法公平正义、权利依法保障、市场规范有序、监督体系健全、民主政治完善、全民素质提升、社会平安和谐。这九个指标是否能够涵盖中国法治建设的整体领域?事实上没有。正如评估专家李步云教授和王公义研究员所指出的,这一指标体系遗漏了国家权力机关——人民代表大会,以及重要的政治机构——人民政协。[14]49-50,103所以,余杭法治指数的表面效度存在缺陷。标准关联效度是指依据相关的外在标准,审查测量结果与该标准的关联程度。本例中,我们首先需要确立“法治”的外在标准。这涉及到“法治是什么”的根本难题,古今中外对此争讼不已。尽管法治的标准众多,但是有两个根本标准得到了国内外的一致认可:权力的限制和权利的保障。[]从这两个根本标准来看,正如已有的研究已经指出的,余杭法治指标面临着“有限政府权力”和“基本权利保障”均缺位的状况。[15]因此,可以认为,余杭法治指标的标准关联效度更低。总之,从定性审查的角度来看,余杭法治指标还需要重新设计一番,否则无法测出真实的“法治”状况。

(三)误差的测算

2007年至今,余杭先后发布了7次年度指数得分,依次是:71.6分、71.84分、72.12分、72.48分、72.56分、73.66分、71.85分。[]这些分数似乎能够得出一个结论:从2007年至2012年,余杭的法治状况一直在进步,2013年度又突然退步下滑。事实上,如果我们引入误差的分析,就会发现:不能通过这些分数来简单地判断余杭法治的发展趋势,这些数据之间并不具有可比性。内部组、外部组和专家组的样本量很小,误差也不会小。根据公开数据,我们可以运用Jackknife法(刀切法),来估算2008年度余杭法治指数的误差——由于群众组的数据并未公开,无法计算方差,姑且假设为零(但实际上大于零)。刀切法是方差估算的一种方法,做法是:依次舍弃某个样本单元、得到若干组样本,通过这些样本得到若干个所需要的统计量,直接计算这若干个统计量的方差,即可认为是原有样本的统计量的方差。以内部组为例,该组有20个人接受调查,可以舍弃某一个人的评分,用剩余19个人的评分求得一个综合得分;依次舍弃每个人的评分,则可获得20个综合评分;求出这20个综合评分的方差,即可作为内部组的综合评分的方差。余杭法治指数的方差计算公式是:

blob.png


2008年度法治指数和各个一级指标的误差如下(为方便比较,列出了2009年的指数分值):

2  余杭法治指数的年度比较

年份

综合指数

指标一

指标二

指标三

指标四

指标五

指标六

指标七

指标八

指标九

2009

72.12

81.61

80.22

80.78

79.22

77.11

77.72

78.56

83.22

78.11

2008

71.84

(71.52, 72.16)

75.83

(75.39,76.47)

73.33

(72.95,73.71)

76.6

(76.20,77.00)

73.94

(73.50,74.38)

71

(70.63,71.38)

76.6

(76.21,76.93)

74.72

(74.31,75.13)

74.83

(74.48,75.18)

67.22

(66.82,67.62)

 

从上表来看,假设群众组没有调查误差,2008年度余杭法治指数在95%的置信水平下分值范围在71.5272.16之间。2009年的综合指数虽然比2008年高出0.28,但真实的法治水平有可能比2008年低。因为从统计的角度来看,这两年的法治指数并没有显著差异,2009年度的72.12分处于71.5272.16的区间中,不能认为2009年的法治指数就比2008年的高。鉴于每年的法治指数都存在误差,因此,简单地比较历年指数的高低,从而判断整个法治水平的变化方向,是不准确的。在没有给出测量误差的前提下,余杭法治指数的历年数据不具有可比性,不能简单地认为余杭法治水平不断上升或有所降低。

(四)稳健性分析

余杭法治指数的计算规则非常独特:首先,在各个组内,采取去掉最大值和最小值再求平均值的方式,计算出各个一级指标的权重平均分和打分平均分;其次,算出各个一级指标权重值在九项权重中所占的百分比;再次,将打分平均分与权重相对值结合、算出各个组的指数得分;最后,将四个组的得分进行加权,算出总的指数得分。[16]我们首先审查各个组对一级指标的权重判断是否稳健,然后再来审查加权计算的方法是否稳健。

1.各个组内一级指标的权重审查

如上所述,余杭法治指数每年发布一次,每年的指数得分都不同,这种不同既是由于每个指标得分不同的结果,也是各个指标权重不同的结果。如果每个评估组对于权重的设置不同或者每年的权重变化比较大,法治指数得分的差异也会随之放大。也就是说,权重的变化对于指数得分的变化有着不可低估的影响。如果想让综合指数能够清晰地反映一级指标得分的变化情况,最好的做法就是让各个一级指标的权重在各个组的内部保持一致,同时在各个年度也保持一致——这也是统计指数的惯常构造方法。[]如果权重不够稳健,那就很难判断综合指数的变化到底是由于什么因素。鉴于此,我们首先审查各个组内部一级指标的权重,计算公式如下:

blob.png

计算结果如下表——由于专家组的公开数据较少,无法计算:

4  内部组历年各指标标准化权重

年份

指标一

指标二

指标三

指标四

指标五

指标六

指标七

指标八

指标九

2012

11.6%

12.7%

12.2%

11.4%

10.9%

10.4%

10.0%

10.0%

10.9%

2011

12.0%

12.1%

11.9%

10.8%

10.3%

10.3%

10.3%

11.0%

11.3%

2010

12.6%

12.5%

11.7%

10.7%

10.5%

9.8%

10.2%

11.1%

10.9%

2009

12.4%

12.2%

11.6%

10.6%

10.9%

10.5%

10.1%

10.6%

11.1%

2008

12.0%

12.2%

11.5%

9.9%

10.4%

10.4%

10.6%

11.5%

11.5%

5  外部组历年各指标标准化权重

年份

指标一

指标二

指标三

指标四

指标五

指标六

指标七

指标八

指标九

2012

11.9%

11.2%

11.7%

10.6%

11.1%

10.5%

10.8%

11.5%

10.9%

2011

11.7%

13.3%

11.8%

10.3%

10.3%

10.1%

10.8%

10.4%

11.2%

2010

11.9%

11.9%

11.8%

10.4%

10.5%

10.8%

10.5%

10.8%

11.3%

2009

12.0%

12.2%

11.8%

10.5%

10.1%

10.1%

10.3%

11.4%

11.6%

2008

11.9%

12.2%

12.3%

11.2%

10.7%

10.3%

9.7%

9.8%

11.9%

 

我们发现:各个一级指标的实际权重没有发生重大改变,因此,可以认为内部组和外部组内一级指标的权重设置是稳健的,这两组历年来的总分差异主要源于得分的差异,权重差异所导致的影响较小。不过,尽管如此,我们还是建议:在短期内,各个一级指标的权重应该保持一致,以后可以根据实际情况的变化定期调整。

2.各个组之间的权重设置审查

在余杭法治指数中,总指数由各个组的得分加权平均得到,其中内部组和外部组都占17.5%的权重,专家组占30%的权重,民意调查占35%的权重。但根据公开资料,我们看到专家组只调查了1015个专家,但其评分却占到了30%的权重;参与的群众有一两千以上,比重却仅占35%;外地专家的权重超出本地群众的权重太多,这种安排并没有充分的理由。评估专家王公义研究员也坦言:“我觉得专家的比重高了,群众的比重低了,应该加大群众评价的比重,逐步缩小政府评价和专家评价的比重”。[17]46

如果我们进一步改变群众组和专家的权重,进行敏感性分析,可以发现:由于权重设置的不同,历年指数的变化方向也随之改变;对于余杭法治指数的得分而言,权重是一个影响很大的敏感性因素。由于权重是人为主观设定的,指数得分受人为影响很大,稳健性颇成问题。

6  敏感性分析

权重设计

2008

2009

2010

2011

2012

专家35%,群众30%

71.81

72.19

72.76

72.99

73.95

专家30%,群众35%

71.84

72.12

72.48

72.56

73.66

专家25%,群众40%

71.83

72.05

72.20

72.13

73.37

专家20%,群众45%

71.84

71.98

71.92

71.70

73.07

 

 

三、全国法治政府评估的再评估

 

肇始于2008年的法治政府评估,是中国法治评估的一个重要部分。迄今为止,全国至少有17个省级、市级和县级政府出台了法治政府评估指标体系。这些评估都属于政府组织的内部评估,个别地方如深圳市、广东省公布了一些评估得分,其他地方尚未公开具体的评估情况,因此无法进行再评估。相比之下,中国政法大学法治政府研究院设立的“全国法治政府评估项目”,研发了一套可以适用全国、覆盖全面、力求科学、注重操作、兼顾定性与定量评价的法治政府评估指标体系,并于2013年首次应用于53个城市,2014年扩展到100个城市。本文的数据,来自201410月出版的《中国法治政府评估报告(2013)》以及20151月出版的《中国法治政府评估报告2014》。[]由于该评估指标中只有“公众满意度”指标采取抽样调查,其余指标都采取网络检索或者向当地政府发函询问的方法,因此无法计算其误差。以下是其他审查的结果。

(一)信度和内部一致性的分析

2013年的评估有七个一级指标:机构职能及组织领导、制度建设和行政决策、行政执法、政府信息公开、监督与问责、社会矛盾化解与行政争议解决、公众满意度调查。但是到了2014年,项目组将原来的七个一级指标拆分成九个,增加了若干三级指标,并调整了指标的分值,需要分别审查20132014年的数据。

我们运用C-alpha系数和主成分分析法,得出了如下结果:

7  2013年一级指标信度

方差贡献率

综合得分

机构职能与组织领导

制度建设和行政决策

行政执法

政府信息公开

监督与问责

社会矛盾化解与行政争议解决

公众满意度

36%

0.69

0.62

0.59

0.56

0.60

0.65

0.68

0.69

 

8  2014年一级指标信度

方差贡献率

综合得分

机构职能

组织领导

制度建设

行政决策

行政执法

政府信息公开

监督与问责

社会矛盾化解与行政争议解决

公众满意度

34%

0.71

0.67

0.63

0.66

0.68

0.7

0.65

0.66

0.64

0.72

 

可以看出,2013年的信度并不高,均在0.7以下,但是可以接受;2014年指标拆分以后,信度略微提高;不过,第一主成分的方差贡献率仅分别为36%34%。所以,综合指标与各个一级指标的一致性并不强。

我们再运用Spearman秩系数,来检验各个指标之间的相关性。计算公式如下:


blob.png

得出了下列结果:

9  2013年一级指标相关性


机构职能及组织领导

制度建设和行政决策

行政执法

政府信息公开

监督与问责

社会矛盾化解与行政争议解决

公众满意度

机构职能及组织领导

1.00

0.53

0.36

0.26

0.19

-0.01

1.00

制度建设和行政决策

0.53

1.00

0.53

0.38

0.08

0.12

0.53

行政执法

0.36

0.53

1.00

0.33

0.02

0.18

0.36

政府信息公开

0.26

0.38

0.33

1.00

0.08

-0.06

0.26

监督与问责

0.19

0.08

0.02

0.08

1.00

-0.05

0.19

社会矛盾化解与行政争议解决

-0.01

0.12

0.18

-0.06

-0.05

1.00

-0.01

公众满意度

1.00

0.53

0.36

0.26

0.19

-0.01

1.00

 

10  2014年一级指标相关性


机构职能

组织领导

制度建设

行政决策

行政执法

政府信息公开

监督与问责

社会矛盾化解与行政争议解决

公众满意度

机构职能

1

0.3

0.38

0.36

0.02

0.41

0.33

0.2

0.01

组织领导

0.3

1

0.24

0.23

0.19

0.14

0.3

0.53

-0.03

制度建设

0.38

0.24

1

0.3

0.12

0.33

0.49

0.19

0.07

行政决策

0.36

0.23

0.3

1

-0.02

0.22

0.11

0.26

-0.13

行政执法

0.02

0.19

0.12

-0.02

1

0.22

0.13

0.26

0

政府信息公开

0.41

0.14

0.33

0.22

0.22

1

0.24

0.25

0.2

监督与问责

0.33

0.3

0.49

0.11

0.13

0.24

1

0.25

0.26

社会矛盾化解与行政争议解决

0.2

0.53

0.19

0.26

0.26

0.25

0.25

1

0.21

公众满意度

0.01

-0.03

0.07

-0.13

0

0.2

0.26

0.21

1

 

可以看出:各个指标之间的相关系数均在0.6以下,尤其是2014年,各个一级指标之间的相关性普遍偏低;在2013年,最相关的指标是“机构职能及组织领导”、“行政执法”与“制度建设和行政决策”,但是其相关系数也仅有0.53(越接近1表示越相关),均是中低度相关。这些计算表明:七个一级指标之间并不存在明显的相关性,还需要重新设计调整。

(二)效度的分析

由于该评估报告提供了各个一级指标的具体数据,可以对其进行内容效度审查,以评判综合得分与各个一级指标之间的相关性。内容效度的审查,可以通过计算单项得分与总分的相关系数,检验其显著性(significance)来判断相关性是否有效。综合指标应该和一级指标之间有高度的正相关性,相关系数越大越好。具体的审查方法是皮尔逊相关系数(Pearson Co6rrelation Coefficient)。该系数的取值范围在-11之间,若为正相关,则取值为正,负相关则为负。其计算公式为:


blob.png

如果检验p值小于0.05,可认为相关系数显著。

审查结果如下:

11  2013年一级指标效度

机构职能及组织领导

制度建设和行政决策

行政执法

政府信息公开

监督与问责

社会矛盾化解与行政争议解决

公众满意度

0.64

(0.00)

0.83

(0.00)

0.79

(0.00)

0.70

(0.00)

0.49

(0.000)

0.23

(0.09)

0.15

(0.29)

 

12  2014年一级指标效度

机构职能

组织领导

制度建设

行政决策

行政执法

政府信息公开

监督与问责

社会矛盾化解与行政争议解决

公众满意度

0.55

(0.00)

0.71

(0.00)

0.57

(0.00)

0.46

(0.00)

0.49

(0.00)

0.65

(0.00)

0.6

(0.00)

0.68

(0.00)

0.29

(0.00)

 

结果显示:2013年综合得分与前五个指标的相关系数的检验p值均小于0.05,可以认为有显著相关性;并且,前四个相关系数在0.7以上,具有较高的一致性。后两个相关系数p值大于0.05,不能认为有显著相关性,并且,其相关系数也较低,特别是“公众满意度”,内容效度并不好。这一定量审查结果表明:“公众满意度”不应该被纳入指标体系之中。2014年,综合得分与组织领导、政府信息公开、监督问责、社会矛盾与争议解决的相关性在0.6以上,但是“公众满意度”与综合得分的相关性仍然较弱,内容效度仍然不好。

(三)稳健性分析

1.指标重要性的稳健性分析

在该指标体系中,综合得分由七个一级指标直接加总得到,这就隐含了各个一级指标权重等同的预设。但是,七个一级指标的满分并不相同,这会对各个一级指标的实际重要性产生强烈影响,通常而言,指标满分越大,方差也越大,其重要性也就越高。为此,我们首先采取上文所用的指标重要性计算公式,来计算各个一级指标的实际重要性,结果如下:

13  2013年一级指标重要性分析

机构职能及组织领导

满分65分)

制度建设和行政决策

满分60分)

行政执法

满分40分)

政府信息公开

满分40分)

监督与问责

满分45分)

社会矛盾化解与行政争议解决

满分20分)

公众满意度

满分30分)

0.27

0.51

0.35

0.26

0.15

0.04

0.02

 

14  2014年一级指标重要性分析

机构职能

满分100

组织领导

满分80

制度建设

满分80

行政决策

满分100

行政执法

满分120

政府信息公开

满分120

监督与问责

满分100

社会矛盾化解与行政争议解决

满分100

公众满意度

满分200

0.13

0.3

0.16

0.13

0.19

0.25

0.14

0.25

0.08

 

可以看到,2013年各个指标的重要性之间差异太大,“制度建设和行政决策”的实际重要性高达0.51,而“社会矛盾化解与行政争议解决”和“公众满意度”的实际重要性却只有0.04和0.02。在法治政府中,社会矛盾化解与行政争议解决”也是不可或缺的一项内容,重要性程度至少应该与制度建设和行政决策”持平,但是其实际重要性却是如此之低,可能有些不妥。如果将满分不等的各个一级指标直接进行相加,那么分值较少而实际重要性却不低的指标必然会“吃亏”。2014年,由于二级指标和三级指标的增加,可以看出,前八个指标的重要性相比2013年更加平衡,其中“社会矛盾化解与行政争议解决”的重要性有较大改善,“公众满意度”的分值虽然有较大变化,但可以看出其重要性依旧较低。

或许会有学者提议:将七个一级指标的得分进行标准化,转化为得分率(得分/满分),以除去满分不同所导致的重要性不同,如此可以实现各个一级指标的权重均等。这一建议并非没有可行的余地,并且“中国法治政府评估”课题组也计算了得分率,未来很有可能以得分率的方式进行评估。我们以同样的计算公式,计算了标准化后的重要性,结果如下:

15  2013年一级指标得分率重要性分析

机构职能及组织领导

满分65分)

制度建设和行政决策

满分60分)

行政执法

满分40分)

政府信息公开

满分40分)

监督与问责

满分45分)

社会矛盾化解与行政争议解决

满分20分)

公众满意度

满分30分)

0.17

0.39

0.40

0.30

0.16

0.12

0.04

 

16  2014年一级指标得分率重要性分析

机构职能

满分100

组织领导

满分80

制度建设

满分80

行政决策

满分100

行政执法

满分120

政府信息公开

满分120

监督与问责

满分100

社会矛盾化解与行政争议解决

满分100

公众满意度

满分200

0.14

0.38

0.21

0.15

0.15

0.2

0.14

0.26

0.03

 

可以看出,即使进行了指标得分的标准化,也无法实现各个指标的重要性相等。公众满意度指标对于综合指标几乎没有影响,其中的原因可能有两个:一是公众满意度指标本身确实不重要,另一个是调查题项的设置有问题(内容不合理或者数量不够)。从“法治政府”本身的内容来看,第一个原因成立的可能性最大:公众满意度与其他指标完全属于性质不同的事物,也不属于法治政府的必要内容。所以,对于这一指标,应当考虑予以剔除。

2.综合排名的稳健性分析

我们在现有数据的基础上,采用权重模拟实验,来审查该指标体系是否足以成为一个合理的综合排名指标体系。我们采用蒙特卡洛模拟的方法,随机生成一千套权重组合,对53个城市进行重新排名,结果发现:有50个城市的排名变化幅度在10位以上,仅有邯郸、包头和拉萨排名变化在10位以内。

1  2013年得分模拟排名变化情况图

blob.png

注:斜线是法治政府评估中的各个城市原始排名(广州最高,拉萨最低),每条垂直线代表在1000次蒙特卡洛模拟中相应城市排名变化的幅度,例如,广州的变动范围为113名,上海为118名。

当把七个一级指标的得分转化为得分率之后,再次采用蒙特卡洛模拟实验,同样也有超过50个城市排名变化了10位以上,仅有广州、邯郸和拉萨排名变化在10名以内。

2  2013年得分率模拟排名变化情况图

blob.png

2014年城市数量扩展到100个,我们重复了以上模拟过程,结果表明:无论是用得分进行模拟,还是用得分率进行模拟,均有超过90个城市的排名波动大于10名,超过60个城市的排名波动大于50名。

3  2014年得分模拟排名变化情况图

blob.png

注:斜线是法治政府评估2014中的各个城市原始排名(广州最高,绥化最低),每条垂直线代表在1000次蒙特卡洛模拟中相应城市排名变化的幅度,例如,广州的变动范围为110名,绥化为82100名。

4  2014年得分率模拟排名变化情况图

blob.png

 

此外,如果在2014年的100个城市中,挑出2013年评估的53个城市,进行年度比较,可以发现:在综合排名上,21个城市的排名变化了10名及以上,其中哈尔滨市下降了34名;在行政执法、政府信息公开、社会矛盾化解与行政争议解决三个指标上,均有超过30个城市的排名变化了10名及以上,其中2014年齐齐哈尔市在“社会矛盾化解与行政争议解决”指标上的排名比2013年下降了43名。从这些纵向对比来看,城市排名变化剧烈,不具有历史可比性。造成这种结果,有两个原因:一是获取信息的方式有问题(例如采用网络检索、发函询问等方式等,可能会和各年的真实情况有较大背离),二是由于指标体系还不够成熟,二级指标和三级指标均发生了重大调整(2014年新增了较多三级指标,且分值发生了改变)。后一种原因可能是主要原因。

以上分析说明,由于各个指标之间的相关性较弱,各个城市的不同指标得分差异也较大。因此,如果采用目前的指标体系对城市进行排名,从方法上来讲是不够稳健的,只要各指标的权重稍作变化,排名情况就会发生很大变化。因此,指标的设置并不合理,还需要调整指标下的调查内容、题目数量和分数设置。

 

四、中国法治评估的改进探讨

 

从上述再评估结果来看,两大法治评估均存在信度和一致性不高、效度有偏差、稳健性不足的共同问题,此外还有不容忽视的测量误差。针对这些问题,结合中国法治评估已有的其他实践,我们尝试提出如下改进方案。

(一)建构严谨而合理的法治理论基础

中国法治评估的信度和效度之所以较低,首要的原因是各个指标之间的相关性很低,终极的原因则是缺乏有效的法治理论支撑。如果没有一个严谨而合理的法治理论基础,法治指标的选择就缺乏有效的指导、显得松散随意,最终形成的“法治指标体系”只能是拼凑堆砌而成的混合物,而非一个有机整体。很多地方的法治评估方案极少提及或详细阐述自己的理论依据,在一定程度上也是由于法治理论匮乏或发展不足的缘故。与此相比,以WJP为代表的国际法治评估,一开始就明确了法治理论基础。例如,WJP把形式法治理论和保障权利的实质法治理论作为自己的理论基础。[18]39-54因此,中国未来法治评估的第一步,首先要明确自己的理论基础,然后再以此设计各种指标。

(二)设计同质性的法治指标体系、增强指标之间的相关性

余杭法治指数和法治政府评估指标的相关性都比较低,原因主要有两个,一是把性质完全不同的指标纳入指标体系,例如“公众满意度调查”,二是把投入指标、产出指标和效果指标等等类型不同的指标混合成一个指标体系。我们首先分析一下出现在中国绝大多数法治评估体系中的公众满意度调查指标。这类满意度调查,在国际法治评估中极其罕见:只有WJP的个别调查事项可以归为“满意度调查”,其他均不存在此类调查事项。[]这种调查之所以在中国广泛出现,是由于中国法治评估大量借鉴了公共管理领域的绩效评估方法。政府管理的绩效有客观绩效和主观绩效两种,前者类型较多,例如GDP增长、财政收入、就业率等等,后者却很单一:由于政府管理的最终目标就是让公众或群众满意,因此满意度就是政府管理领域最基本的主观绩效。所以,满意度调查就成了政府绩效评估的必要内容,并且被移植到了中国法治评估领域。

但是,正如上述分析所示,“公众满意度”与“制度建设”、“行政执法”等等指标的相关性非常低,属于性质不同的两类事项,应当把它从法治指标体系中分离出来、单独作为一种独立的调查事项。在法治评估领域,“公众满意度”调查的意义并不大:它除了反映公众的某种主观情绪以外别无用处,检查不出法治实践中出现的具体客观问题,无法发挥法治评估的“体检”功能,还浪费了公众调查必然消耗的大量人力物力财力。公民满意度的横向比较价值也相当有限,不能因为某地的公民满意度高比另一个地方高,就简单地认为该地的法治建设和政府管理就比另一个地方好——我们在调研中发现:那些经济落后、居民生活水平较低区县的公众满意度,往往比那些经济发达、居民生活水平较高区县的满意度高。满意与否不存在完全客观的标准,而主要取决于“期望质量”与“感受质量”之间的差距。[19]发达地区的公众满意度之所以较低,原因在于当地公众的期望值较高,而不是当地法治建设和政府管理的客观水准较差。总之,对于价值不大的“公众满意度”调查,应该谨慎地予以使用。

其次,指标本身也是有不同类型的,可以分为投入/产出/效果指标,分别反映法治系统的不同阶段。例如,各种法律制度的建设属于“投入指标”,行政执法、法院判决属于“产出指标”,社会矛盾的最终化解则属于“效果指标”。中国法治评估目前以“投入指标”为主体,甚至在行政执法等看似属于“产出指标”的指标中,其大部分内容也属于投入指标。[11]不同类型指标之间的相关性是很低的,以全国法治政府评估项目的审查结果为例,投入指标“机构职能及组织领导”与效果指标“社会矛盾化解与行政争议解决”的Spearman秩系数甚至是负相关(-0.01),与另一个投入指标“制度建设和行政决策”的系数则有0.53。所以,在同一个指标体系中,应该设计同一类型的指标,以增强其相关性和科学性。另外,法治建设的最终目标是要取得良好的社会效果,例如人权得到充分保障,而当前的中国法治评估指标绝大多数由投入指标和产出指标构成,其中主要又是投入指标,这造成了法治评估体系内容上的重大缺陷。未来的中国法治评估,应该更倾向于效果指标,以效果指标来检验投入指标的产出质量,最大程度地利用法治建设的各种投入资源。

(三)区分专家评估和公众评估的利弊、合理安排各自的评估

评估主体应该具有中立性这一建议,早已被众多学者反复强调,本文对此完全同意,在此不再赘述。需要研究的是:如何充分发挥专家和公众这两种外部评估主体的作用。我国的法治评估更注重专家评估。诚然,专家评估具有专业权威、成本较小(公众调查人数动辄成百上千或上万,而专家只需要几个或几十个即可)等等显著优势,但是劣势也很明显:专家并非全才,不可能掌握法治的所有信息,特别是短时间内无法准确地把握、评判某个陌生地域的法治现状。浙江余杭为了“避免内部组和外部组评审出现法治评分不客观、不科学、不公正。从而使整个法治指数分值出现不合理的情况”,[20]242增设了专家组。然而,外地专家可以做到中立、公正,但是未必保证得了客观、科学,有的专家已经“有点担心”。[12]因此,如果是由专家来进行法治评估,必须给专家留下充足的调查时间,尽量避免在短时间内仓促地做出判断。

其次,应该充分发挥广大公众的评估主体作用。法治建设的最终目的,是为了广大人民群众的根本利益;公众是法治效果的最终感受者,是最有资格评估法治建设的主体。并且,公众能够提供法律实践各个领域的体验信息,弥补专家评估的相应缺陷,因此,在未来的法治评估中,公众应当是最主要的评估者。但是,在实践中,公众评估的领域和地位却被大大限制了。这种限制主要表现在两个方面:一是把公众的评估领域限定为各种“满意度”,二是压缩公众满意度的分值比重。这些做法都是应该改正的。如上所述,公众满意度调查的意义很小,公众完全可以对政府的各项外部行为进行客观评估,而且其评估结果应当成为最基本的评价依据。

最后,鉴于余杭法治指数的评估主体模式为云南昆明等地所借鉴,对于其他地方的法治评估实践影响深远,有必要提出专门的改进建议。余杭将评估主体划为内部组、外部组、专家组和群众组四类,其中,由教授、高中教师、记者、企业家、律师等等组成的“外部组”,与人民群众实质上是一类评估主体,很难完全区分。因此,建议将这两者合并,同时取消“群众满意度调查”,使这一新的“外部组”评估余杭法治建设领域的各个方面。根据上文的分析,四类评估主体的得分以不同权重聚合加总的计算方法,没有合理的根据,稳健性也不足。因此,可以将新的外部组、内部组和专家组的分数并列展示出来,以内部组和专家组的打分作为参考依据,以外部组的打分为最终得分,尽可能发挥法治评估的“体检”功能。

(四)采取科学合理的权重分配和计算规则、将结果划分为不同等次进行评估

权重分配是一个棘手难题,具体的分配方法也较多,有两大类:一是根据理论重要程度的分配,二是根据统计方法,例如主成分分析、因子分析、数据包络分析(DEA)、多元回归模型(multiple regression modle)、层次分析法(AHP)、参与式方法(participatory methods,国内学者又称之为“德尔菲法”)等等。[21]统计学与社会学理论均指出:权重的配置,通常采取均等分配的方式,除非有确切的特别说明。[13]国内的法治评估一般采取两种方法,一是通过德尔菲法来分配不等的权重,二是均等分配。采取第一种方法的评估,应该注意保持权重在一定周期的稳定性,避免每年分配一次的频繁更替,以保障指数的比较功能。采取第二种方法的评估较多,但是往往都具有每个指标满分不等的问题,以致造成了各个指标的实际重要性不均。对于这类问题,首先应该明确各个指标的权重均等,然后调整各个指标内部的题目数量和分数设置,对各个指标的得分进行标准化处理,保障其实际的权重一致。计算规则主要有两种:线性计算法和几何计算法;前者适用于存在互补关系的指标;后者适用于相互之间不可补偿、彼此独立的指标。[22]255-256余杭法治指数为四个组配以不同权重的计算规则,没有令人信服的依据,应该取消。

我们需要特别强调量化结果的使用问题。国内最流行的做法,是给出一个数据作为评估结果,而且还要精确到小数点后一位或后两位,看起来似乎很科学、很准确。例如,昆明法治指数的第一次测评结果是72.96分,最近的测评结果是72.68分;广东省对22个地方政府和39个省直单位进行“法治政府考评”,最高分90.9分,最低分71.76分,平均分82.22分。[23]但是,任何统计数据都会有不同程度的误差,特别是上述评估都引入了抽样调查。误差不是错误,而是统计调查固有的随机性所决定的。如果为了比较排名,人为地确定一个固定的分数、不提供相应的测量误差,这其实是人为地制造不公平。如果不同测量对象的分值比较接近、在对方的误差范围内,可以认为它们之间没有显著差异,属于同一个层次。因此,我们建议,在涉及统计调查的评估实践中,取消以单个分值论高低的流行做法,采取分等次的方法进行评估。这种做法看起来比较粗糙,事实上最科学、最公平。

(五)对定量评估结果进行统计审查

法治的定量评估是法治理论与社会科学定量方法结合而成的共同产物,两者缺一不可。由于国内的法治评估基本上由法学界所主导,社会科学定量方法、特别是统计方法应用得相对不多。事实上,对于法治的定量评估、尤其是法治指数而言,统计方法有着不可或缺的作用。这一作用首先体现在指数的编制环节。经济合作与发展组织(OECD)把综合指数的建构过程分为十步:发展理论框架、选择变量、插补缺失值、多变量分析、数据的标准化、权重与聚合、稳健性与敏感性、回归细节、与其它变量关联、展示与传播。[24]19-43除了前两步是定性分析以外,其他都离不开统计方法。法治指数出台以后,更需要接受统计审查,以保证数据的科学性,并为未来的改进提供指引。因此,我们建议:未来的法治定量评估、特别是法治指数,应该进行常规的信度和效度检验,并提供测量误差,此外,还可以检验指标体系的一致性和稳健性,通过相关的反馈结果来进一步完善指标体系和评估方法。

 

 



本文经压缩,发表于《江苏行政学院学报》2017年第4期。

[]作者简介:孟涛,中国人民大学法学院副教授,主要研究方向为法理学、法社会学;江照,中债信用增进投资股份有限公司投资经理。

 

[]详细论述,参见[]伦斯·纽曼、拉里·克罗伊格:《社会工作研究方法:质性和定量方法的应用》,刘梦译,中国人民大学出版社2008年版,第230231页;[]艾尔·巴比:《社会研究方法(第十一版)》,邱泽奇译,华夏出版社2009年版,第127128136137页。

[]由于其数学运算公式和说明较多,在此不予列举。有兴趣的读者可以参见吴喜之:《统计学:从数据到结论》,中国统计出版社2013年版,第156163页。

[]内部组和外部组的数据,来自钱弘道等著:《法治评估的实验——余杭案例》,法律出版社2013年版,第248249页。专家组数据,来自钱弘道:《2008余杭法治指数:数据、分析及建议》,《中国司法》2010年第3期。

[]方差贡献率,是指第一个主成分的方差占所有主成分方差总和的百分比。另外,九个指标对应的系数,是指当剔除该指标的影响时、综合指标的信度系数。剔除某个指标的影响是指:将这个指标替换为其均值(也就是认为在该指标上,各个样本单元没有差异)。

[]代表性论述,参见[]布雷恩·Z·塔玛纳哈:《论法治——历史、政治和理论》,李桂林译,武汉大学出版社2010年版,第117160页;夏勇:《法治是什么——渊源、规诫与价值》,《中国社会科学》1999年第4期。

[]本文使用的最近一次指数得分71.85分是2013年度的,发布于20141015日。参见http://www.yuhang.gov.cn/zjyh/jryh/news/201410/t20141014_961955.html

[]例如,最常见的居民消费价格指数(consumer price index),通常在五年内保持各种商品的权重一致。

[]参见中国政法大学法治政府研究院:《中国法治政府评估报告(2013)》,中国人民大学出版社2014年版;《中国法治政府评估报告2014》,法律出版社2015年版。

[]WJP的调查问卷中,少数题项的选择项是“非常好、相当好、相当坏、非常坏”,这属于满意度调查。See Juan C. Botero and Alejandro Ponce, Measuring the Rule of Law, The World Justice Project-Working Papers Series No. 001. 2011. pp.39-54.

[11]中国政法大学设计的一级指标“行政执法”有7个三级指标,除了“违法行为投诉查处实际体验”指标以外,其他6个都属于投入指标。具体内容参见中国政法大学法治政府研究院:《中国法治政府评估报告(2013)》,中国人民大学出版社2014年版,第4548页。

[12]参与余杭法治指数评估的司法部专家王公义研究员曾说:“专家打得这么准确,好像真是专家厉害,作为打分者之一的我有点担心,我是否真的这么了解余杭的法治建设现状,把握得这么准吗?答案是不敢肯定”。郑成良教授也建议:“我觉得专家组的打分权重以后可不可以再压低一点。因为专家组成员大部分都是外地的,外地的就完全靠这种间接的资料来打分,恐怕将来对社会一公布会引起一些质疑”。参见钱弘道主编:《中国法治增长点——学者和官员畅谈录》,中国社会科学出版社2012年版,第47页、第57页。

[13]See Michaela Saisana and Andrea Saltelli (2011), “Rankings and Ratings: Instructions for Use”, in Hague Journal on the Rule of Law, 3 , p.254.[]艾尔·巴比:《社会研究方法(第十一版)》,邱泽奇译,华夏出版社2009年版,第162页。



[1]张保生、郑飞. 世界法治指数对中国法治评估的借鉴意义[J]. 法制与社会发展, 2013, (6).

[2]金善达. 法治指数评估的制度建设路径研究——基于系统论的分析视角[J]. 上海政法学院学报, 2014, (5).

[3]汪全胜. 法治指数的中国引入:问题及可能进路[J]. 政治与法律, 2015, (5).

[4]陈林林. 法治指数中的认真与戏谑[J]. 浙江社会科学, 2013, (6).

[5] Michaela Saisana and Andrea Saltelli, The Joint Research Centre audit on the WJP Rule of Law Index, the WJP Rule of Law Index 2010.

[6]钱弘道. 中国法治增长点——学者和官员畅谈录[M]. 北京:中国社会科学出版社,2012.

[7]张保生、张中、吴洪淇等. 中国司法文明指数报告2014[M]. 北京:中国政法大学出版社,2015.

[8]孟涛. 法治指数的建构逻辑:世界法治指数分析及其借鉴[J]. 江苏行政学院学报, 2015, (1).

[9] []萨尔金德. 爱上统计学[M]. 史玲玲译,重庆:重庆大学出版社,2011.

[10][]艾尔·巴比. 社会研究方法(第十一版)[M]. 邱泽奇译,北京:华夏出版社,2009.

[11][]埃维森等. 统计学[M]. 吴喜之等译,北京:高等教育出版社,2000.

[12]钱弘道等. 法治评估的实验——余杭案例[M]. 北京:法律出版社,2013.

[13]钱弘道. 2012年度余杭法治指数报告[J]. 中国司法, 2013, (11).

[14]钱弘道. 中国法治增长点——学者和官员畅谈录[M]. 北京:中国社会科学出版社,2012.

[15]张保生、郑飞. 世界法治指数对中国法治评估的借鉴意义[J]. 法制与社会发展, 2013, (6).

[16]钱弘道. 余杭法治指数的实验[J]. 中国司法, 2008, (9).

[17]钱弘道. 中国法治增长点——学者和官员畅谈录[M]. 北京:中国社会科学出版社,2012.

[18] Juan C. Botero and Alejandro Ponce, Measuring the Rule of Law, The World Justice Project-Working Papers Series No. 001. 2011.

[19]周志忍. 政府绩效评估中的公民参与:我国的实践历程与前景[J]. 中国行政管理, 2008, (1).

[20]钱弘道等. 法治评估的实验——余杭案例[M]. 北京:法律出版社,2013.

[21]孟涛. 论法治评估的三种类型——法治评估的一个比较视角[J]. 法学家, 2015, (3).

[22] Michaela Saisana and Andrea Saltelli (2011), “Rankings and Ratings: Instructions for Use”, in Hague Journal on the Rule of Law, 3.

[23]邓圩. 广东首次“体检”法治政府[N]. 人民日报, 2014-10-27(11).

[24] OECD/EC JRC, Handbook on Constructing Composite indicators: Methodology and User Guide. Paris: OECD.2008.


微博
分享到
发表评论

登录注册还可以输入10000