美国联邦政府开展的基础研究绩效评估及其启示(1)-科技哲学

　　摘要：近十年来，对政府资助的科学研究进行的绩效评估得到了迅速推广，但在“为何评估”、“评估什么”和“如何评估”等问题上，各国有着不同的认识和做法。本文介绍了美国联邦政府开展的基础研究绩效评估的背景、《政府绩效与结果法案》（GPRA）实施前后美国国家科学基金会（NSF）和国立卫生研究院（NIH）的绩效评估实践，进而对我国的相关问题提出相应的政策建议。
　　　关键词：美国《政府绩效与结果法案》（GPRA）；NSF；NIH；基础研究

Abstract: Although evaluating the performance and outcome of publicly funded research has been increased rapidly in most industrialized and developing countries since the last decade, different opinions and practices remain in this field. The paper analyzes the background of US federal evaluation on performance of fundamental science and introduces the implementation of the Government Performance and Results Act (GPRA) at National Science Foundation (NSF) and National Institutes of Health (NIH). As a conclusion it also gives some suggestions about evaluation on basic research in China.
Key words: GPRA; NSF; NIH; basic research

第二次世界大战结束以来，随着科学技术的迅猛发展及其对国防、经济、社会等领域越来越深入而广泛的影响，科学技术越来越被视为维护国家安全、促进经济繁荣、提高人民生活水平、增强国家综合国力的重要乃至决定性的因素。西方各国政府对科学研究的投入不断加大，公众对投资回报的期望值也日益增高。公众对科学的认同与期待使科学界和政府面临着共同的压力：公众要求科学界说明公共资金到底花在了哪里？公共资金资助的科学研究与解决公众所关心的问题间有何关联？对于政府，则要求其对科研投入的预算进行严格管理，并以强有力的手段对科学研究的过程与结果进行绩效评估，以提高研究的质量、效益与效率。政府也试图通过评估来使资助的科研成果得以彰显并让公众了解，同时提高决策与科研管理水平。
然而，知识的生产与应用不同于其他领域，对科学研究尤其是基础研究的产出与结果进行评估并非易事。虽然自20世纪60年代后期以来，一些发达国家就陆续开展了对科学研究的评估，并不断探索新的评估方法，但对基础研究的成果及影响能否进行以及如何进行绩效评估，却一直是个有争议的话题。近十余年来，随着“冷战”的结束和国际政治经济秩序的新变化，各国基础研究的环境都发生了较大变化，这些变化给评估的理论与实践带来了新的机遇和挑战。美国在科学研究方面无疑是“超级大国”，不仅在许多研究领域保持着世界领先地位，而且在对联邦政府支持的基础研究开展绩效评估方面也属先行者，有不少可供我们学习和借鉴之处。
本文试图透过国际上对基础研究开展绩效评估的发展趋势，介绍美国《政府绩效与结果法案》（Government Performance and Results Act，简称为GPRA）1993年出台的背景、GPRA的实施对联邦政府支持的科学研究的影响，尤其是以美国国家科学基金会（NSF，National Science Foundation）和国立卫生研究院（NIH，National Institutes of Health）这两个联邦政府资助基础研究的主要机构为例，指出在GPRA出台前后两个机构绩效评估实践的变化，分析美国开展基础研究绩效评估的背景、历史、方法和特点等等，进而对我国的相关问题提出有关政策建议。

1 为何评估与该评什么——美国联邦政府开展基础研究绩效评估的背景

1.1 国际化趋势：对政府支持的科学研究实行绩效评估
科研经费的分配、研究方向的选择、研究机构的调整等等，在“二战”之后成为西方主要国家科学政策的重要内容，而对这些相关政策和计划的实施结果及其影响进行预测、分析与评估，是政府制定和改进决策的重要途径之一。自20世纪60年代起，经济合作与发展组织（OECD）的一些国家就开始尝试对政府支持的科学研究活动的投入、产出、成果和影响力等方面进行评估。随着各国政府对科学活动的评估活动日趋重视，评估理论与实践的深入与拓展，特别是近十多年来，信息技术的日益普及和广泛应用使得大量数据的采集、统计、处理与建模越来越简便易行，因此，在包括美国在内的许多发达国家，对科学研究开展的绩效评估甚至已成为一个“快速成长的产业”。
近十年来，科学研究的绩效评估实践所发生的变化主要表现在三个方面：（1）虽然评估的对象日趋广泛，既有具体的研究人员、研究小组、实验室、研究机构与大学，也有受资助的学科或研究领域、受资助机构、政府的研究计划、乃至一个国家的研究实力，但“临时性的、大张旗鼓的、针对单独的研究计划开展评估似已成为过去” 。由于通过新的信息技术手段可以更有系统地统计和公开科研数据，因此，对科学研究进行经常性制度化的长期监测以及评估系统的建立与运行已占据绩效评估的主流；（2）评估工作已由研究或资助机构旨在改进自身管理的一种自发行为，扩展为来自外部权威的制度性要求，外部专家的介入也成为理所当然，一些专业的评估机构应运而生；（3）评估涉及的方面由过去强调研究活动定量的近期直接“产出（outputs）”，如发表论文、出版专著、发明专利等，扩展为更多地关注其影响覆盖学术界和经济社会诸方面的中期乃至长期的综合性“成果（outcomes）”，如国际合作水平、高水平人才的流向、技术创新形式、经济回报、对文化的整体贡献等等。评估活动的这些新特点虽然在许多国家有不同体现，但美国的情况较为突出，很有代表性，以下将重点介绍美国联邦机构开展的基础研究绩效评估。
1.2 GPRA：美国联邦政府改革行政管理的新举措
绩效评估的产生与发展一方面是被评估机构内部管理系统自我完善的体现，但更多的则是对来自包括公众在内的外界压力的回应。以美国的情况为例。自20世纪60年代以来，美国联邦政府为了回应公众与立法机构对其改进行政管理水平的要求，几乎每位总统在其任职内都出台了相应的改革措施，从60年代中期实行的规划-计划-预算制（PPBS，Planning-Programming-Budgeting-System）到尼克松执政期的目标管理（MBO，Management By Objective），再到卡特时代的零基预算（ZBB，Zero-Based Budgeting）以及里根和老布什政府的全面质量管理（TQM，Total Quality Management），直到克林顿政府时期的《政府绩效与结果法案》（GPRA）。虽然每一任政府推出的改革举措各不相同，但构成这些措施的基本要素有着相似之处，其内在目的也大体一致，即，提高公共管理的效益与效率。与以往政府的改革举措有所不同，GPRA最主要的特点在于，它不仅仅是行政部门的一项改革动议，而是以立法的形式引入了一种新的管理概念与制度——绩效评估。在这一制度要求下，对政府行政管理及结果的评估从以往的投入-产出模式转换为目标-结果模式，即不再是简单地对政府管理资源的过程进行考察，而是根据各机构所设定的任务目标来衡量其结果。而且，与以往的改革举措相比，GPRA具有的立法基础使之具有更大的权威性、持续性和强制作用。
关于GPRA出台的目的等内容，国内相关研究已有涉及。根据GPRA的目标指向，可将其目的概括为三个主要方面：（1）目标指向公众：通过系统地说明联邦机构的工作业绩，提高美国公众对政府的信任度；（2）目标指向联邦行政管理机构：要求其从法定任务和工作预期的最终结果出发，设定明确的定量绩效目标，并对照预设目标来检查工作进展和成果，以改善联邦政府的内部管理；（3）目标指向国会：通过联邦机构向国会提供有关政府工作情况的客观、准确的定量信息，为国会的决策奠定科学的基础。为了实现上述目的，GPRA要求职责各异的联邦机构制定覆盖未来5年的战略规划（strategic plans）报告（且每3年修订一次），同时，要求联邦机构每年提供将战略规划分解为定量化实施目标的年度绩效规划（annual performance plans）报告，并对照年度绩效规划中的定量目标检查其完成情况，形成年度绩效评估报告（performance reports）。GPRA的作用不仅在于要求各联邦机构提供上述3份报告，更大的压力还在于，GPRA要求国会、审计总署（GAO，General Accounting Office）和白宫的管理与预算办公室（OMB，Office of Management and Budget），把对这3份报告的审议与预算的批准过程结合起来。也就是说，每个政府机构每年所能得到的经费预算，将与其制定的战略规划、绩效规划和绩效评估结果直接相关。这就从制度上进一步保证GPRA得以贯彻实施，这也是GPRA为何会具有强制力的重要原因所在。
1.3 基础研究：能否成为GPRA的例外？
GPRA一经颁布，美国科学界和资助科学研究的联邦机构一片哗然。许多科学家和科研资助机构的管理人员的第一反应是，该法案可能不会、也不该用于基础研究。其理由主要集中在以下3个方面：（1）科学研究最重要的成果——重大科学突破的产生时机和发展方向无法预测。试图通过实施“规划”促使科学突破的产生，尤其是为科学突破产生的过程设置“年度进展的里程碑”（annual milestones），不仅是徒劳的也将是有害的。因为这样会迫使科学家因更多地关注短期结果而趋于保守，而不是锐意创新；（2）科学家的研究成果往往不是在某一个资助机构的单独支持下完成的，而是与其他经费来源共同资助的结果。把这种多渠道资助的成果仅作为某一个资助机构的成果指标，显然是不科学的；（3）没有什么定量方法可以真正衡量基础研究的质量。研究结果的许多方面无疑是可以定量化的，但研究活动中最重要的方面却难以用定量指标来衡量。因此，他们甚至希望，基础研究领域能成为GPRA的例外。
然而，法律就是法律，法律不允许有例外。国会和白宫坚持，支持基础研究的联邦机构也必须实施GPRA。不过，他们也注意到了基础研究的特殊性，指出该法案的具体实施可以有一定的灵活性，对资助基础研究的机构的年度规划报告和绩效评估报告在定量指标方面的要求也做了一定的让步。白宫负责制定科技政策的国家科学和技术理事会（NSTC，National Science and Technology Council）下属的基础科学委员会（Committee on Fundamental Science）于1996年发布了具有指导性的报告《评价基础科学》。报告明确指出，支持科学研究的联邦机构必须设计出适合于科学研究特点的评估策略，同时，还要适合于推动基础研究在实现国家总体发展目标中发挥作用。委员会在报告中声明，现有的评估手段和有关方法可以反映研究产出的重要组成部分，但研究产出中最主要的方面以及研究的最终结果和影响，很难用直接的评估工具进行量化处理；对基础科学的动态复杂性及其与国家目标间关系的认识，也不可能通过简单的定量手段予以实现。基于同行评议的价值评议（merit review）不仅是对研究项目（projects）开展事前评议的基础，而且也是对基础科学的计划（programs）进行回溯性绩效评估的重要方式。对基础研究开展全面的综合性绩效评估，应将同行评议与其他多种评估手段结合起来，如使用定量指标、定性指标、描述性文字、案例分析、国际比较、突出成绩的举例等等。鉴于基础研究的长期性和积累性特点，评估内容不仅应涉及基础研究的近期直接产出，而且更应涉及其多方面的长期综合影响。
美国国家科学院与国家工程院和医学研究院联合成立的科学、工程与公共政策委员会（COSEPUP）在1999年形成的一份有关GPRA实施情况的报告中也阐述了类似的观点。针对科学界对GPRA的争论甚至抵触情绪，COSEPUP于1998年举办了系列研讨会，对科学研究领域中GPRA的执行情况进行了调研，形成了一份政策建议报告：《评估联邦的研究计划：科学研究和政府绩效与结果法案》。报告分析了科学研究的特点、联邦机构的责任和GPRA的要求，提出了在科学研究领域实施GPRA的几项建议：（1）无论是对联邦政府资助的应用研究还是基础研究，都可以在经常性工作的基础上开展有意义的评估；（2）支持科学研究的联邦机构应当定期对以往资助的所有研究活动的整体绩效进行评估，但不同的机构必须运用与其研究性质相适应的评估方式与手段。对基础研究而言，评估的内容应包括：研究的质量(quality)、与本机构法定任务的相关性(relevance)以及研究的国际领先水平(leadership)。在选择评估方法时，需要明确各种评估方法的运用范围，如什么能评什么不能评。因为评估方法的误用会导致严重的负面效果，如评估基础研究的短期绩效可能会对创新工作带来毁灭性的灾难；（3）联邦机构应当运用专家评议方式来评估研究的质量、相关性和国际领先水平，在组建和运行专家评议的过程中，每个机构应当有清晰明确的指导思想。参加评估的专家必须综合考虑其学术性和独立性；（4）联邦机构应在战略与绩效规划中制定与人力资源相关的目标，人力资源应成为研究计划评估的内容之一；（5）尽管GPRA的实施是以单个联邦机构为单位，但应建立一套正规的评估过程，来确认和协调由多个机构资助的研究领域的绩效。每个研究领域应确定一个起主导作用的资助机构，由这个机构负责在相关机构间进行协调；（6）科学家和工程研究专家能够、而且应当在GPRA的实施中发挥重要作用，但首先，他们应当了解和熟悉有关联邦机构的战略规划与绩效规划目标，其内容应在这些机构的网页上公布。
从上述建议可以看出，COSEPUP回应了科学界的担忧，也向国会和白宫警示了在对基础研究进行绩效评估中应当注意的问题。在综合考虑各方的意见和GPRA的实际实施情况后COSEPUP认为，GPRA确实为科学界和支持科学研究的联邦机构提供了一个机会，使之能够确保美国的研究资源在满足国家需求方面的有效使用，能够向决策者和公众阐明开展科学研究的理由与结果。因此，在支持科学研究的联邦机构实施GPRA不仅是必要的，也是可行的。

2 评估什么与如何评估——NSF和NIH的绩效评估实践

美国联邦政府支持科学研究的机构大致可分为两大类，一类是以支持基础研究为主的NSF和NIH，另一类是以支持应用研究为主的国家航空航天局（NASA）、国防部（DOD）、能源部（DOE）和农业部（USDA）等部门。由于本文旨在考察基础研究的绩效评估，因此只介绍NSF和NIH的评估实践。需要说明的是，NSF是个单纯的资助机构，没有下属的研究部门，而NIH则兼有研究和资助研究的任务，但其资助对象不限于其下属研究所与研究中心，开展医学与卫生研究的大学与其他研究机构也可向NIH提出资助申请。对这两个机构而言，GPRA的实施标志着评估活动进入了一个新的阶段。
直到1993年以前，NSF和NIH开展的评估活动一直带有探索的性质。早期的评估注重数据积累和定量分析，评估工作多为不定期开展，评估的对象往往在其所资助的核心计划之外，评估结果的使用范围也限于机构内部；实施GPRA以后，绩效评估成为NSF和NIH日常工作的重要组成部分。由于GPRA要求联邦机构制定的5年战略规划报告、年度绩效规划报告和绩效评估报告三者（也被统称为GPRA报告）构成了一个相互衔接的有机整体，评估活动的针对性和目的性更加明确。与过去的评估活动相比，实行绩效评估的对象大为扩展，不仅包括其所资助的各类研究和教育计划，还包括其管理工作和资助经费的使用情况。评估指标和方法也更为灵活多样。更重要的是，评估结果不仅要向本机构内部通报，还要提交国会、GAO和OMB，这些部门对评估结果的审议直接影响到NSF和NIH下一年度的经费预算。
2.1 实施GPRA以前的绩效评估
NSF和NIH于1970年代就成立了评估办公室，率先开始探索基础研究及其影响力的定量评估方法。由于同行评议是NSF资助工作的核心，因此NSF对评估方法的研究集中于考察同行评议系统，同时也支持研究科学出版物指标的文献计量学的早期工作，于1976年形成了这一领域的经典报告《作为评估方法的文献计量学》。NSF开展的第一项评估工作运用了同行评议与文献计量学相结合的方式，对其设立的材料研究中心进行了耗资昂贵的评估活动。与此同时，NIH的评估办公室则建立了最早的医学研究期刊数据库，收录了从最基础的到最具临床应用价值的医学研究期刊，同时根据期刊登载论文的研究性质，将期刊分成不同的类别。该办公室通过文献计量学方法，根据期刊数据库的信息，统计各研究所发表论文的情况，分析论文的数量、质量、影响力等方面的特点，并据此发布对NIH各下属研究所的评估报告。NIH的若干研究所还聘请了专业评估人员，通过合同方式，根据特定的需要和目的，开展评估工作。
到了80年代，由于定量评估方法的局限和评估活动较高的成本，两个机构的评估办公室都减少了评估或放慢了评估工作进度。NIH的评估办公室撤销了需要斥巨资维持的期刊数据库。从80年代后期到90年代初期，只开展了为数不多的几次新的评估工作，多数都在其下属的研究所进行。NSF的评估办公室对若干特别的计划（如“增进女性从事科学研究的机会”计划）开展了谨慎的评估，对为数不多的受资助者获得的重大奖励进行了考察，对工程研究中心的评估则成立了特别的评估小组，由来自NSF以外的专家组成，是典型的外部评估。此外，应美国国会的要求，NSF还对其科学教育计划进行了评估。90年代初期国会拨付专门经费（为教育计划预算的3%），要求NSF对其教育计划进行全面评估。NSF在其教育与人力资源局（EHR）成立了由专业评估人员组成的评估办公室，将所有的科学教育计划（资助对象从中小学生、普通公众到研究生）都纳入常规的评估日程之中。这种常规化、制度化的评估活动为后来将绩效评估作为NSF重要日常工作的组成部分而开展积累了宝贵的经验。
2.2 实施GPRA以后的绩效评估
在GPRA的法律框架下，NSF和NIH都开展了规划工作，重新整合和规范了评估工作，并在规定的时间内提交了GPRA报告。由于GPRA要求提交战略规划的机构为内阁级别的部门或独立的机构，而NIH隶属于美国联邦健康与人类服务部（DHHS，Department of Health and Human Services），因此NIH不必单独制定其5年战略规划，与之相关的内容可包括在DHHS的战略规划中。不过，NIH仍需向国会和白宫提交年度绩效规划和绩效评估报告。NSF于1997年9月提交了第一份5年战略规划（1997-2003财年战略规划），在此基础上修订形成2000-2005财年战略规划（后又修订为2001-2006财年战略规划）；NSF和NIH都于1998年春提交了第一份年度绩效规划（1999财年绩效规划），2000年3月提交了第一份绩效评估报告（1999财年绩效报告），此后每年提交新的年度规划与绩效报告。在两个机构的绩效评估报告中，都没有对单个资助项目的结果进行评估，而是对组成某一计划的一类项目（projects）乃至对实现本机构某一方面特定任务的诸多计划（programs）开展综合评估，以展示其整体绩效水平。
NSF在其年度绩效评估报告中，将其绩效目标分为三类：资助结果、内部管理和投资过程（即资助决定产生的过程）。NSF清楚地认识到，对于其资助的研究和教育活动最终能够产生怎样的结果、何时能产生结果的问题，基本上是不可预测的。NSF的工作人员并不直接从事研究与教育，而是支持他人提出项目申请来开展研究与教育活动，通过向研究人员和教育界提供其资助结果、资助目标和实现目标的战略，对研究和教育活动发挥影响。也就是说，NSF是通过对科研投资以及相关方面进行管理的间接方式来影响、而不是直接控制所资助的科研活动的结果。因此，NSF决定，对资助结果的绩效目标设定与评估主要采用定性的方式，如：是否在科学与工程学前沿领域支持了新发现、是否促进了科学发现与其应用相结合以更好地服务于社会等等，而对其内部管理和投资过程的绩效目标则尽可能使用定量的方式来表述，如网上评议推广的比例、网上结题项目的比例、同行评议新准则的执行情况等等。

哲学网编辑部 未经授权禁止复制或建立镜像
地址：上海市虹梅南路5800号2座416室邮编：200241
ICP证号：晋ICP备 05006844号

学术与思想 Academic

哲学命题 Proposition

学科方向 Philosophy

学术资源 Resources

美国联邦政府开展的基础研究绩效评估及其启示(1)-科技哲学