摘 要: 法学作为社会科学, 其理论命题必然从社会生活中总结而来, 也应当接受经验证据的进一步检验。这种从经验到命题, 又从命题到经验的研究方法 (或“猜想与反驳”的方法) , 被视为实证科学发展的关键甚至唯一路径。实验方法是一种总结经验并用经验证据论证或反驳命题的方法, 在包括社会科学内的各类实证科学中得到普遍使用。与以往的社会科学研究方法相比, 实验方法更具科学的精确性和可验证性。在法学中, 实验方法可以应用在研究法律实施效果、研究法官决策等领域。具体地, 实验方法可以分为人工可控实验、自然实验、田野实验等。我们常强调要加强立法和司法的科学性。提高科学性, 需要调查和研究, 需要不断用实际生活来检验法律。实验是我们需要考虑的一种研究方法。
关键词: 法学; 实证; 实验方法; 法律效果; 法官决策;
目次:
一、研究法律的效果
二、研究法官的决策
三、多组间实验设计
四、田野实验
五、实验方法在法学研究中的定位
我们通常所说的科学 (包括自然科学和社会科学) 可以分为两类:一类是以数学和逻辑为代表的, 以分析方法为手段的科学, 核心是从一系列公理系统出发演绎出一套命题;另一类是以物理学、经济学为代表的, 以对经验事实的总结为基础, 进而提出理论即因果关系的科学。我们称后者为实证科学或经验科学。一般来说, 实证科学提出的任何命题都要进行实证性的验证。我们通常用实验的方法来做这种验证。
在实证科学中, 实验方法又可以分为人工可控实验和自然实验。前者的典型例子, 如着名的伽利略“两个铁球同时落地”实验, 它推翻了亚里士多德“物体下落速度和重量成比例”的学说。就自然实验而言, 科学史上最着名的例子可能是1919年5月29日的日食现象, 这一天, 爱因斯坦的广义相对论在非洲和巴西的日全食中得到了验证——爱因斯坦的理论预计光束的路径通过质量足够大的物体周边时会被该物体引力扭曲, 而星光绕太阳弯曲则能验证这点。日全食时, 人们确实观测到太阳周边背景上恒星位置和平常观测到的位置不同。这就证实了其广义相对论的预测。在这里, 平常恒星的位置是实验“控制组” (或称“对照组”) , 而日食时恒星位置则是“实验组”。人们通过外来的因素“日食”找到了自然形成的控制组和实验组, 进而验证了爱因斯坦的理论。
人们一般所说的“实验”, 多指人工可控实验。本文介绍实验方法在法学中的应用。由于是对方法的介绍, 我们不对文献进行完整回顾, 只选择有代表性的研究作为例子加以说明。
一、研究法律的效果
法学中一切涉及法律效果的命题, 理论上, 都可以用实验的方法验证。这些命题的本质是认定哪种规则“更好”, 它几乎涵盖了法律的方方面面。
从简单的问题说起。我国所有高速公路都设有最高时速限制, 这可以说是最基本的法律规则。将一个路段的最高时速限制为80、100或120公里, 有两个最基本的考虑:一是车辆的通行效率, 二是事故的发生概率和严重性。在一个路段, 为了比较哪种限速的效果更好, 我们可以采用实验的方法。比如, 在为期两个月的实验时间内, 我们在随机产生的一半的天数将限速设置为80公里, 另一半则设为100公里。我们比较这两种规则下车辆的通行效率和事故情况, 进而确定哪一规则总体效果更好, 更适用于这一路段。最后, 我们将这一规则设定为长期的限速规定。这就是研究法律效果的实验方案。
与此相似的例子很多。各国合同法上的违约责任, 要么采取以实际履行为默认规则, 要么采取以违约赔偿为默认规则。作为理论假设, 我们当然可以提出, 实际履行比违约赔偿更好, 或者相反, 但这些命题需要实际生活的验证。实验是一种验证的方法。比如, 我们可以在我国随机抽取的一半的市、县采实际履行为默认规则, 另一半市、县采损害赔偿为默认规则;我们观察这两组市、县合同纠纷的具体情况, 如合同纠纷发生的概率、合同纠纷涉及的成本等, 进而确定哪一规则更优。1又如, 2017年施行的《民法总则》将限制民事行为能力人的年龄下限从《民法通则》规定的十周岁调整为八周岁。将民事行为能力下限设为多少岁, 其核心考虑显然是该规则的社会效果——是设为十岁好, 还是设为八岁好?我们也可以设想一种实验, 在我国一半的市、县将民事行为能力年龄下限设为十岁, 另一半市、县则设为八岁, 并观察两组市、县因民事行为能力而出现纠纷的情况, 进而确定哪一规则效果更佳。实践中, 我们确实也有着为了考察法律效果而进行实验的例子。改革开放之初设立经济特区, 可以视为一种实验。我们通过考察经济特区是否有优于中国其他地区的经济和社会发展水平, 来判断经济特区所采纳的“一揽子”法律政策是否更有利于经济特区的发展。
从以上例子看, 实验的本质是创造一组控制组和实验组, 而控制组和实验组在我们关注的研究因素上有显着的不同。我们通过研究控制组和实验组在实验后果上的不同, 推断研究因素和实验后果是否有因果关系。所有涉及法律效果的命题都可以通过实验来检验, 但现实中, 并不是所有实验都是可操作的。比如, 实验涉及很多的成本, 也可能违背我国单一制的原则。但是, 在重要的问题上, 我们仍然希望通过实验方法慎重地检验法律或政策的效果, 经济特区就是其中一个例子。
目前, 西方已经有不少研究通过实验的方法探索法律的效果。试举以下例子加以说明。在合同法中, 人们为什么遵守合同, 以及什么样的合同法规则能促进人们履行承诺, 是一个基本的问题。理论上, 人们遵守合同, 可能是因为订立合同时的承诺给自己带来了道德感和道德义务, 也可能是因为担忧违约将给自身带来经济上的损失。作为立法的考量, 如果大多数人是因为道德义务而信守合同, 那么, 实际履行是一个较好的违约责任原则;而如果人们是因为担心违约的后果而遵守合同, 那么, 期待利益损失原则是更好的立法选择。为了研究这一基本问题, 美国西北大学的艾根教授 (Zev Eigen) 开展了一项实验。实验在互联网上进行, 研究者设计了一个问卷网站, 邀请美国各地网民参与一项“答题送DVD”活动——参与者认为正在参与一项调查活动, 而并不知道正在参与实验研究。参与者登录网站时, 与网站达成一项协议, 协议的内容包括:第一, 参与者承诺回答完网页上的所有问题;第二, 如果参与者回答完所有问题, 网站承诺向参与者寄送一张电影DVD作为奖励, 如果未回答完毕, 则不寄送该DVD。实际上, 这个问卷包含数百道问题, 研究者预计数百名参与者中没有人会完成全部问题。实验的关键在于, 在参与者感到不耐烦并决定放弃 (违约) 时, 需要点击“退出”键, 而此时, 网络页面将弹出对话框, 一组参与者看到的是“如果您现在退出网站, 将不能得到我们的奖品”, 另一组参与者则看到“如果您现在退出网站, 将违背自己许下的承诺”。研究者希望观察, 在出现这两种提示时, 哪种提示会促使更多的参与者回到回答问卷的过程中去——继续遵守承诺、履行合同。实验结果是, 在第二组中有显着更多的参与者经过思考取消了立即退出的决定, 回到了答卷的过程中。可见, 当仅考虑利益损失时, 参与者更倾向于违约;而当考虑道德义务时, 参与者更可能遵守合同。通过这样的设计, 这一实验试图说明, 人们遵守承诺, 主要是出于自身道德感的要求, 而非功利的计算。2作为对立法的启示, 作者希望论证, 合同法具体规则的制定, 要注重引导人们的道德感, 用道德感降低违约的可能性, 促进守约并提升效率。
分析这一研究, 我们看到, 实验的设计有两个关键:第一, 组别间 (控制组和实验组间) 实验对象的同质性。比如, 要保证以上的实验是合理的, 我们需要两组在性别、年龄等方面大体相同的参与者。实践中, 我们一般用随机分配来保障同质性, 即我们一般从总体中获取一定的样本, 并将一部分样本随机分配到实验组, 另一部分样本随机分配到控制组——比如, 以上的实验将所有网上参与者随机分配到了两组中, 两组参与者看到了不同的退出提示。而如何完成随机分配, 是一个技术细节, 其基本原理可以用抛硬币来理解:对于一个100人的样本, 我们对每个人抛掷一次硬币, 获得正面时, 则将其分配至实验组, 背面时, 则分配至对比组。实践中, 许多实验软件 (如Qualtrics平台) 自带随机分配功能, 我们可以借助其进行随机分组。如果不使用实验软件平台, 我们可以用Excel等办公软件生成随机数, 对实验对象进行随机分配。
第二, 实验的“干预”, 或称“刺激” (stimulus) , 是不同的。我们通过观察不同的“干预”在同质的对象间产生的不同效果, 来确定干预与效果间的因果关系。比如, 以上实验的“干预”, 是对道德感和利益损失的不同提示。当然, 要使干预产生效果, 我们需要足够大的样本量, 以获取统计上的功效 (power) 。一般而言, 样本量越大, 越容易得到统计上稳健的结果。不过, 获取样本需要成本, 一个好的研究需要权衡统计的稳健性和实验的可操作性。以上这两点是所有实验设计的最基本原理。
通过这个例子, 我们也略加探讨检验实证研究是否科学的两项标准, 即“内部有效性”和“外部有效性”标准。内部有效性, 一般是指一项实验 (或其他实证研究) 的结论, 在多大程度上是明确的和可信的;外部有效性, 一般是指实验得出的结论, 在多大程度上可以推广到真实世界中去。实验研究的内部有效性, 主要依靠样本的随机分配来保障, 一般不成为严重的问题。3对实验研究的科学性挑战较大的是外部有效性问题。就以上实验而言, 我们需要提出的问题是:研究者在一个特定的互联网问卷的场景下发现, 影响人们遵守合同与否的主要因素是道德义务而非利害权衡。但是, 这一结论在多大程度上能成为一般的原理, 推广到与违约相关的所有场景呢?一些合理的怀疑包括:第一, 这一实验场景涉及的利益较小, 可能仅在利益不大的场景下, 道德义务对人们违约行为有约束作用, 而在利益较大的场景, 道德义务的作用并不明显, 因而, 这一研究结论并不能适用到合同法的所有领域;第二, 人们在网上交易和线下交易, 对道德义务和违约责任的认知不同, 这一研究结论对线下的合同场景可能并不适用;第三, 参与网上实验的人, 可能来自收入较低的群体, 其与一般消费者的行为特征可能并不一致。
我们需要注意, 所有的实证类科学研究都使用具体场景推测一般理论, 因而, 外部有效性对所有科学部门而言都是潜在的问题。当然, 这一问题在自然科学中并不严重, 而在社会科学中显得比较关键。不过, 我们似乎不应对外部有效性的要求过于苛刻。科学的发展在于经验证据的不断积累, 只要有一定的发现, 即可视为好的研究。
最后, 值得指出的是, 用实验研究评估法律效果, 在社会科学较为发达的国家已经被应用于很多领域。在美国, 人工可控实验被用于研究餐饮业卫生监管规则是否提高餐厅卫生质量、金融业披露规则是否促进投资者对金融产品的正确理解、社会保险的强制性选择是否促进社会福利等各个领域。
二、研究法官的决策
实验方法的另一大应用领域是对法官决策过程的研究。对法官行为和决策过程的剖析, 是近年来美国法学研究的一个前沿。比如, 波斯纳 (Posner) 法官和他的合作者, 着名政治科学家爱泼斯坦 (Epstein) 以及经济学家兰德斯 (Landes) , 在2013年出版《联邦法官行为》 (The Behavior of Federal Judges) 一书, 提出了关于法官行为的理性选择理论, 并以实证方法验证这一理论。4事实上, 法官行为这一研究领域方兴未艾, 很多问题亟待探索, 是法学、经济学和政治学持续关注的热点。
由于法官的决策过程很大程度上是一个心理学和认知科学的现象, 而实验是心理学和认知科学的主要研究方法, 因而, 实验在法官决策领域有着天然的应用价值。在一些较为早期的研究中, 学者着重用实验方法研究一些“法外因素”是否会给法官的决策带来影响, 以康奈尔大学法学院的法学和心理学家拉林斯基 (Rachlinski) 的一系列文章最为着名。
在一项实验中, 包括拉林斯基在内的几名研究者希望探索法官的感情是否影响法官对案件的决策。5为此, 研究者制作了多则刑事案件材料, 组织美国法官阅读这些材料, 并作出判决。这些法官又被分为控制组和实验组, 两组的材料略有不同, 以期引起法官不同的情感反应。比如, 在一个实验中, 作者提供了如下案例:一名来自秘鲁的被告被指控为非法移民。被告在进入美国时, 将一张伪造的签证粘贴于真实的护照上。法官需要判断这一行为是否构成美国国内法上的“伪造身份证” (forging an identification card) 。如果不构成这一行为, 被告将被移交移民局并遣送出境;而如果构成这一行为, 被告不但要被遣送出境, 还要被判处有罪, 并在出境前被处最高180天的监禁。在实验组, 被告被描述为一名秘鲁的毒品帮派成员, 非法进入美国是为了暗杀一名叛逃组织的成员;在控制组, 被告则被描述为一名慈爱的父亲, 非法进入美国是为了获取一份工资更高的工作, 以救治患病在家的女儿。显然, 作者希望在控制组和实验组中引起法官不同的情绪, 并观察情绪对法官判决的影响。通过分析数据, 作者发现, 实验组的法官相比于控制组的法官更倾向于判决被告的行为构成“伪造身份证”。需要注意, 由于行为是否构成“伪造身份证”是一个事实判断, 理论上, 不应与被告进入美国的动机有关联, 因而, 被告的动机实际上是与本案无关的“法外因素”。而恰恰是这一法外因素, 影响了法官的最终判决。通过这一研究, 作者证明了情感因素会对法官决策产生关键性的影响。
除了以上对情感与判决关系的研究, 拉林斯基等研究者还使用同样的实验方法, 探索了行为经济学中的各种认知偏误与法官决策的关系。他们发现, 锚定效应、框架效应、损失厌恶等认知偏误都对法官的判决有着关键性的作用——换句话说, 法官容易受各种认知偏误的误导。这无疑对法律的稳定性和公正性提出了挑战。6
值得指出的是, 在法律认知科学领域, 我国学者走在世界前沿。比如, 在一个关于认知流畅度的实验中, 李学尧、葛岩、何俊涛、秦裕林组织数十名法官现场阅读一则刑事案件材料, 并要求他们作出判决。这两组法官又被随机分配至控制组和实验组。实验组中, 案例阅读材料被设计为字体较小、较难辨识, 控制组的材料则字体较大、辨识清晰。法官在阅读时, 两种材料给他们带来的认知负担和认知流畅度不同。通过分析实验数据, 作者发现, 在认知负担重、认知流畅度差的实验组, 法官给出的判决更重。这就初步建立了认知负担、流畅程度和判决轻重间的因果关系, 是一项重要的科学发现。7注意到, 认知流畅度同样是一项法外因素, 实践中, 我们希望尽量降低这些法外因素对判决的影响。
以上的研究在方法上有很大的相似性, 他们都通过在实验室中 (或课堂上) 向法官集中发放问卷的方法来开展实验。这些研究在案件的选择和流程的设计上非常精巧, 提供了较高的内部有效性;同时, 他们以真实的法官为实验对象, 使实验发现有着一定的外部有效性。不过, 人们对这些研究的疑虑也往往集中在它们的外部有效性上。比如, 在实验中, 法官往往仅使用十几分钟的时间阅读一则一两页纸的案例, 进而进行判决;而现实中, 法官有更多的时间研究更为细致的案卷材料, 也有机会在庭审中听取案件当事人的当庭陈述。就此, 法外因素或许仅能在实验中而非真实世界中对法官决策产生影响。这引发我们思考, 如何才能提高实验研究的外部有效性, 即可推广性。
提高外部有效性的一个方法是提高实验的真实性, 或者说, 让实验场景更好地模拟法官真实的决策过程。为了增加真实性, 哈佛大学法学院斯堡曼 (Spamann) 教授、洪堡大学法学院克鲁恩 (Kl?hn) 教授和我设计了一项较为复杂的实验。我们选取了一个海牙国际刑事法庭的案件, 并编写程序制作了一个电子审判系统。在该系统中, 参与者——法官可以通过索引和链接获取与案件相关的所有材料, 包括起诉书、案件事实、法律条文、相关判例、初审法庭意见等。参与者有一个小时的时间阅读材料并作出判决。我们记录参与者的阅读顺序、阅读时长、判决结果和裁判理由。在各种材料中, 我们又穿插了实验组和控制组的设计, 用以比较法外因素和法律因素对法官判决的相对重要性。这项实验研究在中、美、英、德、法、阿根廷、印度等国分别开展, 以比较各国和各法系法官思维的异同。实验产出了不少新的发现。比如, 通过对实验数据的初步分析, 我们明确地看到, 中国法官在判决中受判例的影响非常显着, 同时, 他们花在阅读和分析判例的时间显着大于阅读法条的时间;然而, 他们并不在判决说理中提及判例对判决的影响。换句话说, 法官有意遮掩了判例对决策的决定性影响——这当然与我国不允许法官在裁判文书中援引判例的制度相联系, 但它也显示了中国法官一些特殊的思维特征, 以及现有裁判文书写作制度可能存在的缺乏透明度的问题。8
三、多组间实验设计
以上研究都仅涉及控制组和实验组的直接对比。就一些特定问题而言, 直接对比并不能很好确定因果关系并得出实验结论。因此, 有时我们需要更为复杂的实验设计。下面以我的一项研究为例进行说明。9
近年来, 法官行为领域的研究重点出现了一个变化:从侧重研究法外因素对法官决策的影响, 转向研究有哪些法律程序可以降低法外因素的影响强度。我的一项实验研究发现, 要求法官在判决前写下说理将有效降低法外因素对法官判决的影响。这一实验整体采用了2×3 (共六组) 的组间比较。不过, 为了方便说明, 我们仅介绍其中2×2 (共四组) 的组间设计部分。这一设计较一般的实验组和控制组的2组组间设计略为复杂。具体而言, 我将一定数量的法官随机分配至四个组别中 (见下表) 。法官阅读一则刑事案件材料, 并作出判决。案件中, 被告 (女) 驾车在小区车库出口遭到几名男性抢劫, 被告车窗被砸碎, 放于副驾驶一侧座椅上的提包被抢走。几名男性得手后, 乘坐一辆摩托车准备逃走。被告驾车追逐摩托车, 摩托车侧翻, 以高速冲入道路隔离带中, 致几名抢劫犯嫌疑人死亡和重伤。被告被检察机关以犯有过失致人死亡罪起诉。被告称其行为属于对正在发生的犯罪实施的正当防卫, 不应被判处有罪。
在设计上, 我将一半法官随机分配到了实验组 (A组与C组) 。实验组中, 法官得知被告是一名政府官员, 被抢提包中的数万元人民币系其当天索贿所得, 该案已另案处理。显然, 实验组的干预是为了引起法官对本案被告在情感上的反感。需要注意, 被抢的现金是否系索贿所得与本案被告是否构成正当防卫, 在法理上并不存在任何关系, 因此是一个典型的法外因素。根据以往的研究, 法外的情感因素可能会影响法官作出公正的判决。
这一实验的重点在于研究说理是否能够降低法官受法外因素影响的程度。为此, 我要求实验组和控制组中各一半法官 (C组与D组法官) 在作出判决前写下其判决理由;对另一半的法官 (A组和B组法官) 则不做此要求。我希望通过组间的比较来确认:写下说理的组别中, 法官受法外因素影响的程度是否较低。通过四组间的比较, 我发现:第一, 法外因素的影响确实存在 (A组法官给出的判决显着重于B组法官的判决) ;第二, 说理确实降低了法外因素的影响 (C组与D组法官的判决差异较小) 。
对以上的研究问题, 采用实验组和控制组直接对比并不能得出科学的结论。比如, 我们不能仅通过比较C组和D组法官的判决得出以上结论。这时, 即便C组和D组的判决不存在显着差异, 我们也并不能确定是说理降低了法外因素的影响, 还是法外因素的设计并不成功。我们也不能仅比较A组和C组法官判决的异同。这是因为, 如果缺乏B组和D组作为标杆, 我们并不能明确得知说理降低决策偏误的程度。可以看到, 实验设计的本质是比较组间的差异。如何设计组间比较, 有多种方法。这些方法要随着研究的问题而定。
四、田野实验
在本文开头我们提到, 实验分为人工可控实验 (实验室实验) 和自然实验。上文的例子大体都来自实验室实验。而实验室实验的方法在社会科学研究中存在一大“瓶颈”, 即研究的外部有效性问题:人们往往不能确信在实验室中发现的规律在多大程度上能够推广到真实世界中。
与此相比, 自然实验的方法一般不存在外部有效性问题。这是因为, 自然实验研究的是社会生活中自然形成的现象, 这些现象恰好形成了类似于实验室实验的控制组和实验组。文章开头的例子来自自然科学, 我们再试举一个社会科学中自然实验的例子:我国冬季供暖以淮河为界, 淮河以北的城市, 冬季统一供暖。研究者发现, 淮河以北一纬度内的城市, 其空气中可悬浮颗粒物比淮河以南一纬度的城市高70%, 而北部城市人均寿命低于南部城市5.5年。由于南北城市在GDP、人口数量、产业布局等要素上同质性很强, 研究者判断寿命的差异是由空气污染造成的, 而空气污染的区别又主要是由冬季统一供暖引起。10在这里, 淮河沿线南北城市互相构成了对方的对比组, 形成了一个很好的自然实验。实际上, 自然实验是当代实证经济学上最被广泛接受的研究方法, 又演化成为如双重差分法、断点回归、工具变量等较为成熟的研究设计。
显然, 自然实验方法也有其应用上的限制:并不是所有我们关心的问题都恰好能对应由自然状态形成的实验, 因而, 研究者的研究范围在很大程度上受限于可得的数据和信息。另外, 在社会科学中, 人们也很难像在实验室中那样自如控制实际社会经济生活, 这更加限定了自然实验方法的应用范围。
那么, 有没有一种研究方法, 既能解决外部有效性问题, 又能使研究者介入社会生活, 通过改变刺激 (干预) 来观察现实中的因果关系呢?近些年来, 社会科学领域出现了一类新型研究方法——田野实验 (field experiment, 或称“现场实验”) , 实现了类似的功能。田野实验不同于在实验室中进行的人工可控实验, 它通常涉及对真实世界的介入和干预;它也不同于由独立于研究目的事件引发的自然实验。它在方法上既包含了对现实的干预, 又超出了实验室之外, 描述了真实世界的规律。
在一项发表在《美国国家科学院学报》的研究中, 来自耶鲁大学生物学、心理学、管理学等多个专业的学者希望测试科研机构培养科学家时是否存在性别歧视。他们制作了两份一样的简历, 唯一不同的是简历人的姓名:一份简历写着典型的男性姓名, 另一份写着典型的女性姓名。研究者将这些简历投给美国一百多家高校科学实验室, 应聘实验室主管职位。结果是, 即便男女简历内容完全一样, 男性姓名的简历得到了潜在雇主显着更高的评价;同时, 这些实验室向这些男性提供了更高的工资。这验证了美国科学领域性别歧视的广泛存在。11在一项类似的研究中, 来自芝加哥大学布斯商学院的研究者玛丽安·伯川德 (Marianne Bertrand) 用类似的方法研究了劳动力市场上的种族歧视。12她在西雅图和芝加哥等地的报纸上刊发求职简历, 试图寻找工作。结果是, 指代白人姓名的简历得到了显着更多的回复和面试机会。这证明了美国就业市场上种族歧视现象的存在。
另一项研究中, 哈佛大学年轻的经济学家拉杰·切蒂 (Raj Chetty) 与一家美国超市合作研究消费者行为。13他们先观察超市商品价牌标价不含税时的销售量, 再改变价牌标示方式, 使其价格包含税金, 进而观察同类商品销售量。研究者发现, 虽然这两种标价方式下消费者支付的全款是相同的, 但在价牌标价含税时——消费者第一眼看到的价格更高时, 商品的销售量显着降低。这一研究通过介入价格标示体系, 展现了消费者决策中的非理性因素, 也展现了不同的税率标注体系可能给消费者福利带来的影响——而价内税和价外税如何标注, 恰恰是税法的最基本问题。
在经济学界, 最着名的运用田野实验方法的研究者当属芝加哥大学经济学系的李斯特 (John List) 教授, 其着作《Why轴》 (The Why Axis) 也是一本经济学名着。14在一项研究中, 研究者在厦门万利达集团进行了为期6个月的实验。研究者将工人分为两组, 其中一组获得的激励是“如果你们小组的平均生产效率超过每小时400件, 你每周会获得80元的奖金”, 另外一组获得的激励是“你们会获得一次性的奖金320元, 但如果某个星期你们小组的平均生产效率低于每小时400件, 你的工资会减少80元”。他发现相比奖励, 惩罚对提高生产力更有效果。显然, 害怕失去现有利益比增加预期收益对工人的激励更强——虽然这两者的经济实质是相同的。这巧妙地验证了行为经济学中着名的框架效应, 即人们对损失的厌恶超过对同等收益的偏好。
以上三个例子体现了田野实验的两项重要特点:第一, 田野实验通过巧妙地介入实际社会经济生活而验证一定的命题, 有实验室实验人工可控、自由灵活的特点。第二, 这种实验通常在实际生活中进行, 其外部有效性, 或结论的可推广性, 比一般的实验室实验更为可靠。综合来看, 田野实验是一种结合了人工可控实验和自然实验两者优点的研究方法。事实上, 它也在当今的社会科学, 特别是经济学研究中崭露头角, 甚至成为学界最为追捧的研究方法。
同时, 这一方法也逐渐从经济学迁移到了其他社会科学领域。比如, 在法学研究中, 学者以田野实验的方式研究了以色列一家幼儿园如何惩罚放学时迟到 (接回儿童) 的家长。15一开始, 幼儿园将迟到的家长姓名公布;随后, 幼儿园取消了这种声誉惩罚措施, 而改成金钱惩罚。研究者发现, 改为金钱惩罚后, 迟到的家长明显增多。虽然最后幼儿园又恢复了声誉惩罚措施, 但这时迟到家长数目并没有明显降低。这一研究说明:很多时候, 声誉较金钱惩罚是更好的预防违法的社会机制;同时, 已有的声誉机制和社会规范一旦经资本化而瓦解后, 很难得到恢复和重建。
当然, 田野实验也面临着一些困难。首先是成本。并非所有田野实验都能以较低的成本实施。比如, 上述李斯特教授的田野实验, 就要耗费研究者本身和实验所在工厂比较多的时间、精力和金钱, 而工厂也要承受工人工作量的波动带来的可能损失。其次是伦理上的限制。有许多研究领域并不适宜开展田野实验。比如, 以色列幼儿园的这项田野实验, 实际上就使原本温和而有效的声誉惩罚机制彻底瓦解。而什么是田野实验的伦理边界, 也是一个学术界日益重视的问题。目前, 在美国的主要大学, 研究者在开展介入实际生活的田野实验前都要经过学校伦理委员会的批准——这一制度正是出于这样的担忧。
总的来看, 田野实验弥补了一些原有的社会科学研究方法的不足, 展现了很强的生机和活力。它呼唤研究者开动脑筋, 走进和介入实际生活, 不断用事实和证据验证命题和理论。它的应用前景非常广阔。
五、实验方法在法学研究中的定位
作为本文的总结, 我们简略探讨实验方法在法学研究中的总体定位。我们在法律实践中普遍地观察到两类问题, 两类问题又对应着两种法学研究的方法——法学一部分是技艺, 另一部分是科学。作为技艺的法学 (或者说, 狭义的“法教义学”) , 研究的是法律适用问题, 核心是如何从卷帙浩繁的法律中准确找出与案情对应的条文, 并将条文与案情结合以得出结论;作为 (社会) 科学的法学, 研究法律与相关现象间的因果关系。显然, 实验方法是用以研究后一类问题的。
如果加以细分, 作为科学的法学又主要关注“ (广义的) 立法”和“法律的决定因素”两类问题。前者研究各种立法的不同社会后果, 并根据我们希望获得的社会后果来确立法律规则;后者研究什么因素决定了法律和社会制度, 将法律和制度本身视为结果。我们在现代学科划分中一般把法律划为社会科学, 就是更侧重把法律研究视为科学研究。这并不是因为法学作为科学较其作为技艺更为重要, 而仅是因为科学是唯一有必要或者有可能通过大学来教授的学问。一般认为, 技艺更适合在实践中学习。我们较为熟悉的英国的学徒制律师是其例子。
考察或预测不同立法的不同社会后果, 这是把法律现象作为社会现象的原因来研究, 并希图通过改变法律来改变社会。这一般是立法者关注的问题。比如, 制定婚姻法司法解释时, 婚前一方家长购置的房产产权应该归谁;刑法修订时, 非法吸收公众存款是否应该入罪;证券法和民事诉讼法调整时, 证券集体诉讼是否应先得到监管部门批准。这些问题的核心都是试图通过预测法律所带来的社会变化, 进而反过来研究如何订立法律。还有一些研究走得更远, 但关注问题的基本架构并没有改变。比如苏力用“送法下乡”和“秋菊打官司”提出的问题:西方法制在中国基层遇到哪些难处, 会给中国农村带来哪些改变;或者是法律与金融学派的问题:法系渊源的不同是否导致了不同国家对金融投资者保护水平的不同, 进而最终决定了各国历史上的经济发展率, 形成了当今的世界格局。16这些问题超越了具体的法律条文, 研究作为宏大制度的法律的社会后果。
关注法律的决定因素, 则是将法律现象作为社会力量的结果来研究。比如, 上述对法官行为的一系列研究就是在探索什么因素决定了法官的决策——在很大程度上, 也就是法律本身。当然, 将法律视为结果来研究, 还涉及很多更宏大的问题。比如, 马克思认为法律作为一种上层建筑由作为一切生产关系总和的经济基础所决定。17实际上, 这是在说不同的生产关系导致了不同的宏观制度和微观法律安排, 揭示的是一组因果关系。再比如, 韦伯认为新教伦理引发了适应资本主义生产方式的一系列法律和制度的产生。如果把法律的定义再放宽, 我们看到福山的历史终结说:资本主义生产方式决定了自由民主制是人类最终极的社会制度。18这同样是将法律作为结果来进行考察。而近年来福山不得不反驳自己提出的终结说, 认为在中产阶级不断萎缩的经济环境下, 自由民主作为制度难以维持19——所提出的仍然是关于什么决定了制度和法律的命题。
凡是关于因果关系的命题, 必然是从社会生活中总结而来, 也应当接受经验证据的进一步检验。波普尔将这种方法称为“猜想与反驳”, 将其视为科学发展的关键甚至唯一方法。实验的方法, 归根结底, 是一种总结经验并用经验证据论证或反驳命题的方法。只不过, 与以往的方法相比, 实验的方法更具科学的精确性和可验证性。当伽利略从比萨斜塔抛下两颗铁球的一刻, 他注定将超越亚里士多德。这是方法的力量。今天, 我们常常提到要加强立法和司法的科学性。提高科学性, 需要调查和研究, 需要不断用实际生活来检验法律。实验是我们需要考虑的一种研究方法。
注释:
11实际上, 已有学者用另一种实验方法对此问题进行了研究, 见Christoph Engel and Lars Freund, “Behaviorally Efficient Remedies-An Experiment” (September 1, 2017) , MPI Collective Goods Preprint, No.2017/17, available at https://ssrn.com/abstract=2988653。
22Zev J.Eigen, "When and Why Individuals Obey Contracts:Experimental Evidence of Consent, Compliance, Promise, and Performance", J.Legal Stud., Vol.41, No.1 (January 2012) , p.67
33相反, 实验以外的实证研究方法由于没有样本的随机分配, 则要考虑很多与内部有效性相关的问题。
44Lee Epstein, William M.Landes&Richard A.Posner, The Behavior of Federal Judges:A Theoretical and Empirical Study of Rational Choice, Harvard University Press, 2013.
55Andrew J.Wistrich, Jeffrey J.Rachlinski&Chris Guthrie, "Heart versus Head:Do Judges Follow the Law of Follow Their feelings", Tex.L.Rev., Vol.93 (2014) , p.855
66Chris Guthrie, Jeffrey J.Rachlinski&Andrew J.Wistrich, "Inside the Judicial Mind", Cornell L.Rev., Vol.86 (2000) , p.777.
77李学尧、葛岩、何俊涛、秦裕林:《认知流畅度对司法裁判的影响》, 载《中国社会科学》2014年第5期。
88Zhuang Liu, Lars Kl?hn&Holger Spamann, "Precedent in China", Unpublished Manuscript.
99Zhuang Liu, "Does Reason Writing Reduce Decision Bias?Experimental Evidence from Judges in China", J.Legal Stud., Vol.47, Issue 1 (2018) , p.83.
1010Yuyu Chen, Avraham Ebenstein, Michael Greenstone&Hongbin Li, "Evidence on the Impact of Sustained Exposure to Air Pollution on Life Expectancy from China's Huai River Policy", Proceedings of the National Academy of Sciences, Vol.110, Issue32 (2013) , p.12936.
1111Corinne A.Moss-Racusin et al., "Science Faculty's Subtle Gender Biases Favor Male Students", Proceedings of the National Academy of Sciences, Vol.109 (2012) , p.16474.
1212Marianne Bertrand&Sendhil Mullainathan, "Are Emily and Greg More Employable than Lakisha and Jamal?A field Experiment on Labor Market Discrimination", American Econmic Review, Vol.94, No.4 (2004) , p.991.
1313Raj Chetty, Adam Looney&Kory Kroft, "Salience and Taxation:Theory and Evidence", American Econmic Review, Vol.99, No.4 (2009) , p.1145.
1414List John&Uri Gneezy, The Why Axis:Hidden Motives and the Undiscovered Economics of Everyday Life, Random House, 2014.
1515Uri Gneezy&Aldo Rustichini, "A Fine Is A Price", J.Legal Stud., Vol.29, No.1 (2000) .
1616Rafael La Porta, et al., "Legal Determinants of External Finance", Journal of Finance, Vol.52, No.3 (1997) , p.1131以及Florencio López de Silanes, et al., "Law and Finance", Journal Of Political Economy, Vol.106, p.1113 (1998) 。
1717这贯彻于马克思主义政治经济学的始终。注意经济基础和上层建筑的定义, 前者指一切生产关系的总和, 后者指一定的社会意识形态以及与之相适应的政治法律制度等的总和。参见[德]马克思:《资本论》 (第一卷) , 人民出版社1975年版。
1818[美]福山:《历史的终结及最后之人》, 黄胜强、许铭原译, 中国社会科学出版社2003年版。
1919Francis Fukuyama, "Future of History:Can Liberal Democracy Survive the Decline of the Middle Class", Foreign Aff., Vol.91 (2012) , p.53.