中国社会科学院国际法研究所是中国国际法学的研究重镇。她的前身是中国社会科学院国际法研究中心、中国社会科学院法学研究所国际法研究室和最早时的中国社会科学院法学研究所国际法组。
小
中
大
【摘要】大数据开启了证据法制建设的时代转型。将形形色色的大数据材料用作证据以证明案情,是当下司法实践无法回避的一道题目。该现象的背后存在着重要的价值论和方法论基础。概要地说,大数据证据以海量电子数据凝练的规律性认识发挥证明作用,其主要以分析结果或报告的形式呈现。对于这一证据如何定位,各国法律界存在着不同的理论争论和实务处理,主要包括鉴定意见说、专家辅助人意见说、证人证言说等。考虑到大数据证据具有专业性和科学性,中国现实的便宜选择是将其纳入鉴定意见的证据法定形式。对于这一证据如何审查判断,我国应当聚焦真实性与关联性规则进行创新。具体来说,针对海量数据本身的真实性问题,要建设以“大”真实性为主的真实性规则;针对大数据分析结果的真实性问题,要构建判断机器算法是否可信的真实性规则;针对大数据分析结果所揭示的关联性结论,要构建基于整体数据与具体数据分层的关联性规则,特别是探索超越人类经验判断的关联性规则。
【关键词】大数据;大数据证据;鉴定意见;机器证言;证据规则
一、引言
“大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发……”这是2013年英国学者维克托对大数据改变社会所做的预言。近年来,世界范围内司法领域确实发生了巨变,突出表现为基于机器算法、机器人和高级人工智能等新兴科技的各种大数据材料涌向法庭。
美国实务中已出现了将汽车事件数据记录系统数据、谷歌地球卫星图像和GPS坐标数据、“查找我的iPhone”功能数据等用作证据的案例。这些材料的特点是数据量巨大,并可被编译为分析报告。如汽车事件数据记录系统(EDR)是专门记录汽车行驶数据的系统,它通常可以在撞车发生前、中、后,按照秒级自动提取车辆运行、系统状态、司机指令、撞车特征等各种数据,以在需要时还原汽车事件真相。我国的司法舞台也上演着同样的故事。早期,海量的通信数据、资金流数据、账户信息、网页数据、网络舆情信息、GIS地理信息及专业数据库的数据被运用于侦查活动中,成为侦查信息化转型的一道道亮丽风景。新近,人们又接续看到将“舆情分析报告”、“百度指数”、“淘宝客反作弊系统数据”、“轨迹大数据”、“公安大数据平台数据”、“证券交易监控系统数据”、“大数据资金分析报告”等用于证明的情景,同时遇到控辩双方产生争议及裁判者任意裁决的种种问题。这些都需要我们针对性地进行制度建设。本文尝试对大数据证据的基础问题作出回应,以期推动实务发展和法制变革。
二、大数据用作证据的理论基础
大数据材料具有“容量大”、“种类多”、“价值密度低”等特点,尤以“容量大”为基础特征。笔者调研e租宝案件发现,该案在侦查阶段收集的海量数据包括:(1)e租宝及芝麻金融数据;(2)集团OA系统中关于会议、财务、合同的数据;(3)关于公司及其产品介绍的电子数据;(4)涉案人员的手机数据等。它们的数据体量大到难以想象的程度。其中,“e租宝及芝麻金融数据”至少包括从4000多家银行、247家第三方支付平台、164家保险公司、114家券商汇总的1万多个账户的几十亿条资金交易流水信息,“集团OA系统中关于会议、财务、合同的数据”主要是部署在阿里云平台的、涉及200多台服务器的数据。全案数据的总量达到30TB左右。这些海量的数据交由司法人员一条一条地筛选使用根本不现实,但可以借助数据统计、数据碰撞、数据挖掘与机器学习等方法形成分析报告,用作办案支撑。这一现象不是特例,随着司法实践的发展,各种类似的报告还会花样翻新。那么,面对大数据材料,我们是抱陈守旧地将之局限于作为侦查线索,还是将其延展一步用作审判环节的证据?这就需要从基础理论层面进行考量。
(一)大数据用作证据的价值论
其次,这符合降低司法证明难度的导向。证据是一种稀缺的资源,证据短缺是人类司法的永恒规律。千百年来人类一直在寻找有效化解证明难题的方法,其中包括对新型证明方法的探索与推广。当代,我国面临着惩治以网络犯罪为代表的新型犯罪的艰巨任务,不同层面的法律规范一直千方百计地试图降低证明难度,包括更多引入“综合认定”、“综合评估”的规则,甚至尝试推出含有“证明责任移转”意味的条款。学理上也提出了“底线证明法”、“抽样取证法”、“等约计量法”等建议。若能从直接扩充证据范围的角度进行制度建设,即引入大数据以证明案情,将具有更为深远的意义。实践中,我国许多案件虽未将大数据列明为证据,但仍技巧性地发挥出它的证明作用。这在很大程度上是受制于旧观念,却也反证了司法证明中存在着大量的需求。
最后,大数据用作证据具有独到的价值。每一份具体的传统证据反映的是案件中具体的人、事、物、时、空等信息;与之不同的是,大数据反映的是案件整体或作为其很大一部分的人、事、物、时、空等信息。这一差异在涉众型犯罪案件中尤为明显。调研发现,涉众型犯罪案件中难以通过传统证据证明的案件事实,都有可能通过大数据材料找到便捷的解题之策。比如,在证明涉众型犯罪案件的组织架构时,传统上调查工商注册材料等证明方法面临着工作量巨大、材料真假难辨的困扰,而海量资金流数据等能够像DNA一样将涉众型犯罪中不同涉案人员识别并关联起来,揭示不同人员在犯罪组织中的具体角色;又如,在证明涉众型犯罪行为人主观故意时,传统的证明方法主要是通过口供或者“通过客观行为推断主观明知”,易遇到嫌疑人以不知情为由进行辩解的挑战,而利用数据挖掘方法则能发现行为人存在着规避打击的习惯做法,从而以犯罪习惯证明其主观故意。目前这样的探索取得了初步成功,表明以大数据化解司法证明难题之路,值得进行实践推广和理论提升。
(二)大数据用作证据的方法论
三、大数据证据的法律地位
从技术原理上讲,大数据变身证据通常要经过三个环节:第一步是汇总数据并进行数据清洗,第二步是建构分析模型或机器算法,第三步是进行运算形成分析结论。这一过程结束后,就会产生大数据证据。为论述的便利,本文将“大数据证据”限定为基于海量电子数据形成的分析结果或报告。在这个定义中,海量的电子数据是“源”,分析得出的结果或报告是“果”。直接起证明作用的往往是“果”——大数据分析结果或报告。当然,在特殊情况下,从海量电子数据中“淘”出来某一条或多条数据也可能起到证明作用。这一条或多条数据也可以被理解为“果”。对于如何为大数据证据赋予合理地位,目前共有如下几种选择方案。
(一)鉴定意见
一种主流观点认为,大数据证据应当作为鉴定意见使用。有论者针对“资金大数据分析结论”提出,“最好把资金大数据分析纳入司法鉴定范畴。这有利于司法实践的展开,在法律上也可以找到依据。”在组织传销案件、非法吸收公众存款案件、集资诈骗案件中,确实出现了很多这样的新型鉴定意见书。如在王某某等组织、领导传销活动罪一案中,司法鉴定机构对“××平台后台数据库”进行了检验分析,得出的鉴定意见为:该网站注册账户1×××个,成功激活1×××个;缴纳会费账户1×××个,空单账户1××个……根据推荐与被推荐的层级关系,共计22级;收取会员投资共计26××××××元;除被告人所有的账户外,还有1×××个会员账户共计17××××××元投资款没有返还。”
然而,鉴定意见本意是由鉴定机构的鉴定人对专业问题做出的专业判断。将大数据证据纳入司法鉴定的范围,必然会遭遇诸多挑战。首先,法条上语焉不详,导致该做法的合法性存疑。我国公安部《公安机关鉴定规则》、司法部《司法鉴定执业分类规定(试行)》、最高人民检察院《人民检察院鉴定规则(试行)》均未将大数据鉴定明确纳入司法鉴定的业务范围。其次,在鉴定方法、鉴定主体等具体细节方面存有障碍。就鉴定方法来说,鉴定机构出具的现有“大数据分析鉴定意见书”显示,采取的鉴定方法通常是《电子物证数据搜索检验规程》《数字化设备证据数据发现提取固定方法》,而其实际检验过程同这两个方法并不完全对应;就鉴定主体来说,“大数据分析鉴定意见书”在很大程度上是由机器算法给出实质判断——不同于以往专家借助仪器设备做出判断,这对于以由专家做出判断的司法鉴定体制是一个过于超前的突破。
(二)专家辅助人意见
2016年最高人民法院、最高人民检察院、公安部印发《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》,该法第16条规定:“对扣押的原始存储介质或者提取的电子数据,可以通过恢复、破解、统计、关联、比对等方式进行检查。”这一法律条文规制的范围已超越司法鉴定工作,而更多的是专家辅助办案活动。其中的关键词“统计”、“关联”、“比对”等通常理解可用于大数据分析。2018年最高人民检察院发布司法解释明确,各级人民检察院可以指派、聘请有专门知识的人,运用专门知识参与办案活动,协助解决专门性问题或者提出意见。专家辅助人意见是一种比鉴定意见更加宽泛的概念。任何有专门知识的人参与办案,提出的意见都是专家辅助人意见。那么,大数据证据可否作为“专家辅助人意见”(或“有专门知识的人意见”)提交呢?
这种观点比较接近于前述“鉴定意见说”,但在很大程度上还属于一种学术观念,因为诉讼法中并不存在“专家辅助人意见”这一证据形式,故若延伸至司法层面仍需要进一步定位。最高人民法院《关于适用<中华人民共和国民事诉讼法>的解释》第122条第2款规定:“具有专门知识的人在法庭上就专业问题提出的意见,视为当事人的陈述。”《关于适用<中华人民共和国刑事诉讼法>的解释》第87条第1款规定:“对案件中的专门性问题需要鉴定,但没有法定司法鉴定机构,或者法律、司法解释规定可以进行检验的,可以指派、聘请有专门知识的人进行检验,检验报告可以作为定罪量刑的参考。”这说明,大数据证据相应地可以作为“准当事人陈述”或“定罪量刑的参考”。当然,关于该问题现阶段还存在着广泛争议,我国有必要通过立法明确“专家辅助人意见”的证据地位。
(三)证人证言
不过,在我国司法实践中,已经出现以大数据证据辅助或质疑证人证言的例子。在程某某贪污罪一案中,湖北省住建厅2016年通过大数据对比有重大案情发现,控方在庭审中将此内容纳入证人朱某的证言予以举证。本案中将大数据证据转化为证人证言使用。在赵某某组织、领导传销活动罪一案中,为质疑证人胡某,控方询问“通过大数据查找你的下线人数为291人,你怎么解释?”胡某回答“我一共发展了10多个,剩下的那些下线都是多个人发展的,具体多少数我不知道。”这则是将大数据证据作为一种质证方式。
(四)其他证据
前述各种做法均体现了现阶段的实务探索或理论思考。在具体案件的语境中,每一种处理均有一定的合理性;在具体探讨的学理上,每一种观点均能自圆其说。经分析可知,上述探索和思考呈现出一定的共性规律。剖析其中的规律,能够为大数据证据的合理定位提供一份答案。
问题之一,单独讨论大数据证据的证据地位还是结合其他证据一起考虑。当下的实践中是两种情况并存的。但笔者认为,考虑大数据证据的地位,归根到底,还是要讨论其单独发挥作用时的定位问题,故应当限于前一种情况。在第二种情况下,大数据证据就是简单用作其他证据的支持或反驳材料,这只能算为讨论问题提供了素材,其处理结果并不具有参考价值。
问题之二,在现有证据形式的法律框架内还是不限于法律框架进行讨论。理想的学术研究是应然层面的讨论,相应地对大数据证据的定位也就不能局限于我国法定的八种证据形式。换言之,既可以在在物证、书证、证人证言等法定证据的框架内将大数据证据对号入座,也可以呼吁未来将大数据证据单列出来作为一种新的证据形式。而后一种选择有赖于司法案例和实践经验的丰富,更有赖于学术理念和司法观念的与时俱进。我国学者张建伟指出,“未来的证据法当中,大数据分析报告有必要单列出来作为独立的证据种类。”这种未来之策是有道理的。而现实的研究从实然层面讨论,多数人认为大数据证据的定位应该放入我国现行的法定证据形式。这也是实务部门容易接受的做法,如有些裁判文书将大数据证据列入物证、书证、鉴定意见的范围,有的将其转化为证人证言。就我国现有法律框架而言,实务中最常见的做法、学理上最流行的观点当属“鉴定意见论”。
笔者也认同现阶段的这一便宜选择。大数据证据无疑是一种专业性或科学性很强的证据,其结论部分的意见表达是普通人无从凭借常识就能理解的。而在我国现行法律框架中,只有鉴定意见与之相符。前述少数案例中裁判文书将大数据证据列为物证、书证或证人证言等,多少有些生搬硬套的感觉。将大数据证据纳入鉴定意见之列,既具有形式上的亲缘性、可比性,也满足司法追求经济性的原则,司法人员可以相对容易地援引鉴定意见的审查判断规则去处理大数据证据的效力。诚然,严格地讲,大数据证据同一般意义上的鉴定意见也存在前述一些差异,这有待于设立其采用规则时进行必要的调整。
四、大数据证据规则的建设
大数据证据并不是普通司法人员能够解读的,甚至不是具有专门知识的人能够辨析的,其极致形态是机器学习的产物。大数据证据如何适用证据规则?回答这个问题,要厘清传统证据规则用于规范大数据证据的审查判断方面已经和可能遇到的挑战,应当全面审视“大数据证据+证据规则”的问题与出路,特别是聚焦大数据证据在真实性与关联性的审查判断方面出现的特殊难题,并进行特色证据规则的创新。
从学理上讲,数据源的真实性审查包括整体数据的真实性和具体数据的真实性。前一层含义是指大数据作为一个整体数据集的真实性;也就是说,赖以做出大数据分析报告的数据(通常呈现为一份或多份数据库文件)必须是客观形成及收集的真实文件。至于该份或多份数据库文件中每一条记录或信息是否属实,则是后一层含义。简言之,两者分别指向宏观真实性与微观真实性。
形象地说,宏观真实性可称为“大”真实性,微观真实性可称为“小”真实性。大数据证据的真实性规则应当是以“大”真实性为主、兼涉“小”真实性的规则。“大”真实性审查要严格,“小”真实性审查则不能僵化,两个部分合为一个整体。
(二)构建针对机器算法是否可信的大数据分析结果真实性规则
关于大数据分析结果的质疑,主要指向结论的可靠性。人类经验表明,数据越多越大,得出结论越可靠。我国有学者指出,“数据之大,充分抵消了少数个体的特殊性,类似于在众多裁判中去掉最高分和最低分。显然,裁判越多,打分的结果就越接近运动员的真实水平。”但这里的特殊性在于,大数据分析结果是由机器算法得出的,有的机器算法还涉及数据模型。人们提出此类质疑,实质针对的是机器算法等分析方案的可信度。当下许多设计者将机器算法与数据模型视为核心的商业秘密,并不愿公开细节。由此,人们对机器算法之参数是否正确及数据模型之逻辑合理与否,难免心怀疑虑。
一种观念认为,既然基于机器学习的大数据证据被作为证据提交法庭,那就应当要求设计者公开技术方案。如果不公开,大数据证据就难以满足真实性标准。反过来,“如果设计者能够保证机器算法的透明度,那么该工具就更容易被法庭接受,而且这些计算的透明度也会同时提高刑事司法系统的透明度。”这一看法过于武断。洛斯教授指出,“像基于复杂、不透明算法的谷歌地球卫星图像分析报告,往往就被认为含有相当准确的信息而具有高度的证明力。持异议的当事人不能仅仅说,自己无从获取有关的源代码,而要求法庭对该证据予以排除”。在我国,人们也不会仅仅因为不了解技术原理而否认各种基于GPS、基站、IP地址的轨迹分析报告的证据价值。
即便要公开机器算法,“算法透明也不能保证软件得到有效的审查”。由于部分机器算法是机器学习的产物,人类的专家并不能有效解释或说明。“源代码是冗长的,像TrueAllele软件有170,000行代码。只要案件中持异议的当事人(或公众)可以自由不受限地接触、测试该软件,只要该软件客观上是扎实开发并经过标准检测的,那么获得软件源代码本身就不那么紧要了”。况且,司法人员绝大多数都是技术外行,如何进行关于数据模型与机器算法的准确裁断?又如何进一步去评价其中哪些因素可能影响到机器结论?
笔者认为,解决大数据分析结果可靠性难题,需要法律界与科技界的协同探索。当前实践中试行的一种技术方案是,由法庭组织司法鉴定机构或行业组织的专业人员进行黑箱测试。黑箱测试是在已知产品所应具有功能的前提下,通过测试来检测每个功能能否正常的一种测试方法。在测试时,把软件程序看作一个不能打开的黑盒子,在完全不考虑其内部结构和内部特性的情况下,在软件程序接口进行测试。例如,笔者所在团队在协助办理一起组织传销犯罪案件中,为借助某个大数据分析平台对后台数据库中海量的会员数据、资金数据等进行分析,通过模拟数据反复启动对该大数据分析平台的多轮黑箱测试,抽样验证过关后再用于检验鉴定,得出了传销犯罪的组织层级、成员关系等。
另一种是值得推行的法律方案,是由法庭组织控辩双方进行对抗。“就像法官判断一个新的、复杂的科学流程是否满足多伯特标准,需要组织听证会听取各方专家意见一样,法官在评估一个(机器)算法的方法论与可靠性时,同样可以召集听证会听取双方专家的作证意见。”为了使得这样的庭上对抗富有效率,法庭还应给出庭发表意见的双方专家提供必要的条件。具体来说,“控辩双方都可以审查可公开的机器(程序)代码、设计不同的输入指令、机器运行的不同参数,特别是测试与案件中当事人说法吻合的材料看看机器会产生什么样的报告”。这说明,面对大数据证据,司法领域的经典对抗制仍是一把金钥匙,可以帮助人们解开评价大数据证据之机器算法是否可靠的难题。
这里试举笔者调研的许某某诉淘宝(中国)软件有限公司、杭州阿里科技有限公司网络服务合同纠纷一案进行说明。为了维护淘宝客推广秩序,被告(淘宝)开发出反作弊系统,它可以通过抓取异常推广数据识别淘宝客的不正当推广行为。被告(淘宝)指称,原告的淘宝客PID在2013年3月、4月、5月的推广数据被反作弊系统抓取存在明显异常,三个月内共劫持淘宝流量626次、天猫流量4952次。法庭上,原告对被告(淘宝)通过机器算法——反作弊系统抓取淘宝客异常推广行为的做法表示强烈不服,双方产生了激烈的争议。那么,怎么处理这一争议呢?对抗式庭审是必不可少的,专业测试也极具价值。在该案中,被告(淘宝)提供了上海××计算机司法鉴定所出具的司法鉴定意见书一份,用以证明淘宝客反作弊系统异常检测方法的科学性、合理性及劫持流量的方法、统计依据的事实。该案虽然回避了公布淘宝反作弊算法模型的问题,但同样通过庭上对抗的方式解决了大数据分析结果的真实性认定。当然,假如该鉴定所能够进行技术上的黑箱测试,则司法裁判更具有公信力。
(三)探索超越人类经验判断的大数据证据关联性规则
人们对这一规律的认识需要一个过程。我国在以前治理网络犯罪,面对网络犯罪呈现的“事-机-人”特殊规律,经常遭遇无法依靠电子证据证明实际作案人的难题。从人类的因果逻辑认识上看,电子证据是由机器产生的,根据从中的信息只能追查到涉案机器,根本追不到作案人。但是,随着轨迹大数据分析技术出现,人们可以将得出的机器轨迹同行为人的轨迹进行匹配,实现关联性证明方面的认识跃升。如在徐某某、卢某走私、贩卖、运输、制造毒品一案中,控方举出的证据既包括几名被告人的住宿证明,也包括反映其驾驶车辆活动轨迹的智能轨迹分析材料。两者相一致,就将贩毒的犯罪行为与具体的被告人关联起来了。
五、余论
“凡是过去,皆为序曲”。莎士比亚道出了历史与当下的关系。大数据证据是电子证据迭代的产物。相比早期一条一条的电子数据而言,大数据证据以其数据量大为新特色,且可以其中隐藏其中的规律来证明案件事实。这已然是一种质的变化。现阶段通过大数据证据化解各种证明难题现已初露端倪,且还会有更长远的发展。在司法实践探索的基础上,承认大数据证据的法律地位并进行证据规则建设,就成为当务之急。
作者:刘品新,中国人民大学刑事法律科学研究中心研究员,中国人民大学法学院教授,博士生导师。