王燃：大数据证明的机理及可靠性探究

论文精粹

近期热点文章

论文精粹|INFORMATION

王燃：大数据证明的机理及可靠性探究

管理员发布时间：2024-06-08 08:35 点击：1000

引言

随着大数据、人工智能技术逐渐渗入司法证明领域，引起建立在大数据基础上、以算法为核心的证明方式变革。大数据在司法领域的证明作用，突出表现在以下几方面：(1)证明主体身份。基于海量数据的生物特征识别技术开始用于人身同一性认定，1例如混合DNA识别模式在美国司法界已日趋成熟。基于人脸数据、指纹数据甚至是步态数据的算法模型，大大拓展了人身同一认定的范围。2(2)证明资金账户特征。近年来，我国公安经侦部门开始借助大数据技术，应对互联网金融犯罪海量数据的审查认定难题，犯罪组织成员间关系、传销账号及层级、资金流向等特征在算法模型下一目了然。(3)证明情节轻重、损害程度等。根据我国相关司法解释，网络犯罪中“视频或音频文件个数”“点击数”“注册会员数”“浏览量”“转发量”等“海量数据”往往作为判断情节严重的依据。面对动辄成千上万的数量级，实务中多以软件(借助算法模型)自动统计。此外，“大数据指数”也经常用于知识产权等案件中损害程度的证明，例如百度指数等证明对象的热度、知名度、影响力等。3(4)证明人身危险。在美国，司法领域开始普遍采用算法评估嫌疑人的人身危险性、再犯可能性，并将之作为假释和量刑的依据。

相较于实务界大数据证明运用的蓬勃景象，学界的大数据证明研究尚不多，且主要集中于对其证据形式、真实性及关联性的分析讨论。4上述研究也有很多观点值得进一步深化。首先，大部分研究侧重于“大数据证据”,且过多拘泥于讨论其证据形式，忽视其背后证明方法的运用。5虽然有大数据证明研究，但并未厘清其证明机理以及与传统证明的差异，6相关参考案例也较少。7其次，目前研究对数据真实性讨论较多，但往往将其混淆为电子数据真实性，8或者仅从技术层面探讨数据真实，而对法律层面的数据真实关照较少。再者，目前研究都关注“算法黑箱”“算法偏见”问题，并提出算法开示等配套制度。然而，除了技术性“算法黑箱”外，还有人为的“程序黑箱”;“算法偏见”在不同的社会背景下表现也不尽一致，应重点探究偏见背后的普适性原因；“算法开示”也要针对不同司法证明场景构建具体的程序性规则。本文将在中外大数据证明实务运用基础上，归纳大数据证明相较于传统证明的特征，着重分析其可靠性问题并提出相应的规制路径。

一、大数据证明的机理

有学者从狭义角度出发，认为大数据证明的关键在于计算模型的构建，即通过算法所产生的数据结果；9有学者则从广义角度出发，将一些数据库平台查询搜索结果、10海量数据本身也纳入其中。本文认为，相较于传统基于人类经验的证明机理，大数据证明的核心在于以算法模型完成证明过程，是一种超越人类经验的智能化证明。

传统司法证明，无论是证据证明，抑或是推理、司法认知，都是基于人类主观经验的证明。(1)司法证明主要借助证据与证据、证据与事实之间的逻辑关联，将事实碎片拼接成完整事实图画。11证据推理的关键环节，即“大前提”一般都是来源于主观经验。(2)除了证据证明外，推定、司法认知这两种证明方式中主观经验更为重要。推定强调从基础事实到推定事实之间要具有高度的伴生关系，事物间的伴生关系来源于主观经验。司法认知中显而易见的事实、众所周知的事实等也建立在主观经验基础上。此外，传统证明以物理空间为场域，相对来说证据数量有限，证据中所体现的信息也较为有限。从证据到事实的推理过程，基本上依靠经验即可完成。

大数据证明则是依靠智能化算法来完成证明活动，是一种超越了人类经验的新型证明模式。一方面，大数据证明解决了人类经验难以完成的证明困境。大数据时代出现了证明对象海量化的趋势，特别是在一些互联网涉众案件中，提取的电子数据动辄上亿条。对此，仅凭人类经验浏览完数据集都是不可能完成的任务，更遑论进行证据推理。这种情况下，算法提供了一种超越人类经验的智能化证明方法。算法可将证明难题模型化，提炼出类案中的普遍证明规律与特征，用数学模型来取代主观推理。我国司法实践中已研发出不少互联网金融案件算法证明模型，例如我国司法实践中已研发出不少互联网金融案件算法证明模型，其证明机理由此可窥见一斑：(1)集资诈骗型：若海量资金账户链路指向某一个账户，基本可以判断该账户为“吸款”账户，属于集资、诈骗型犯罪。(2)税票虚开型：若资金流向呈现“闭环”模型，即资金在多个账户之间流转后，又回到最初的账户，基本可以判断为(税票)“虚开”的事实。(3)传销类犯罪：资金分散转入账户，但集中转出；资金交易具有一定周期性；资金链呈现“金字塔”形。12互联网金融犯罪中，犯罪组织成员间关系、传销账号及层级、资金流向等关键事实在算法模型下一目了然，而这些都是传统经验式证明根本无法完成的任务。

另一方面，大数据证明突破了人类经验尚未涉足的认知新领域。超越人类经验的智能化算法亦可被用来探索司法证明的新领域。近年来，DNA领域的证明“空白”由此得以突破。在单一DNA来源的案件中，一直以“人类翻译”(human interpretation)为主导方法。13但面对混合DNA——即在同一生物证据中存在两个人或更多人DNA混合物，人类经验则束手无策。在美国，以TrueAllele为代表的技术公司，14通过专业的算法模型对混合DNA中的海量数据分析，进行人身同一认定，并由此确定刑事案件真凶。15早在2009年的联邦诉福利一案中(Commonwealth v.Foley),法院便采信了TrueAllele分析结果。16目前，以TrueAllele为代表的混合DNA分析算法已在美国司法实务中得到广泛应用。17

可见，大数据证明能够弥补传统经验式司法证明的短板，大大拓展了人类证明的领域边界，是一种超越人类经验的证明模式。相较于传统证明，大数据证明还具有数据空间证明、数据因果关系证明以及涵摄未来证明等内涵。

(一)从侧重于物理空间的证明到侧重于数据空间的证明

传统证明主要以物理空间为场景。这里的“物理空间”既包括肉眼可见、可以直观感知的现实场景，亦包括以新兴电子数据为代表的“虚拟空间”。本质上来说，“虚拟空间”亦属于广义上的物理空间，其体现为0和1二进制代码所组成的空间。在物理空间场景，证据表现为证据载体以及根据载体所反映出的信息，主要根据载体所反映的信息进行事实证明。18以人身同一认定为例，传统证明可通过辨认来确定犯罪嫌疑人或被害人，其原理是犯罪嫌疑人或被害人在辨认主体脑海中留下的特征映像。传统辨认的效果取决于辨认主体的认知、记忆能力，以及特征反映体是否具有典型性等，受限于物理空间的条件限制。

大数据证明则以数据空间为场景。这里的“数据空间”不同于传统证明中所“自然”生成的物理空间，而是源于大数据时代的“万物皆可数据化”特征，探求物理空间中一切事物所对应的数据形态。理论上说，八种法定证据种类，均可映射在数据空间，有着相对应的数据化形态。大数据证明亦是“物数据化”的过程，将原本物理空间证明转移至数据空间，寻求基于数据及算法的证明方法。仍以人身同一认定为例，大数据证明可采用人脸识别技术来完成证明。其原理是将物理空间具像的人脸转化为图像数据，计算人脸特征的相关数值，再通过数据比对等算法来进行智能化识别。19可见，大数据证明不同于物理空间“载体—信息”式证明方式，其将证明对象转化为数据，并通过数据的智能化计算分析来完成证明。

(二)从侧重逻辑推理的因果关系到侧重基于数理的因果关系

传统证明侧重基于逻辑的因果关系。因果关系是人类认识世界的根本方式。在司法证明中，因果关系的理解及运用尤为重要，往往表现为从果溯因式的逻辑推理。例如张三在案发后神情紧张(果),假设作案人在案发后神情紧张，那么张三则有可能是该案件的作案人(因)。传统司法证明中的因果关系通过人脑的逻辑推理来完成。人脑在接受证据信息后，探究证据背后的原因，建立起证据与事实之间的因果关系，以及证据与证据之间的因果关系。

大数据证明侧重基于数理的因果关系。很多学者有这样的误解，认为大数据擅长相关关系而非因果关系，大数据证明中知道“是什么”就足够了。但实际上并非如此。相关关系实际上是因果关系的派生。20数据空间中，物数据化意味着因果关系的数据化，因果关系被蜕化为变量之间的数理关系。21数理关系完全不同于人类的推理逻辑，其主要表现为数据之间的相关性，并往往进一步体现为“概率”。同理，大数据证明中，因果关系并非不存在、不重要，而是体现为数据的相关关系。甚至一些案件中，司法人员已经开始通过寻求变量之间的强相关关系，进而来证明因果关系。例如在埃里卡·P.约翰基金公司诉哈里伯顿公司案中(Erica P.John Fund Inc.v.Halliburton Co.),22其核心争议点就在于原告能否证明被告哈里伯顿公司的错误声明影响了公司的股价，并由此导致投资者受损。对此，原告方采取了“事件学习”(Event Study)的数据分析方法，23证明了被告公司的财务隐瞒行为与股民投资行为之间具有因果关系。在迈阿密诉美国银行案中(Miami v.Bank of America),24原告方通过算法证明了被告美国银行的贷款政策导致了差别化对待，种族因素在其贷款发放中占有重要比重。此案一直上诉到最高法院，最高法院又将案件发回第十一巡回法庭重审，并要求确定美国银行的政策与原告所称的种族歧视之间是否有直接关系(Direct Relation);2019年5月，第十一巡回法庭确认“直接关系”的存在，并进而证明了被告的贷款政策与歧视化、差别化对待之间存在因果关系。25可见，大数据证明中，因果关系并没有被抛弃，只不过传统基于逻辑推理的因果关系往往以数理相关关系表现出来，甚至很多案件中借助大数据分析来解决因果证明的难题。

(三)从面向过去的证明到涵摄未来的证明

传统证明主要面向过去事实。大数据时代之前，人类活动主要是描述性的，即真实、精确地反映既存对象，以真实性为衡量标准。26描述性活动亦表现在司法证明中，传统司法证明对象是“事实”。一般认为，诉讼活动中需要证明的案件事实都是已经发生的历史事实。27

大数据证明可涵摄未来事项。预测是大数据最具价值的应用。大数据时代人类活动转向创构性，即根据人的需要和发展进行开创性活动，以使用的有效性为衡量标准。创构性活动主要建立在大数据预测基础上，通过对相关因素的把握和干预，来达到预想的结果。28创构性活动亦对司法领域产生影响。特别是随着风险社会、信息社会带来的风险增加，预测警务、预测侦查在全球范围兴起，通过对犯罪分子、犯罪地区、受害人等预测，来提前防范社会风险。预测警务离不开证明活动，随之而来的司法证明也开始逐渐涵摄未来事项。例如芝加哥警方探索基于证据的警务模式(evidence-based policing),利用算法、基于11个加权变量来识别高危人群，筛选出高危分子，并对其进行1-500赋分，分数越高，说明其越有可能参加暴力活动。29

此外，从广义上来说，即便是传统的司法证明也有面向未来的因素，但在大数据时代之前表现得尚不明显。传统司法证明对象包括影响量刑、羁押、取保候审、监视居住等程序性措施的要件，典型的如嫌疑人“人身危险性”“再犯可能性”的证明。我国认罪认罚从宽制度中，可能判处管制、宣告缓刑亦要进行社会调查评估，对被告人的家庭和社会关系、一贯表现、犯罪行为的后果和影响等进行调查评估。大数据无疑为“人身危险性”“再犯可能性”的评估和预测提供了绝佳的工具。在美国，司法机关已普遍采用算法评估嫌疑人的人身危险性、再犯可能性，并将之作为假释和量刑的依据。人身危险性评估模型一般将当事人的人身背景及其历史犯罪等数据作为评价要素，预测其未来的犯罪风险。例如公共安全评估系统(Public Safety Assessment, PSA)在搜集美国300个辖区的75万项案例数据基础上，根据嫌疑人年龄、未决指控、未出庭记录等九项指标来计算能否保释该犯罪嫌疑人。30再如COMPAS(Correctional Offender Management Profiling for Alternative Sanctions)系统根据嫌疑人的社交关系、生活方式、个性、家庭等动态因素去评估其再犯可能性，并作为法官量刑的依据。31

二、大数据证明的可靠性风险

作为一种新型证明方式，证明结果可靠与否乃大数据证明首先要面对的问题。不同于传统基于人类主观经验的证明方式，大数据证明本质在于机器自主、智能化分析。而在这一证明机理中，起关键作用的要素即数据和算法。因而，大数据证明的可靠与否主要取决于基础数据的真实性与全面性，以及算法模型的准确性与公平性，相关法律程序的缺失亦会对其可靠性产生影响。

(一)数据维度

数据质量及其真实性是大数据证明可靠与否的基础。大部分研究都认为数据源本身要准确，有学者还提出“宏观真实性”及“微观真实性”的观点。32然而，上述分析仍然停留在技术层面。实践中，还存在如数据虚假等“法律”层面数据不真实，以及数据样本不全面等问题。

1.法律层面的数据错误

原始数据一般都面临混杂性问题，包括格式不统一、数据重复、残缺、错误等。对于共性的数据混杂问题，可以通过数据清洗、数据转换等技术来解决。然而，司法证明中的数据混杂远不止技术层面。法律评价与技术评价的差异导致了虚拟空间的“数据”往往不能对应至背后的法律行为，技术真实的数据不一定法律真实，并进而导致法律事实认定困难。例如“点击数”“转发数”“浏览次数”“注册用户数”等海量数据型证据，每一次计数都来源于软件的自动统计，但这些机器计量数据并不一定就对应着具有法律实质意义的行为。某些网站的高点击数可能是水军“刷单”,注册的账号可能是“僵尸用户”,此外还有一人点击多次、网络黑客攻击、机器故障等情形。例如“邱成林、胡望、林春传播淫秽物品牟利案”中，涉案网站点击量5595957次系通过“CNZZ数据专家”软件统计得出，然而法官认为统计数是整个网站的被点击数，不等同于淫秽电子信息的“实际被点击数”,应当扣除非淫秽电子信息的点击数和无效点击的数量、自点击数等。33在美国，网络广告欺诈司法实务中也突显此类问题。如有些网红采取诸如“僵尸粉”、机器刷流量等方式去扩大自己的粉丝量，以非法获取高额广告利润。34诉讼中，如何区分真实账户与虚假账户、真实数据与虚假数据成为亟待解决的司法难题。

2.数据样本不全面

相比于传统证明方式，大数据证明具有海量数据的特征，但很多场景下并未达到“全数据”量级，并影响证明结果的可靠性。例如在涉及“百度指数”“搜狐指数”等指数型证据案件中，指数仅来源于其自身网站搜索量计算，而单一网站数据并不能代表被证明对象的整体发展态势。一些个案中，即便设计了科学的算法模型，但由于未能获取全数据，计算结果仍然未能得到法官采信。例如在美国海关欺诈调查局诉唯特利公司(United States ex.rel Customs Fraud Investigations LLC v.Victaulic Co)案中，35原告海关欺诈调查局(CFI)声称，被告公司从国外进口的液压金属管件部件没有正确列出原产国，并由此逃避进口产品的税收。原告对被告在eBay网站的钢铁管道销售数据进行了搜集分析，发现其至少有75%的液压管没有原产国标识，并据此认定原告公司在管道配件上逃避进口关税的事实。但法院最终并没支持原告CFI的主张，原因就在于eBay网站的数据不能代表被告在美国的整体销售情况，远未达到全数据要求，其证明结果不足以支持对被告公司的关税欺诈指控。36

(二)算法维度

算法的科学性及准确性是大数据证明可靠与否的核心因素。算法的可靠性既取决于算法模型本身的设计准确与否，也取决于其在司法场景运作过程中是否公平公正。

1.算法模型不准确

算法模型是大数据证明中最核心的部分。很多研究提到了“算法黑箱”问题，但没有深入分析算法不可靠的症结点。实际上，源代码及算法设计环节都有可能出错；即使算法本身通过了验证，具体适用场景的差异也会导致验证结果不可靠。2015年，澳大利亚昆士兰当局确认，混合DNA分析软件STRmix中发现了错误代码，并造成至少60个案件中犯罪分子认定错误。37而在另一混合DNA分析软件FST(The Forensic Statistical Tool)的算法被公开后，纽约法律援助组织声称FST的技术根本不可靠，其所依据的数据也不完善，该软件之前所涉及的案件有可能导致法官错误定罪、无辜者被迫认罪。38

源代码出错及算法自主性。算法模型中最核心的部分为源代码(Source Code)。源代码是指一系列使用字母数字字符编写的命令。源代码出错的情形实际上远远超过法律人的认知范畴，包括随机性错误、软件升级带来的错误及误差、软件退化带来的源代码功能失灵、委托者的利益影响等。39随着算法自主学习能力的加强，它们可能会自我强化学习错误的方式。当有成千上万条代码、大量的神经网络层，人类也越来越难以控制、预测算法的分析结果。科学研究表明，智能化算法甚至会采取某种欺诈的方式，去完成人类为其设定的既定目标，且这种欺诈的方式、自我学习错误的能力很难被识别。40

适用场景不一致。实务中非常容易忽略算法适用场景的差异。当算法模型的实际运用场景与其开发环境、实验参数并非完全一致时，就有可能导致分析结果不可靠。以混合DNA算法模型为例，假设其研发时场景为三个人的DNA混合物，但适用的真实案件中却有五个人DNA混合物，那么则会导致证明结果不可靠。41这样的担忧正在成为现实。美国联邦调查局DNA实验室的布鲁斯(Bruce Budowle)博士公开指出FST算法的类似错误，称其在适用中将五人的DNA混合物等同于三人混合物场景，将四人混合物等同于两人混合物场景。42而在2019年的加州北部地区法院的美国诉威廉姆斯(United States v.Williams)案中，43法官排除了一款名为BulletProof混合DNA分析软件的结果，原因就在于适用场景不一致。BulletProof只能被用于检测最多四个来源者的DNA混合物，而本案中无法证明其DNA检材中仅有四个来源者。

2.算法模型不公正

算法模型在运行过程中容易造成偏见，偏离司法公正的要求。学者们多受英美研究启发，关注算法的种族、性别等歧视问题。例如在经典的卢米斯(State v.Loomis)案中，人身危险性评估软件COMPAS就被认为含有性别及种族歧视因素。44然而，算法偏见往往是社会既有偏见的数据化体现，与当地的社会背景、历史渊源密切相关。算法作为中立的技术，其本身并没有能力去决定偏见与否，背后的主导者仍然是人类。人类设计者可将其本身意志、价值观、利益等融入算法代码中，种族、地域、性别等歧视偏见也由此而产生。因此，应透过偏见表象去探究影响算法中立的普适性、本质性原因，特别是替代性变量的运用、算法的恶性循环等问题。

替代性变量(Proxy Variables)的运用。算法偏见的一个重要原因是替代性变量的运用。算法模型中，看似中立的变量可能是某类偏见的代名词。在大数据司法证明场景中，替代性变量往往表现为与目标对象无关的，甚至是法律禁止的变量，或者是以群体性变量来替代个体变量。(1)无关的变量：例如LSI-R(the Level of Service Inventory-Revised)是美国较为流行的人身危险性评估工具，其再犯风险调查问卷是根据犯人生活背景细节来制定的。原本这些背景性细节在法律上是不允许作为证据的，但其却披上算法外衣出现在法庭中。COMPAS软件也存在同样问题，它将一些假设性变量作为证明依据。例如变量中包含“你在学校多久打一次架”,甚至让被告人选择是否同意“饥饿的人有权利去偷窃”“当人们惹怒我时，我会变得非常危险”等偏见性问题。45当用这些假设性、带有主观色彩的变量来预测、评价客观行为时，不可避免地会带来偏见结果。(2)群体性变量：某些算法会将某一类型群体的特征直接套用于个体分析，导致法律对某个人的评价取决于某一类人的行为特征。例如某些算法变量中的问题，“你的朋友/熟人中有多少人被逮捕过?”“在你的社区，你的一些朋友或家人是犯罪的受害者吗?”“你的父母曾经入狱么?”“你有多少熟人吸毒?”等。46(3)变量的演化：有些模型设计者在意识到偏见问题后，会避免使用种族、性别等明显带有歧视色彩的变量，而改用地理位置、邮政编码等看似中立的变量。但实际上，地域分布本身就与居民的收入水平、种族分布、教育水平等密切相关。这种做法仍然将过去的不公正变量带入了模型。47

恶意循环机制(Pernicious Feedback Loops)的加剧。算法本身会有一种反馈循环机制(Feedback loops),一旦机器学习的运算结果得到验证反馈，则会强化其模型中的某些变量，进而产生更多的该类结果。然而，场景及变量的选择会决定该循环机制是良性还是恶性。某些时候，即便使用中立的数据集，不公正的运用场景也会创建“有害的反馈循环”系统，使得一些歧视性变量、替代性变量被强化学习，进而产生更多的不公正结果。48以人身危险性证明模式为例，根据种族、性别、教育背景、经济水平等偏见性变量而建立的算法模型一旦投入到司法实践中，其所产生的每一个实例都会作为新的数据结果反馈给模型，强化原本变量及模型，从而导致符合某一特征的种族、性别、地域、教育背景等群体愈发容易被机器识别为高危分子。在美国加州奥克兰地区，有专家基于PredPol公司提供的毒品犯罪预测算法进行了一项实验：既往的毒品犯罪逮捕主要发生在贫穷和非白人社区，该类历史数据作为模型的训练数据集，自然导致该地区的危险程度较高，警察资源也随之被大量派往该地区；如此，警方更有可能在该地区逮捕更多的毒品犯罪嫌疑人；这些新的逮捕数据又被反馈至算法模型，进一步强化该地区的变量权重……。49这种恶性循环不仅导致警方资源的不均衡分布，更加剧了算法的偏见。

(三)法律程序维度

程序透明也是大数据证明可靠与否的重要因素，透明的机制有助于倒逼数据质量和算法准确性的提升、消减算法偏见。目前大部分研究都关注到技术层面的“算法黑箱”,但忽视了法律层面的“程序黑箱”,即人为造成的法律程序不透明，且程序黑箱更为隐蔽。在美国，很多涉及大数据证明的案件中，每当被告方申请算法开示时，原告方/公诉方(或技术提供方)都以商业秘密保护特免权(Trade Secret Privilege)而拒绝开示。大数据证明的算法开示与商业秘密特免权的博弈来源于人民诉查布斯(People v.Chubbs)这一里程碑式的案件。50DNA测试软件TrueAllele表明被告人查布斯是一起重罪谋杀案的凶手，被告要求开示软件的源代码，但遭到了公诉方的拒绝。尽管一审法院排除了TrueAllele的计算结果，但上诉法院驳回了被告的开示请求，认为该案中没有开示代码的必要性，只允许其对专家证词提出异议。51该上诉法院的判决成为美国刑事案件中法官倾向于保护商业秘密特免权的首例。52随后，查布斯案的观点在宾西法尼亚州、北卡罗来纳州53、佛罗里达州54、俄亥俄州等法院得以采纳。55

然而，越来越多的观点开始质疑在刑事案件中保护商业秘密的必要性。有学者指出，传统的证据规则已经无法适应新技术的变化，“现在用于生成犯罪证据的专有算法的复杂程度是前所未有的，而现有的证据规则还没有完全具备处理这些问题的能力”。56商业秘密保护的初衷是创新以及提供公平的营商环境，而刑诉中算法开示的对象——刑事被告人，是最不可能成为商业竞争对象的群体。57况且，大部分的算法开示都要求在保护指令下(Predictive Order)进行，证据开示的诸多限制条件已经足够保护算法的商业秘密。法官在此过程中应当对开发商的商业利益与当事人的生命、自由、知情等权利进行权衡，商业利益不应当凌驾于当事人权利之上。58此外，开发商拒绝开示算法的动机也颇受质疑，究竟是为了保护商业利益，还是担心开示后被发现代码错误并进而影响商业利益?随着学术界争议的增多，很多法官开始改变对商业秘密的保护态度。柯林斯案件中，59法官基于FST算法的不透明而排除了其DNA计算结果。60随后，公益组织ProPublica公布了FST的源代码，法律援助协会及纽约联邦辩护组织都称FST的技术不可靠，甚至有可能造成错案。61

在中国，证据法体系中没有商业秘密特免权的规定，但并不代表当事人就能获得大数据证明相应的知情权及算法开示的保障。一方面，在一些刑事案件中，办案机关尽管运用了大数据证明方法，但审判环节并不会出现相应的证据形式，多转化成证人证言、电子数据等证据形式。从源头上切断了当事人知情权的来源。另一方面，即便一些案件中当事人知晓大数据证明的运用，诉讼一方会直接以鉴定意见的形式打消了对方当事人甚至法官对算法的质疑。例如在许有发诉淘宝一案中，62淘宝公司为证明其反作弊系统的可靠性，提交了某司法鉴定所出具的鉴定意见，用以证明其反作弊系统检测方法的科学性、合理性，以及劫持流量的方法、统计依据的事实。该鉴定意见直接被法院采纳。且不谈该鉴定意见究竟能否为反作弊系统可靠性背书，法官及被告对鉴定意见过度依赖直接扼杀了原告的知情权、要求算法开示的权利，悖离了正当程序原则。可见，我国并非不存在当事人对于算法开示的需求，只是现有的机制从源头上剥夺了当事人相关程序性权利，掩盖了该问题。

来源：《法学家》（本文为文章摘录版，如需引用，参阅原文）

文献数据中心|DATA CENTER

数据库使用须知马克思主义法学数据库全球化数据库 “司法文明”数据库 LexisNexis数据库 Heinonline法学数据库

“北大法宝”法律信息数据库 Westlaw数据库