算法决策隐蔽性与司法裁判公开性冲突及融合路径————从K最近邻算法视角切入|knn算法的优缺点_在线学习

随着智慧法院建设的深入推进，各类司法辅助办案系统的相继出现，在给司法裁判提供方便的同时也带了新问题和隐患，尤其是居于人工智能系统核心作用的算法，随着对司法裁决过程渗透的不断深化，有必要正确认识理解算法决策的隐蔽特性，本文围绕算法决策包括不公开性、算法暗箱、依赖性、算法偏见在内的隐蔽性对司法裁判公开的理念、成果、要求等方面存在的冲突进行介绍及分析，在借鉴域外国家对算法决策隐蔽性进行规制的经验基数上提出通过强化司法人员的主体地位，避免形成“路径依赖”、算法决策者履行披露公开义务、注重培养复合型的人才、提升算法训练数据的质量、成立算法审查专门机构等措施实现算法决策隐蔽性与司法裁判公开性之间实现融合共进。在此基础上，本文也提出通过上述举措倒逼司法裁判者更加规范运用法律知识，打牢算法决策的基础，以实际行动构建人工智能助理审判现代化，助推智慧法院建设。

全文共9888字。

主要创新观点：

在算法、计算能力、大数据三驾马车的推动下，人工智能介入司法裁判的正向应用越来越多，这也是智慧法院建设的必然要求，但是如何更好的让人工智能产品与法院工作有效衔接、深度融合，避免出现国外人工智能产品在运用到司法裁判中产生的负面影响，尤其是因为算法决策造成的算法黑箱、算法歧视问题，本文以算法运用原理较为简单的KNN算法为切入点，对其在司法人工智能产品中的运作原理进行简单介绍，并对其存在的优缺点进行分析，通过审视KNN算法分析出其他算法亦具有的特点，从算法的特性中选取出隐蔽这一特性，并对隐蔽性进行分条深入分析，从而确立本文的主旨即算法决策隐蔽性与司法裁判公开性冲突及融合路径，通过研究认为，“智慧法院”中“智慧”和“法院”蕴含的逻辑关系给出了研究的答案，即法院的智慧依靠法官，而智慧的法院则需要技术，两者又存在统一融合的关系，在发挥法官主观能动性，尊重司法被动属性的前提下，借助技术即本文列举的相应举措共同推进智慧法院的建设。

一、算法是人工智能的重要支撑及其作用

1.何为K最近邻算法。

最近邻(k-NearestNeighbor，KNN)算法，是一个理论上比较成熟的方法，也广泛用于司法人工智能领域。该方法的思路是：如果一个样本数据在某个特征空间数据集中有K个最相似的样本，而这K个最相似的样本属于同一种类别，则这个样本数据就应该属于这一种类别数据。例如如果已知一个人的大部分朋友的爱好，要把这个人的爱好用最简单的分类问题做预测，办法就是通过统计他最亲密的K个朋友中最多的爱好。如下图，圆要被决定这个人喜欢的爱好，是三角形（比如说是篮球类）还是四方形（比如说是乒乓球类）？如果K=3，由于三角形所占比例为2/3，圆将被赋予三角形那个类，也就是喜欢篮球，如果K=5，由于四方形比例为3/5，因此圆被赋予四方形类，也就是喜欢乒乓球。

在KNN算法中，通过计算数据集中各数据之间距离来作为各个数据之间的非相似性指标，避免了数据之间的匹配问题，在这里距离一般使用欧氏（欧几里得）距离或曼哈顿（余弦）距离进行衡量：

上述类案智能推送系统大体的运作路径包括三个阶段，第一阶段就是通过机器学习语言构建起案件的知识模型（图谱），第二步就是对只是模型进行自动化抽取，第三步就是KNN算法或其他算法实现对已被转化为计算机信息数据的各类司法文书分类，即计算的各个司法文书距离，来找到待分类文书的K个最相邻的文档，从而实现文书分类，上述例子可以明显的看出KNN算法的结果很大程度取决于K的选择，故在分类中会优化KNN算法中的参数K。

2.KNN算法的优、缺点。

二、司法裁判领域算法决策的应用及挑战

1.算法在司法人工智能领域的正向应用

2.算法的“威力”

但当央视《法治在线》栏目曝光一起发生在河北邯郸的特斯拉自动驾驶功能致人死亡的事件后，我们对算法的“威力”有了更深的认识。该事件讲述的是一名叫高巨斌之子驾驶特斯拉在高速公路行驶，前车躲避障碍物，躲闪不及撞上道路清扫车发生车祸，据交警部门调查在碰撞发生前，特斯拉车辆并没有进行任何躲避和减速，保持车速撞上前方正在施工作业的道路清扫车尾部，特斯拉公司一再主张“没有办法知道”发生事故时车辆是否启用了“自动驾驶”（Autopilot），但在大量证据面前被迫承认车辆在事故发生时处于自动驾驶状态，后来该公司将这一系统中文翻译由“自动驾驶”改为“自动辅助驾驶”，在这里我们姑且不论驾驶者在驾驶车辆中是否精力集中，但我们应该清楚的认识到算法带来的汽车驾驶自动化虽然是未来的发展趋势，但是自动辅助驾驶算法的安全性还是令人担忧。

3.审视：“算法权力”下的客体

三、透视：算法决策的隐蔽性对司法裁决造成的障碍

1.何为算法决策的隐蔽性

人工智能时代，我们将选择权和决策权直接让渡给算法，但是我们忽略了算法本身的性质，即技术是中立的，这点毫无异议，但是算法的本身并不是中立的。当我们用机器学习的方式将法律编写成算法的时候，需要对数据库中的数据进行转化，使其成为能够让算法可以进行识别并进行运算的符号，转化过程如何，效果如何呢，我们不禁自问：形式语言转化方法跟我们公开了吗？是否存在算法技术开发人员利用我们现今无法熟练掌握算法技术的劣势，肆意改变算法的编程或者留有一定的后门及漏洞，从而达到操控算法决策的判断结果？通过模拟训练形成的算法，都建立在对海量文书学习、训练的基础上，那如何保证训练的样本文书全都是绝对正确的呢？除却上述算法技术开发人员的有意为之，是否存在算法技术开发人员受制于自身的阅历、教育经历以及主、客观各项因素，并将这些因素自然的嵌入到算法决策的过程中，导致算法本身存在的偏见从而影响了决策的科学性以及客观性？上述疑问从而引出了算法决策的不公开性、算法的暗箱、算法的依赖性、算法偏见，这些都是广义算法的隐蔽性的范畴。

2.算法形成的“专家系统”与司法裁判之间形成的冲突

同样，最高人民法院最近几年先后建成的司法公开平台以及建设的一站式多元解纷机制一站式诉讼服务中心网站、在线调解平台，尤其是中国裁判文书公开系统，现已经成为全球最大的裁判文书网。运用新时代新技术的思维模式，借助现代信息科技手段，加快建设智慧法院，同时提供各种技术手段使公民利用各种信息渠道及时实现对司法过程的监督，从而保障公民的知情权、监督权，有效回应新时代公民对司法公开的新需求，更是智慧法院建设的终极目标，但是人工智能占据核心地位的算法自身存在的隐蔽性与司法裁判要求的全过程的公开性势必形成冲突，影响公开性的效果，进而阻碍了人民法院新时期的建设。

（1）算法的不公开性与司法裁判公开性的理念冲突

算法具有高度技术性,算法技术虽然是中立且高效的，但是其运行程序和原理,只有算法技术开发人员能够获取,竞争性商业机密也往往成为算法决策不对外公开的主要挡箭牌；除了它的保密性外，更重要的是即使公开了司法裁判人员限于专业知识所限也看不懂。司法裁判与算法运用必须要有一个逻辑架构的桥梁，这个媒介沟通桥梁就是公开透明。司法裁判的过程与算法决策的过程既是一体化作战的模式，又是相互监督配合的模式，只讲求司法裁判的公开透明，而忽略了对算法决策的公开性的要求，司法裁判的过程必然会单兵作战，不能很好的运用法院信息化建设带来的应有效果，在对算法决策缺少一定的监督的情况下，势必对司法裁判的公开性造成一定的冲击。

（2）“算法黑箱”对司法裁判公开的成果冲突

（3）算法的依赖性不符合司法裁判公开的内在要求

而司法裁判的解决纠纷的方式与运用行政手段解决纠纷的方式自然不同，它是运用国家权力赋予的司法权从而解决纠纷和宣传法律意识的的特殊场所，从而决定了司法裁判的独立性、决断性的固有属性，司法裁判的所有这些属性都决定司法裁判必须是向全社会公开透明的权力，其运行方式必然是公开的场景下运行，如前所述，其最初作用是做到案结事了、定纷止争，终极目标而是向社会中所有人宣传法律意识、传播社会正能量，南京彭宇案的深刻教训不得不让我们作出深刻的反思，除了公开，司法裁判就没有其他方式能确保自身的性质和维护其运行规律，故于当事人司法裁判中是公开的竞技场，如司法机关运用了错误或者存在瑕疵文书训练产生的模型与算法，运用到司法裁判过程中并将其公之于众，人民群众就有理由质疑司法裁判的公正性和判决的合法性，违背了司法裁判的公开性的内在要求。

（4）算法偏见与司法裁判公开价值追求相悖

四、算法决策隐蔽性与司法裁判公开性融合路径分析

1.域外对算法决策隐蔽性进行规制的经验

美国：通过制定发布加强行业自律制定算法基本原则规定,阐述了关于人工智能算法透明化和可责性七条原则，尤其在算法的透明化和倒查机制方面予以确立。

2.我国的智慧法院建设中算法决策与司法裁判的融合路径

（1）宏观的融合方向路径

（4）构建符合司法规律的法律知识图谱从而提高算法训练数据的质量。开始运用算法决策之时是因其准确和效率，不对客观事实进行价值判断，但实践证明算法也存在偏见和歧视，而产生的最大根源亦是在数据方面，因为如果使用了本身带有偏见的数据，再先进的算法也无济于事。提高路径应包括两方面，第一为预防抽取本身带有偏见的数据，首先应采用尽可能最大范围内的数据，避免因数据样本范围问题造成偏差；第二确定采用的训练数据后，有必要运用深度学习方法对即将采用的算法数据显示的价值观念与我国法律价值要求是否存在冲突加以审查,并对不符合法律价值要求的数据进行更正或剔除。

五、结语：算法未来已来，需更加理性、务实地期待

法院的智慧依靠法官，而智慧的法院则需要技术，皋陶用獬豸决狱实现天下太平，成就中国司法鼻祖威名，包拯借天眼进行断案平冤，成就一代青天大老爷，借力实现正义是从古至今人类一直都有的朴素思想；在智慧法院的建设中，我们必须强调以人为本，谨慎算法决策对司法属性的异化，谨防陷入算法决策陷阱的泥淖，深入认识人工智能的算法决策与司法裁判之间的关系，尤其是理解算法决策中隐蔽性对司法裁判公开性所造成的影响，并逐一对算法隐蔽性中隐含的各种弊端加以规制，努力克服算法决策对司法裁判的负面影响，发挥算法决策在司法人工智能领域的各项功效，融合过程中可倒逼司法裁判者更加规范运用法律知识，打牢算法决策的基础。从而进一步有效开发法官办案智能辅助、裁判文书智能分析、法律文书自动生成及纠错系统、案件类型特点及成因自动分析等法律人工智能产品，以实际行动构建人工智能助力审判现代化。

[1]肖云鹏、卢星宇、许明、汪浩瀚、吴斌、刘宴兵：《机器学习经典算法实践》，清华大学出版社2018年版，第2页。

[2]参见《江苏“智慧法院”信息化建设升级为司法能力现代化注入新动力》，载《法制日报》2017年3月20日；《北京“睿法官”推进同案同判》，载《北京晨报》2017年2月24日；《上海应用“人工智能”办案防范冤假错案全国首个“智能辅助办案系统”问世》，载《法制日报》2017年7月11日。

[3]参见《周强在“智慧法院导航系统”“类案智能推送系统”上线活动上强调加快推进新时代智慧法院建设》，载《法制日报》2018年1月5日

[4]肖云鹏、卢星宇、许明、汪浩瀚、吴斌、刘宴兵：《机器学习经典算法实践》，清华大学出版社2018年版，第11页

[5]严剑漪：《揭秘“206工程”:法院未来的人工智能图景》，载于《上海人大月刊》2017(8)，第40－41页．

[8]刘品新：《大数据司法的学术观察》，《人民检察》2017年第23期。

[10]蒋洁：《大数据继承的权益危机与价值回归》，《科技管理研究》2016年第二版，第199页-202页

[12]李婕：《算法规制如何实现法治公正》，检察日报2018-7-10，第3版。

[13]洪嘉君：《美国刑事诉讼“算法预测”的风险与回报》，《中国审判新闻半月刊》2019年第07期，总第221期，第68页。

[14]李婕：《算法规制如何实现法治公正》，检察日报2018-7-10，第3版。

[16]邱遥堃：《法院如何规制算法---从快播案切入》，载于《法律与社会科学》（2017）第16卷第1辑，第65页。

[17]程凡卿：《我国司法人工智能建设的问题与应对》，《东方法学》2018年第3期，第128页

[18]周游：《我国亟待建立人工智能算法审查机制》，载《中国计算机报》第012版，第2页。

THE END

算法决策隐蔽性与司法裁判公开性冲突及融合路径————从K最近邻算法视角切入

KNN算法分类回归树随机森林的优缺点及应用实例

knn和kmeans的区别是什么常见问题

机器学习K近邻（KNN）算法的原理及优缺点泰初

算法决策隐蔽性与司法裁判公开性冲突及融合路径————从K最近邻算法视角切入