报告人郭玉：让数据发声：司法领域大数据应用的效用前瞻

邮件系统：

2025年04月23日星期三

地方频道:

更多>

研究会频道:

更多>

位置：首页》图文实录》第十二届中国法学青年论坛》专题报道》第四分论坛

报告人郭玉：让数据发声：司法领域大数据应用的效用前瞻

时间：2017-08-22 来源：责任编辑：att2014

新浪微博

微信 QQ空间

让数据发声：司法领域大数据应用的效用前瞻

——基于信用卡透支纠纷案件的模拟研究

郭玉*

各位前辈、同仁：

　　“大数据”早已是眼下一个特别热门的词汇。随着信息技术的进步，一个大规模生产、分享和应用数据的“大数据”时代早就已经开启，各国政府逐渐认识到大数据在推动经济发展、改善公共服务乃至保障国家安全方面的重大意义，纷纷展开了大数据应用研究。文书上网使民间对司法数据进行“大数据式”解构成为可能。在大数据时代，数据资源就是新的“石油”。最高院以极大的魄力要求全国各地、各级法院的法律允许公开的裁判文书上网，实际上是将司法领域最宝贵的资源分享给了社会各界。中国裁判文书网访问量截止到上周已经突破了98亿次。民间许多嗅觉敏锐的大数据公司早已开始了对裁判文书网资源进行的商业价值开发。与之相比，法院系统内部也在积极调适状态，求新求变。以上海、贵州为代表，两地的法院系统各自研发出了跨部门的智能辅助办案系统，获得了孟建柱书记首肯，称之“现代科技应用迈出一小步，可以推动刑事司法文明前进一大步。” 7月10日在全国司法体制改革推进会上，孟建柱书记进一步提出要以习近平总书记系列重要讲话精神为指南，积极主动拥抱大数据、人工智能新时代，把理念思路提升、体制机制创新、现代科技应用和法律制度完善结合起来，努力创造更高水平的司法文明。将大数据思维和大数据技术应用于司法数据研究领域，让数据发声，通过“司法数据的全面聚合”而实现数据价值倍增，将使司法系统不但在发现审判规律、统一裁判尺度、提高审判管理的智慧度、提高决策科学性以及增强审判预测能力，而且在延伸审判职能，发挥司法建议在社会管理及公共服务方面的实际功效等方面都提升到一个新高度。

　　我分享的第一个问题是：“大数据”or“大规模的小数据”?

　　大数据是指数据量特别大吗?如果是，那么多大的数据体量才是大数据与小数据的分界线?用常规的研究方法，投入更多的工作量，就能够实现对大数据的研究吗?你拿到的到底是大数据还是一个规模比较大的小数据?

　　数据总量大，固然是大数据的一个显而易见的特点，但却不是根本的区别。庞大的数据信息一直存在，但直到近年来，这些数据才以一个整体的姿态作为研究对象。与其说大数据是一个庞大数据的集合，倒不如说是一种对庞大数据的处理思路。这种处理思路，与传统的统计学思路是截然相反的。

　　其一，拒绝取样，请给我全部数据。传统统计学进行的是样本研究，而大数据思维是不做取样研究的。在《大数据时代》中，对此有一句非常经典的描述：“当数据处理技术已经发生了翻天覆地的变化时，在大数据时代进行抽样分析就像在汽车时代骑马一样。”样本研究所受的制约很大，其结论的可信赖度是较低的，但人类仍然长期依赖于这种研究方法，其原因是技术制约;现在，数据运算方法已经不再需要人力进行摘录、比对、分析，计算机已经可以实现在最短的时间对海量数据进行分析，为什么还需要取样分析呢?所以，在某一研究领域，仍然采取取样研究的方法，运用的其实并不是大数据思维，只是一个规模比较大的小数据罢了。

　　其二，不再追求精确。传统的统计分析总是在追求精确，约精确越好。依赖于利用结构化查询语言，如法院办案系统，在这种数据库中，每一项数据都需要在指定的表格里、以正确的格式录入，否则无法被识别更谈不上分析。如果在结构化数据库下想分析更多的数据，就必须有海量的关联输入，这种人力的付出是不可能实现的。大数据时代对数据的完整性、精确性的要求大大降低，不再受数据录入的是否精准的牵绊，这让数据的多维分析成为可能。

　　其三，旨在发现关联，而非直接命中因果。人类研究活动总是以寻找因果关系为最终落脚点。然而大数据技术却是从关联度入手，发现两种事物之间的密切关系，然后再寻找原因。因为有了分析关联度的工具，人们终于可以从“假设-实验-证实”的实验室思维中解脱出来，从“以果寻因”的思维胡同中解脱出来，发现一些靠人脑难以发现的潜在规律。这让大数据“预测”功能得以最大限度的发挥。

　　第二，结合我这篇文章来谈一谈我们对“大数据”可能有怎样的运用方式。根据上面的内容，其实可以看出，我这篇文章采用的模拟方法，即假设我拥有开源的数据及数据分析工具，可能会怎样使用这些数据，产生哪些分析结果，并非是真正的大数据研究方法。

　　1.基本分析模型

　　模型一案件数量趋势、标的及结案分析模型。这个模型非常基础，主要用于观察信用卡透支前科纠纷的发案数量及执行到位状况。模型二单个案件透支数额比对模型，由这个模型可以看到，单张信用卡透支欠款不还的数额是持续挑战新高的。模型三原告/申请执行人分布模型，也就是分析哪间银行、该银行在哪个地域易发生信用卡透支欠款纠纷。上述模型对分析银行风控工作有着重要的参考意义。

　　2.关联度分析模型

　　大数据工具可以实现词频及关联性检索分析，在信用卡透支纠纷中，可能从如下几个角度分析。模型四被告/被执行人分布研究。在人力查阅案件时，隐约感受到这样的规律，大额透支以城市持卡人为主，10万元以下的小额透支以乡镇村的持卡人为主。推测其原因，城市居民在缴纳社保、工资领取、房贷车贷、医疗教育等诸多方面不可能与信用绝缘，不大可能为了小额的欠款使自己进入银行征信记录黑名单，而大额透支主要经商失败资金链断裂导致。究竟是不是如此，这里没有确定的结论，但有了大数据工具就可以进行验证。据此就可以向银行提供定向明确的信用卡发卡及授信的风险控制建议。

　　模型五被告/被执行人到庭情况分析模型。这部分目前也是估算，审判阶段，约有八成被告人是缺席的，而执行阶段无法联系到被执行的现象更加突出。这个模型的意义在于找到此类案件“执行难”的真正原因，并不是法院不给力。银行发卡授信之时对持卡人的信用考察严重不到位，才是银行债权回收执行难的最大原因。

　　模型六诉讼结果分析模型。对高度类型化案件进行诉讼结果分析意义重大。现在只能靠手工逐个打开判决书看判决结果及原因，案件一多就难以操作。但使用大数据技术就可以极其便捷地掌握类型化案件的预判。目前已经有许多公司已经实现了对类型化案件的预判，不但可以定向分析某个地区的法院处理方法，更可以预测具体某个法官的判决倾向。与此相比，法官自己在作出裁判的时候，如果都不了解类型化案件的一般裁判思路，其后果将是不可想象的。

　　模型七法院强制执行情况分析模型。法院进行了哪些强制执行措施，是考察法院在执行阶段是否尽责的重要依据。某一类案件，虽然执行到位率极底，但法院却已采取了目前可能采取的手段，那么就不能将债权回收率差的问题认为是法院的责任。

　　模型八：起诉密集度模型。研究目的有二，其一若发现集中立案情况严重，可能说明银行在债权回收职权行使上有所懈怠，可提出针对性的司法建议;其二法院可以按照该历年来的立案风格作出预测，提前作出调节，如在银行热衷集中立案的时间节点增派立案登记人手等。

　　3.宏观背景分析模型

　　模型九：关联形势及政策研究模型。主要用于背景分析，其意义：一是原因判断;二是收案预测。法官不是通才，要求在高强度办案的同时，比较难以做到及时了解和掌握各行业形势与政策的前沿动态，如大数据技术能够定期对专业类案件抓取相关的政策文件及新闻报道，生成形势与政策分析报告，将能够帮助法官审理案件时准确把握案件实质，同时可以帮助审判管理部门预测收案。比如，通过模型九可以看到，信用卡透支纠纷案件的井喷式增长与国家快速推广信用卡的战略息息相关。笔者抓取了央行《支付体系运行总体情况》数据，可得：(1)原因判断方面：全国信用卡发卡量、授信总额度逐年增加;有偿债风险的透支债务大幅上升;通过下面第一个图的柱状图及折线图进行比对发现，授信总额度增长率远超发卡量，说明在有偿债风险的透支债务大幅上升的情形之下，不但不加强风控严格控制授信规模，反而对单张卡的授信额度进行了大幅提升。这就印证并解释了模型一、模型二的现象，也就是为什么收案数大幅回落但立案标的减幅有限，以及为什么单案立案标的逐年趋高分布。(2)预测方面：由于法院收案会出现一段时间的滞后，未来几年此类纠纷数量可能仍然会很多。

　　通过上面一些模型，我们可能能够找到案件多的原因、执行难的原因，找到从根源上化解这类纠纷的办法，能够分析收案趋势，预测审执结果，做好舆情应对，而且更重要的是，可以向社会管理者提出真正具有针对性强的司法建议。正如最高院研究室副主任严戈在《人民法院报》一篇文章中说到的那样：“大数据时代，公共决策最重要的依据乃是数据，而不是个人经验或长官意志。”

　　以上是结合了某一类案件进行的细致而微的思考，其实大数据的应用远不止于此。最后再引用《大数据时代》里的一句话做结尾：“数据就像一个神奇的钻石矿，它的真实价值就像漂浮在海洋中的冰山，第一眼只能看到冰山的一角，而绝大部分都隐藏在表面之下。”希望这座钻石矿的光芒早日在司法领域熠熠生辉。

　　* 广东省广州市越秀区人民法院刑事审判庭法官。

全文
搜索

关注
微信

关注官方微信

关注
微博

关注官方微博

网络
信箱

中国法学会网络信箱
clsmail@chinalaw.org.cn