前沿科技应用于专业性极强的法律行业,人工智能技术如何帮助检索浩瀚如烟的卷宗、起草基本的法律文书和商业合同、对诉讼案件风险进行预测等等,不但能将法律从业者从重复性的工作中解放出来,更能促进“类案同判”带来的法律适用统一性和稳定性,加快实现司法公正。
北大英华与阿里云从2019年开始合作,从在云上布置应用到人工智能、大数据等产品的使用,合作逐步深入,也见证着中国法律数字化建设的发展43.242.204。
2021年麦田创投产业研究院发布了《Legal Tech人工智能的全球与中国市场2022--2028年:技术、参与者、趋势、市场规模及占有率研究报告》,针对Legal Tech主要应用领域——文件管理系统、实践与案例管理、合同管理、IP管理、法律研究、法律分析、网络安全、预测技术等——对比了中国与欧美、日本、东南亚的行业发展情况,分析了行业应用情况、现阶段供需关系和技术趋势。2019年Legal Tech的全球市场规模已经达到173.2亿美元,根据预测,2025年这个数字将达到251.7亿美元43.241.19。
Legal Tech是什么?法律科技,它指“人类借助计算机技术和数学的应用,使法律更易于理解、易于管理、更可预测”,数学家、哲学家莱布尼茨是一位律师,他被认为是Legal Tech的开创人,也是最早研究如何用数学公式改进法律的人43.241.18。
在AlphaGo战胜世界围棋冠军的2016年,全球首位人工智能律师Ross诞生,辅助律师实现更高效的案例检索。
实际上时至今日,自然语言理解技术在机器理解法律文本上还存在巨大困难,仍是待解难题。以法律科技试图攻克的“类案同判”为例,法官在处理案件时,除了参照法条,还会参照相似判例的处理方式,目的是维护法律适用的统一性和稳定性,保障司法公正。为了让“类案”更具参考价值,最高人民法院还会不定期发布“指导性案例”。但在司法实践中,类案同判还往往依赖于人力寻找“类案”的判例和法律法规,传统的搜索引擎无法实现基于通篇语义理解的精确查找。
这和法律条文、判例的特点有关,由于涉及的领域广、应用行业多、社会要求高,内容浩瀚且严谨、专业性强,其机器理解和关联检索的难度远远超过共享单车、远程医疗、无人驾驶、智慧城市等我们目前相对熟知的情况。
北大英华科技中心总监、人工智能研究院副院长杨增元指出:“如果能结合AI、大数据技术,通过知识图谱呈现出完整的案例画像,找到影响案件判决的所有因素和特征因子,给出判决推导,或者升级为一套成熟的技术体系生成判决参考,辅助法官更全面地考虑判案因素,兼顾司法公平并提高判案效率,这应该是司法机关比较需要的服务。”不过,这仍是一种理想状态。目前利用AI实现类案同判,虽然已取得阶段性成果,但仍面临一定难度。
这种“理想状态”正是北大英华和阿里云共同奔赴的方向。
一切从做好检索讲起
北大英华科技有限公司,成立于1999年,依托于北京大学优势资源,致力于法律知识工程、法律人工智能等领域的工作。成立之初便聚焦在“打造国内最大最先进的法律数据库,为法律专业机构和专业人士提供权威、全面、便利的法律信息检索服务”。
经过30多年不断地改进与完善,北大英华开发的智能型法律信息检索系统“北大法宝”,已包括法律法规、司法案例、法学期刊、律所实务、专题参考、英文译本、检察文书、行政处罚文书、企业信用等29类数据库,全面涵盖法律信息的各种类型。“北大法宝”的注册用户为100万,服务机构3万家。最新数据显示,“北大法宝”全站年访问数达1.2亿次,年活跃用户数达1300万人次。
可以说,北大英华自身对法律科技发展的认知和投入一直是行业领先的。“任何人工智能的应用,大数据都是根基”,秉承这样的理念,北大英华在数据基础领域“深耕”了多年。同时,把“科技+法律”双引擎驱动作为发展根基的北大英华,不断加大在前沿技术上的投入以更强有力地支撑业务发展,也顺理成章。
在成立初期,北大英华也有过光盘检索、搭建局域网、自建数据中心的经历。
在2020年左右,北大英华的智能型法律信息检索系统“北大法宝”业务量翻倍,然而网站的搜索速度却在变慢,搜索结果也没那么准确,杨增元回忆,“北大法宝”之前的“搜索架构特别简单,因为那时的业务量不大,能够应对”。业务需求激增下,团队萌生了要寻找一个更好的搜索框架的想法。
彼时,阿里云上有一款Elasticsearch检索分析服务产品,场景应用非常广泛,最显著的特征之一是可提供“实时分布式搜索”和“日志分析”,并且在原来开源版本基础上进行了大量性能优化。抱着试试看的心态,北大英华找到阿里云,开启了双方的合作。
据阿里云Elasticsearch产品工程师是溪回忆:“企业需要的是集中更多技术资源解决业务问题,对于偏底层资源的运维工作希望有更成熟的解决方案。”阿里云判断,北大英华需要的是全托管服务,“无需在底层运维上花时间,其技术团队只需基于Elasticsearch,就能快速开发出新的搜索框架,需要的是基于Elasticsearch日志运维监管、加速数据检索、数据查询准确度等通用能力”。针对法律这一特殊场景,阿里云还提供了增强服务:基于法律专业术语的强关联场景检索。
阿里云采用了达摩院NLP分词技术进行文本预处理,同时对分词库进行了法律领域的定向优化,如法律法规、司法案例、期刊学术等。使用阿里云Elasticsearch,基于分词技术进行深度优化后,对“民法”进行搜索时,其关键词的权重已经充分考虑了上下文语境。
这次合作尝试中,北大英华的新搜索框架,不仅性能上提升两倍以上,还降低了开发成本与运维成本。
从大数据到数据库,做好风险“透视”
近年来,北大英华组建“人工智能研究院”,诚聘各大知名高校及在国际大赛中获奖的学术专家,准备在法律智能化领域大干一场。
“法宝透镜”这款产品就是把北大英华各领域能力的一次打通,利用人工智能技术为企业提供涉诉风险预警及分析报告、合规体检与预警、行业智能分析等服务。
“涉诉风险”多适用于大型企业,这类企业对自身,尤其是子公司的诉讼情况并不完全了解。
在“法宝透镜”的“透视”下,企业既可以全盘掌握公司各类诉讼情况,明晰潜在涉诉风险,还能通过平台寻求法律援助,制定全流程的风险应对方案。如涉及知识产权方面的诉讼,能查出该领域哪些知识产权的律师比较权威,相应的判例和法律法规等。
“企业的经营行为是否符合国家法规、经营是否涉及垄断、是否触碰到污染问题、存在哪些知识产权风险等,这些都属于合规隐患。”杨增元表示,不管是合规还是涉诉,都能在“法宝透镜”里导出一个精准的法务画像,快速辅助企业判断。
新搜索框架快速上线后,“法宝透镜”也有了各种数据沉淀、分析、运营需求,于是北大英华又采用了阿里云的HBase技术,开启了数据库建设。云数据库HBase是面向大数据领域的一站式NoSQL服务,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力。
“法宝透镜”仍在持续迭代发展中,目前基于2亿企业、1.3亿公开全量司法诉讼案件等数据基础构建出了十亿级实体、千亿级关系的知识图谱体系。可对企业、当事人、律师律所、法官法院等主体通过多维度的数据关联及可视化,帮助企业更深入地洞察和更早地识别风险。
阿里云输出“最强辅助”
与阿里云合作的初步成效,让北大英华思考另外一个问题:其实好的技术服务商可以提供更好的IaaS能力,作为客户,无需关心底层技术,能腾出手来做更多PaaS层的应用。于是便有了全业务迁移到阿里云的决定。
现在北大英华的技术团队共有120余人,只需要分出五位来对接阿里云的基础运维工作。“运维团队的定位比较明确,一是保障网络服务、硬件服务,能够稳定顺畅安全地运行,二是有一定的风险预知和快速应对能力。”杨增元解释,技术团队其他人则全身心投入法律科技这个业务方向上,“我们提供的是法律知识服务,这个领域用户的要求很高,这使得我们必须增强PaaS层的大数据和人工智能研发能力。”
此外,北大英华时常需要支撑一些司法项目、执法项目、重大课题等,安全性和稳定性被放在第一位。遭遇网络攻击,或者被恶意篡改信息等安全风险,都是不可接受的。因此,这类项目都要求做到符合国家要求的“等级保护”。
等级保护的实质,是要向国家相关部门证明其具有相当能力的安全防护体系,北大英华与阿里云建立了合作。
“阿里云在这方面有很多经验,除了法律领域,物流、医疗、在线教育等都会对‘等保’有要求,相应地阿里云有了一套成熟的解决方案,把相应的产品列表给到客户,客户选配了这里面的产品,就可以使这套系统符合国家安全等级保护的要求。”阿里云智能架构师王峰回忆。
后来北大英华与阿里云联手,陆续完成了一些立法、执法、司法类项目的定制化服务。“我们总体的服务对象多集中在政府类,对安全性和稳定性的要求极高,和阿里云合作,对我们成本也是一种节省。”杨增元透露。
与阿里云合作后,北大英华得以把更多精力放在法律科技业务上,并加速往大数据、人工智能方向发力,这不仅符合中央印发的《法治中国建设规划(2020--2025年)》的规定,“充分运用大数据、云计算、人工智能等现代科技手段,全面建设‘智慧法治’,推进法治中国建设的数据化、网络化、智能化”,也是北大英华深耕法律科技领域多年,看到的行业趋势。
一方面,在同类的法律科技企业,还在以“系统集成”、用“OA管理流程研发”开展业务时,北大英华已经在加速提升自己的数字化、智能化能力。另一方面北大英华服务的许多客户也处于数字化转型中,他们需要合同、诉讼、合规等服务的数字化和智能化。“这也是北大英华智慧法务系列产品在大型央企、国企合规建设中取得竞争优势获得客户认可的原因所在。”北大英华创始人赵晓海在接受采访时透露。
莱布尼茨定义Legal Tech领域已经过去四百多年,科技与法律融合还在路上。