顶部公共页面

当前位置:首页 >  供需中心 > 方案供应 > 正文

材料智能识别编目系统

时间:2024-05-11   来源:太极计算机股份有限公司

  一、建设背景

  自2016年起,全国各级人民法院响应最高人民法院相关指导意见要求,先后建成了电子卷宗随案生成系统,然而在电子卷宗生成的实际应用中,存在以下突出问题:法院案件电子卷宗材料来源多样,其中纸质材料在电子化处理过程中,因拍摄环境、手机翻拍角度、扫描条件及其他原因造成图像质量有损,容易出现图像质量低下不易识别的情况,同时传统OCR识别技术受版面影响较大,识别后因版面还原效果不佳导致内容复制粘贴丢字错字等问题,而卷宗材料形式及类型的多样化,又进一步导致自动编目服务准确度低,给法官阅卷造成困难,间接降低了电子卷宗整体应用成效。

  针对以上突出问题,太极股份创研了材料智能识别编目系统,旨在以海量文件智能深度应用为目标,基于大数据、机器学习、自然语言理解等人工智能相关技术为法院行业提供图像质量检测、图文识别及版面还原、材料精细化命名、智能编目、要素信息抽取等材料智能处理能力,帮助法院减少卷宗数字化加工人力成本,同时盘活历史卷宗积淀,形成领域知识库,为智能知识服务提供支撑。

  二、建设内容

  2.1图像质量检测

  图像质量检测服务面向立案材料扫描人员、立案法官及书记员,在扫描图像处理上传、在线立案材料接收等场景中自动对电子材料进行可读性检测,根据检测结果自动进行图像质量增强优化,支持提升清晰度、调解亮度、去除椒盐噪声、去除污点、去除黑边、去除装订孔、倾斜校正、自动识别空白页等质量增强方法,并对低质图像自动预警,以提高图像品质。

  2.2图文识别及版面还原

  线下、线上材料的手写及印刷体图文识别及版面还原服务,针对JPG,JPEG,PNG,TIF,PDF、BMP 等多种格式文件,图文混排等复杂版面文字识别效果不佳问题,不断优化图文分离、复杂版面文本行识别、表格版面结构预测等复杂版面分析重建算法,精准复原文本段落、层级(编号)、缩进等内容组织关系,并对字体大小进行复原,高精度识别并复原标题、表格、图像、下划线等主要的版面特征,最终实现对电子图像在复杂背景、图文混排、表格版面等情况下的印刷体、手写体文字精准识别、版面还原,最大限度提高文字内容识别和复制的精准度,解决法院案件电子卷宗文字识别精度低、识别结果不易直接使用等问题,有利于提升法院案件办理效率与管理水平。

  2.3卷宗材料精细化命名及智能编目

  卷宗材料精细化命名及智能编目服务面向立案法官、书记员等岗位需求,在立案、审理、归档等多个业务场景中,提供基于法标标准阅卷、归档编目规范的自适应分类编目服务,以及面向不同地方法院差异化编目需求的个性化配置,解决人工编目、校验效率低,自动服务难以满足个性化编目习惯等问题,从而提升法院案件办理效率与管理水平。

  卷宗智能编目服务支持与本地法院接口集成、页面集成、API集成等方式,批量导入待编目的电子材料,对卷宗材料图像进行分类、完整性识别,并生成阅卷目录树,并支持对卷宗当事人身份证明材料和重要证据材料进行精细化命名,包括但不限于:身份证、营业执照、律师执业证、授权委托书、传票、送达回证、起诉状、上诉书、裁定书、判决书等。

  2.4案件要素抽取

  面向立案、审理、文书编写等多个业务场景,提供刑事、民事、行政、执行等常见案件类型卷宗材料要素信息自动抽取、文本内容知识化处理服务,支持对立案审批表、起诉状、上诉状、庭审笔录、合议笔录、判决书、裁定书等主要案卷文书进行结构化处理和不低于20项的要素信息抽取,支持对全卷宗材料要素抽取信息来源标识和抽取信息差异提醒。

  案件要素抽取服务支持与本地法院卷宗系统或者卷宗库接口集成、页面集成、API集成,批量导入全卷卷宗或者待抽取材料。可从上传的卷宗文件文本中抽取案件基本信息,并对不同材料来源的同一要素信息对齐融合。从而解决办案人员在多个业务环节需手动录入大量信息,影响办案效率的问题,为立案结案信息回填、类案推送、要素式文书生成等知识服务场景提供案件基础数据支撑。

  针对信用卡纠纷、金融借款等常规案由,在案件基本信息提取的基础上还可定制化案情特征要素信息抽取。

  三、优势亮点

  1、图像质量检测

  基于图像质量检测计算结果,自动区分图像品质(高/中/低)。

  图像低质量预警。

  根据配置实现图像自动优化。

  批量图片一键优化。

  多种图像质量增强方法:提升清晰度、调解亮度、去除图像噪点、去除污点、去除黑边、去除装订孔、倾斜校正、消除形变、还原A4比例、识别空白页等。

  支持自动优化和人机交互两种图像后处理方式。

  2、图文识别及版面还原

  复杂版面分析能力:多样式表格、倾斜、印章、图文混排等。

  图文识别能力,支持印刷体识别准确率不低于98%。

  支持GPU和国产化加速卡适配。

  能够对超过10M 的图像文件进行优化处理。

  支持语言识别,包括简繁中文、英文及常见标点。(可识别文字支持覆盖GB2312 编码内中文、英文及常见标点符号,对于《中华人民共和国国家通用语言文字法》的配套规范字集《通用规范汉字表》)。

  3、卷宗材料精细化命名及智能编目

  融合图像分类、文件标题识别、文本语义分类等多种识别技术,对案件卷宗内当事人身份证明材料和重要证据材料进行要素信息识别、提取,材料类型快速精准识别。

  基于提取的要素信息和命名规则进行材料精细化命名,支持对不同材料提取要素、命名规则的定制化配置。

  法官阅卷目录、档案归档目录自动切换,支持法院行业标准FYB/T 52021-2018《电子卷宗阅卷目录规范》、《归档目录规范》。

  支持刑事、民事、行政、执行、信访申诉等多种案件卷宗材料自动编目。

  支持材料完整性识别。

  支持个性化目录定义。

  支持阅卷目录、归档目录自动切换,及目录结构信息导出。

  4、案件要素抽取服务

  基于平台能力可快速定制个性化信息抽取服务

  支持对刑事、民事、行政、执行等常见案件类型的卷宗材料基本要素抽取,基本要素不低于20项。支持对立案审批表、起诉状、上诉状、庭审笔录、合议笔录、判决书、裁定书等主要案卷文书进行结构化处理和要素信息抽取

  支持对全卷宗材料进行要素信息抽取、对齐、融合

  支持多源材料抽取信息差异提醒

  支持要素抽取信息来源标识

  四、应用成效

  材料智能识别编目系统基于图文识别引擎、智能编目引擎、卷宗知识引擎三大智能引擎,为海量文本格式化、知识化处理提供重要的支撑,从而提升法院卷宗深度应用能力。

  1、图像质量检测方面,自动对电子材料进行可读性检测,基于检测结果,对低质图像自动预警,提供自动优化和人机交互两种方式进行图像质量后处理,以提高图像品质。

  2、图文识别及版面还原方面,在手写体识别正确率以及识别效率上表现优越,同时可以将识别结果最大程度进行版面还原,提升内容复制准确率。

  3、智能编目方面,基于行业编目规范,结合图像目标识别、图像分类、语义相似度计算等技术对电子材料快速精准识别命名,支持首页识别、阅卷/归档目录自动切换、目录树导出等服务,材料类型识别平均准确率不低于90%,有效提升法院电子卷宗生成效率和卷宗可管理性、可阅读性。

  4、要素信息抽取方面,经过要素多源信息对齐,核验、融合算法,获取要素本体信息,进一步可构建卷宗知识库,为案件回填、类案推送、案例研判、智能检索、要素式文书生成等知识化服务场景提供全面技术支撑。

  责任编辑:广汉

声明:

凡文章来源标注为"智领安平行业网"的文章版权均为本站所有,如需转载请务必注明出处为"智领安平行业网",违反者本网将追究相关法律责任。非本网作品均来自互联网并标明了来源,如出现侵权行为,请立即与我们联系,待核实后,我们将立即删除,并向您致歉。

底部公共页面