一.数据重要性

数据已从金融业务流程中的记录副产品转变为核心服务资源。
互联网金融化
各类互联网+企业都把目光瞄向了金融行业,借助互联网、云计算、大数据等数字化手段提供精准的客户获取和服务定价。
风控模型化
银行经营风险和客户信用风险的管控和防范越来越依赖精确的客户数据和计量模型进行管理。
业务数字化
金融服务越来越转向互联网渠道、移动渠道等非柜面渠道转移,传统实体渠道快速萎缩。
金融场景化
金融服务不再是专业化的服务,而是越来越多地与生产、生活等非金融场景无缝结合,形成金融与非金融相互融合的生态圈。
社会移动化
中国移动电话用户超16.83亿户,手机成为人们除睡觉以外花费时间最多的地方。

二.数据突出问题

三.制度背景

        随着数据作为银行业重要资产价值的提升,公司对数据的重视程度日益加强。为了有效提高数据的管理能力,挖掘内、外部信息资源,为银行业务决策提供支持。数据治理管控系统对银行数据治理工作进行集中管理、协调和监督,将数据治理提升到公司层面,从解决小数据管理的现实问题开始,逐步推进大数据建设和应用目的的工作方向,部署了全面的海量数据采集、大数据平台建设、有重点地推进部分数据管理问题的解决、信息安全等四项工作。
        目前没有统一的数据治理管控产品的银行,各个数据平台在其内部管理自己的元数据信息,针对各个数据平台和IT用户的元数据诉求,一般通过公司信息技术中心以Excel等文档交互;在数据质量和数据标准化的问题上,主要通过在ODS系统增加自定义开发的ETL检核作业和存储过程来完成,如对数据字典的校验检核。目前的流程复杂,需要经过多重申请和多次交流,交互的信息在准确性和及时性上都难以保证,需求方很难从数据获取有价值的信息,各业务系统对统一数据分类标准的理解和认识也不一致,没有专门机构对标准、应用规划这样的数据问题进行全面负责。

        Efraiser倾力打造的企业级金融数据管控平台建设目标是通过采购具备国内外金融行业或大型企业数据治理领先设计理念的数据管控产品为原型,结合公司信息采集与管理工作目标和需对产品原型进行客户化定制开发与实施,从而建立具备数据标准管理、数据质量管理、元数据管理等核心功能,同时在技术上能够对接大数据平台的各类技术组件,为各类数据应用提供辅助功能的企业级金融数据管控平台。
        企业级金融数据管控平台是推动公司信息采集与管理工作所提出的数据标准管理、元数据管理、数据质量管理工作的技术工具,同时也是业务和IT人员交流、反馈、跟踪、解决信息采集与管理问题的统一的工作平台,用于提高信息采集与管理工作的专业化与协同性,为建设信息采集与管理工作的长效运行机制提供系统支持。

一.数据中心逻辑架构
二.数据中心技术架构

三.方案整体架构
一.建设方案

        企业级金融数据管控平台通过解决释放数据价值过程中面临的诸多问题,以体系化的方式实现数据的可得、可用,用较小的数据成本获得较大的数据收益。

二.建设思路

        对元数据采集、元数据搜索、数据质量检核、血缘分析等模块进行开发。
模型(元数据)设计与审批、发布线上化,旨在降低数据治理成本,提高数据治理效率。
        数据质量检核的在线流程,主要解决台账的检核、数据项相关检核。
        数据标准管理的在线流程,与模型设计、数据质量联动。
        数据目录、元数据关系管理等功能,为数据治理人员提供合理的元数据编目方式,为数据管理人员、业务分析人员等用户提供清晰、可靠的数据资产视图。
        构建统一展示界面,通过对接数据管理平台,调用数据目录接口,获取标准集市主题数据,按照业务、技术进行目录构建,展示相关元数据信息;调用数据质量接口,可以进行质量查看、质量检核等。
        通过对接数据服务模块,按维度查询数据内容,如客户维度、产品维度等数据。

三.建设成果
 一.平台优势
二.组织架构
 
 

•对元数据采集、元数据搜索、数据质量检核、血缘分析等进行需求分析及系统研发。
•模型(元数据)设计与审批、发布线上化,旨在降低数据治理成本,提高数据治理效率。
•数据质量检核的在线流程,主要解决台账的检核、数据项相关检核。
•数据标准管理的在线流程,与模型设计、数据质量联动。
•开发数据目录、元数据关系管理等功能,为数据治理人员提供合理的元数据编目方式,为数据管理人员、业务分析人员等用户提供清晰、可靠的数据资产视图 。

一.元数据的定义

        元数据最简单的定义是:描述数据的数据,常见的元数据分类包括技术元数据、业务元数据、操作元数据、管理元数据、行为元数据、运营元数据、服务元数据
        归纳总结为三类:一技术元数据、二业务元数据、三管理元数据。

二.元模型
三.元数据采集范围
四.元数据采集方式

元数据采集的方式

        元数据的采集主要是获取静态元数据,包括库、模式、表、视图、索引、字段、存储过程、加工脚本、作业、指标、报表、服务等信息。主要包括以下三种采集方式:
DDL解析:对DDL语句进行解析和处理,以获取数据库的结构信息
直连采集:通过采集程序从客户数据库中直接抓取数据的静态元数据
数据开发平台采集:转化开发平台涉及的静态元数据

元数据解析的内容

        元数据的解析主要是获取和解析数据生成逻辑,解析静态元数据之间的关系,生成动态元数据。

主要包括下面的解析内容:
        存储过程解析、加工脚本解析、指标加工逻辑解析、报表生成逻辑解析、API服务逻辑解析、批量数据订阅查询逻辑解析、开发平台Maping解析、Mapping文件解析
注:通过开发平台可以额外解析元数据和标准的映射关系

六.元数据变更流程
七.元数据应用-元数据查询

        对元数据进行检索和详情查看,查看元数据的基本信息、物理结构、DDL、样例数据、数据分布等信息。帮助开发人员了解数据。

八.元数据应用-关系分析

九.元数据应用-元数据分析

十.元管理主要功能
十一.血缘解析模块

        血缘解析模块是一款高度自动化、简单易用的可视化分析工具,专为快速解析 SQL 语句并发现其中的数据血缘关系而设计。它能够满足技术人员对数据血缘的快速批量化处理需求,简化处理流程,显著提升解析速度和精准性,是企业实现数据治理的基础工具。
核心特点
1. 数据血缘在线解析
        Lineage 血缘解析工具支持通过离线采集或服务器文件采集任务,在线分析包括 Oracle、MySQL、Hive 等在内的几乎所有主流数据库脚本、报表文件及 Excel 模板,实现高效的数据血缘解析。
2. 全链路字段级血缘解析
        工具能够生成表级和字段级的数据血缘关系信息,支持采集埋点信息和自定义扩展属性。通过完整链路追踪,清晰呈现数据的流转关系,帮助企业全面掌握数据来源和去向。
3. 血缘关系可视化追踪
        Lineage血缘解析工具通过矢量图直观展示数据加工的各个节点。用户可选中任意节点,以此节点为起点(或终点),向下(或向上)追溯其影响到的其他节点路径,实现数据的全链路可视化追踪。

价值与优势

        血缘解析模块是企业数据治理的得力助手,通过自动化、可视化的方式,帮助技术人员快速掌握数据流转关系,为数据质量管理和决策提供坚实基础。

 

一.数据质量管理方法论

数据质量改进方法:“戴明环PDCA”(计划-执行-检查-处理)问题解决模式

数据质量提升:通过一组定义好的步骤来改进数据质量

数据质量根据数据标准进行衡量:如果数据不符合标准,则必须查明与标准不符合的原因,并给予纠正

数据问题:数据采集、处理、加工过程存在技术和非技术原因, 需要全面识别

问题修复:数据质量问题要进行跟踪管控,责任到人,督促问题责任人积极整改,保证数据质量能够满足需求

实施步骤

1、确定数据范围,识别不满足数据消费者需求的数据;

2、找到影响业务目标实现的数据问题;

3、根据关键的数据质量维度和已知的数据质量需求对数据进行评估;

4、查明问题根因,便于利益相关者知晓;

5、确定采取补救的措施和成本,考虑不补救的风险预留 。

二.数据质量管理规划

三.数据质量管理内容

确立数据质量管理目标,建立管控机制,确保数据的真实性、准确性、连续性、完整性和及时性

监控体系

覆盖数据全生命周期持续监测、分析、反馈定期现场检查

质量提升

覆盖数据全生命周期持续监测、分析、反馈定期现场检查

考核评价

建立数据标准考核评价体系

定期考核并纳入绩效考核体系

四.数据质量管理流程

五、数据质量监控常规检测规则

六、数据质量检核规则属性

七、数据质量规则运行逻辑

1、总数统计SQL运行->检核目标总数

2、检核SQL运行->临时结果数据表->临时结果表与错误数据表做关联,关联不上为新增错误,插入错误数据表->错误数据表做与临时数表做关联,关联不上为以修正错误,更新错误数据结束日期->统计本次运行结果,当前错误数、本次新增错误数、本次修正错误数

八、数据质量问题下发逻辑

手动选择数据及人员下发

基于发现的问题数据,点选数据进行问题数据下发

手动选择数据,自动选择人员下发

手段选择/全量选择数据,按照预设的内部机构号、员工号、归口部门等维度分别拆分对应部门或人员

自动下发

按照预设的内部机构号、员工号、归口部门等维度,在错误数据生成后进行增量下发

九、数据质量问题整改方式

 

十、平台展示

  

 

 

        指标集市围绕指标定义与管理、数据建模与计算、可视化分析、数据质量监控、灵活扩展、用户体验和安全合规展开。通过这些能力的组合,指标集市可以为企业提供高效、可靠、易用的指标管理和分析服务,助力业务决策和数据驱动运营。

        数据服务组件对外暴露的功能接口,具体又分为以下三类:

通用查询服务:以JDBC或是Restful的方式向外提供数据查询能力,应用通过传入SQL语句的方式进行数据查询;

数据订阅服务:用于覆盖在线联机查询无法满足的异步类场景,如大批量数据查询场景下,通过订阅的方式通知消费方数据就绪情况,或是定期性的数据推送等;

模式化查询服务:用于覆盖通用查询服务无法满足要求,或是高度模式化的查询场景。通过开发专用服务的方式满足这类需求(如模式化的指标类查询服务等);统一查询引擎和数据缓存目的是为数据服务提供高效的访问能力;安全管控和服务发布可通过UI端对数据定制和数据权限进行控制,确保数据安全;

        数据服务盘点可以为下游系统以及业务人员提供了数据价值的释放途径

        外部数据管理统一对接了第三方的数据接口,屏蔽了第三方接口不同标准、不同格式的差异,为数据应用提供了统一标准的接口

        数据补录从任务管理、数据录入、审批流程、质量保障到结果监控的全流程能力,同时支持自动化、协作、安全和扩展性等功能。通过这些能力的组合,数据补录模块可以高效解决数据缺失问题,确保数据的完整性、准确性和一致性,为企业的数据驱动决策提供坚实保障。

        构建统一展示界面,通过对接企业级金融数据管控平台,调用数据目录接口,获取标准集市主题数据,按照业务、技术进行目录构建,展示相关元数据信息;

         通过对接数据服务模块,按维度查询数据内容,如客户维度、产品维度等数据;

        对不同的报表工具做集成,企业级金融数据管控平台作为过去数据价值释放的主要途径,在企业级金融数据管控平台做统一展示和管理配置;

将集团驾驶舱整合到企业级金融数据管控平台中来,用户可以一站式处理多样业务。

        数据资产大屏从全景展示、实时监控、质量评估到趋势分析的全流程能力,同时支持动态可视化、权限管理、可扩展性和安全性等功能。通过这些能力的组合,数据资产大屏模块可以帮助企业快速了解数据资产的全貌和运行状态,支持管理层的决策和运营优化,提升数据资产的管理效率和价值。

        数据资产报表从报表生成、全景展示、实时监控、质量分析到趋势预测的全流程能力,同时支持动态可视化、权限管理、可扩展性和安全性等功能。通过这些能力的组合,数据资产报表模块可以帮助企业快速掌握数据资产的状态和价值,支持管理层的决策和运营优化,提升数据资产的管理效率和业务价值。

  

        数据资产集团驾驶舱从全局概览、实时监控、质量分析、使用情况到趋势预测的全流程能力,同时支持动态可视化、权限管理、可扩展性和安全性等功能。通过这些能力的组合,数据资产集团驾驶舱模块可以帮助企业高层快速掌握数据资产的状态和价值,支持战略决策和资源优化,提升数据资产的管理效率和业务价值。

        逐步构建覆盖全域数据、结构层次清晰、数据准确一致、性能提升、降低成本、方便易用的数据层次架构,这个层次架构定义了数据分层及每一层的模型建设规范,构建整体的数据能力框架;

        逐步搭建数据技术框架,完善数据服务能力、数据开发能力、数据分析与可视化能力等技术体系,建立“企业级金融数据管控平台”的数据中台,让数据越用越活,越用越多;

        结合业务场景,配套AI中台的建设,深挖数据价值,构建一套持续不断把数据变为资产并服务于业务的机制。

滚动至顶部