数据质量管理浅谈

数据质量管理浅谈

引言

数据和信息是21世纪的经济命脉。在信息时代,数据被认为是一项重要的企业资产。

那么有了数据是不是就可以直接转换成价值了呢?答案是否定的。

企业需要对数据进行提炼和加工,最终形成需要的信息,才能用于支持日常的经营与决策。

数据经过加工形成的信息是否客观地反映了企业的真实情况,这又取决于另外一项东西——数据质量。

金融企业具有与传统企业不一样的特征。它需要每日,甚至每时每刻对各类经营指标进行监控和计算,这就需要有更高的数据准确性和及时性进行支撑。因此它对数据质量的敏感度、依赖度比传统企业更高。

证券行业作为金融行业的重要组成部分,数据质量的重要性不言而喻。那么证券公司应该如何应对数据质量问题?本文将简要介绍什么是数据、什么是数据质量、常见的数据质量评估维度、证券公司如何应对数据质量问题等内容。

什么是数据 数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。

它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位臵及其相互关系的抽象表示。例如,“0、1、2...`”、“阴、雨、下降、气温”“学生的档案记录、货物的运输情况”等都是数据。数据经过加工后就成为信息。

本文所谈的数据主要指存在于IT 系统中的,以计算机存储设备为载体的信息集合。

什么是数据质量 数据质量是描述数据价值含量的指标。就像铁矿石的质量,矿石的质量高,则炼出来的钢材就会多;反之,矿石的质量低,不但练出来的钢材少了,同时也增加了提炼的成本。

常见的数据质量评估维度

1. 完整性

用来描述信息的完整程度。

例如:某公司的人力资源系统中有100名员工信息,其中有50个员工中没有记载联系电话,这说明该公司人力资源系统的客户联系电话信息存在完整性问题。

2. 准确性

用来描述数据是否与其对应的客观实体的特征相一致(需要一个确定的和可访问的权威参考源)。

例如:某公司的人力资源系统中记录了员工A 的联系方式为12345,然而该员工真实的联系方式是56789,这说明系统中记载的员工A 的联系方式是不准确的,存在准确性问题。

3. 唯一性

用来描述数据是否存在重复记录,没有实体多余出现一次。

例如:全国公安联网核查系统中,有两个公民的身份证号码完全一样,这就说明该系统的身份证号码信息存在唯一性问题。

4. 有效性

用来描述数据是否满足用户定义的条件。通常从命名、数据类型、长度、值域、取值范围、内容规范等方面进行约束。

例如:某银行的核心系统中,客户A 的借记卡余额为-100元,这种现象违反了银行的业务规则,这说明该银行的核心系统中存在数据有效性问。

5. 一致性

用来描述同一信息主体在不同的数据集中信息属性是否相同,各实体、属性是否符合一致性约束关系。

例如:某银行在核心系统中记录的客户A 的性别是“男”,而在信贷系统中客户A 的性别却是“女”,这说明该银行的这两个系统存在数据一致性问题。

6. 及时性

用来描述从业务发生到对应数据正确存储并可正常查看的时间间隔程度,也叫数据的延时时长,数据在及时性上应能尽可能贴合业务实际发生时点。

例如:某证券公司于T 日购买了1亿国债A ,但直到T+10日才看到财务系统中的持仓变化,这说明该证券公司的财务数据存在及时性问题。

证券行业协会对数据质量的要求

2016年9月13日,中国证券业协会下发了“关于就《证券公司全面风险管理规范》等四项自律规则修订稿征求意见的通知。在《证券公司全面风险管理规范》核心修订内容中明确强调了对数据质量的要求。

由此可见,监管机构和行业自律性组织已逐渐意识到数据质量问题已不是个别券商或机构的问题,而是一个普遍性的行业问题,急待解决。

证券公司如何应对数据质量问题

首先,要提升数据质量意识,这需要确保公司各部门中配备合适的人员了解数据质量问题的存在。数据质量意识包括能够将数据质量问题与其实质影响联系起来,同时传达一种“数据质量问题不能仅仅依靠技术手段解决”的理念。在初始阶段,可以提供一些数据质量核心概念的培训。

其次,为数据质量建立数据治理框架。数据治理是为数据管理的各方面贯彻责任制度的一系列流程和程序。

由于数据质量低下会导致不正确的信息。数据清洗也许可以带来短期的、有一定代价的改善,但并不解决数据缺陷的根本问题。如果考虑为提升数据质量提供较为经济的解决方案,实施更加严格的数据质量项目是必要的。

在实际项目中,问题不仅仅包含校正数据,同时还包括管理数据创建、数据转换和数据传输等整个数据生命周期,从而确保生成的信息满足风险数据消费者的需求。

将数据质量管理和质量提升等流程制度化,取决于识别风险管理工作对高质量数据的需求和确定如何度量、监控和报告数据质量的最佳方式。在发现数据处理过程中的问题之后,需要通知相应的数据管理专员采取校正措施以便解决紧急问题,同时,需要采取措施消除问题的根源。

数据质量管理是一个持续的过程,为满足风险管理需求的数据质量标准指定

规格参数,并且保障数据质量能够满足这些标准。数据质量管理包括数据质量分析、识别数据异常和定义风险数据质量需求,还包括在必要的时候对已定义的数据质量规则进行合规性检查和监控的流程,以及数据解析、标准化、清洗和整合。最后,数据质量管理还包括问题追踪,从而对已定义的数据质量服务水平协议的合规性进行监控。

数据质量管理的一种通用方法是戴明质量环,戴明(Deming,W.Edwards )是对质量管理的发展产生巨大影响的大师之一,他提出了被大家所知的“计划-实施-检查-行动”用于解决问题的模型,该模型对数据质量管理同样有效,它包括:

● 指定数据质量现状评估计划和识别数据质量度量关键指标。

● 实施度量和提升数据质量的流程。

● 监控和度量根据业务预期定义的数据质量水平。

● 执行解决数据质量问题的行动方案,以提升数据质量从而更好的满足业

务预期。

一个数据质量管理周期的开始包括识别数据质量问题,这些问题是达成业务目标的关键问题,包括定义数据质量的业务需求、识别数据质量关键维度以及定义保障高水平数据质量的关键业务规则。

在计划阶段,数据质量团队评估已知的数据问题,包括确定问题的代价和影响以及评估处理该问题的可选方案。

在实施阶段,剖析数据并执行检查和监控,识别出现的数据质量问题。在此阶段,数据质量团队可以修复引致错误的流程中存在的缺陷,或者作为一种应急办法对下游错误进行校正。如果不能在错误的源头进行校正,那么就在数据流中尽早校正该错误(如:可在风险数据集市中进行校正)。

在监控阶段,根据已定义的业务规则对数据质量水平进行动态监控。只要数据质量满足可接受度阈值,流程就是受控的,数据质量水平就可以满足业务需求。然而,如果数据质量下降到可接受度阈值之下,需要通知数据管理专员以便他们在下一阶段采取行动。

在行动阶段,主要是处理并解决出现的数据质量问题。

当出现新的数据集或对已有的数据集提出新的数据质量需求时,一个新的数据质量管理周期便开始了。

最后,作为金融企业,应当建立数据质量管理委员会或数据治理委员会,与

各级数据治理角色建立汇报层级关系。数据管理专员负责与业务用户、业务条线甚至特定应用建立联席,他们持续地提倡数据质量意识并监控其所负责的数据资产。

结语

数据质量管理是循环管理过程,其终极目标是通过可靠的数据提升数据在使用中的价值,免除了员工日常处理数据问题的附加工作量,提高了工作效率,更重要的能够为企业的精细化管理打下坚实的基础,并最终为企业赢得经济效益。

作为一家准备上市的券商,公司在各方面将会面临更加严格的监管。这对公司披露信息的准确性和及时性提出了更高的要求。我们应该重视数据质量管理,建立起与之匹配的数据治理体系,提高数据质量。在满足外部监管的同时,加强内部的管理能力,最终提升公司在行业中的竞争力。

数据质量管理浅谈

引言

数据和信息是21世纪的经济命脉。在信息时代,数据被认为是一项重要的企业资产。

那么有了数据是不是就可以直接转换成价值了呢?答案是否定的。

企业需要对数据进行提炼和加工,最终形成需要的信息,才能用于支持日常的经营与决策。

数据经过加工形成的信息是否客观地反映了企业的真实情况,这又取决于另外一项东西——数据质量。

金融企业具有与传统企业不一样的特征。它需要每日,甚至每时每刻对各类经营指标进行监控和计算,这就需要有更高的数据准确性和及时性进行支撑。因此它对数据质量的敏感度、依赖度比传统企业更高。

证券行业作为金融行业的重要组成部分,数据质量的重要性不言而喻。那么证券公司应该如何应对数据质量问题?本文将简要介绍什么是数据、什么是数据质量、常见的数据质量评估维度、证券公司如何应对数据质量问题等内容。

什么是数据 数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。

它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位臵及其相互关系的抽象表示。例如,“0、1、2...`”、“阴、雨、下降、气温”“学生的档案记录、货物的运输情况”等都是数据。数据经过加工后就成为信息。

本文所谈的数据主要指存在于IT 系统中的,以计算机存储设备为载体的信息集合。

什么是数据质量 数据质量是描述数据价值含量的指标。就像铁矿石的质量,矿石的质量高,则炼出来的钢材就会多;反之,矿石的质量低,不但练出来的钢材少了,同时也增加了提炼的成本。

常见的数据质量评估维度

1. 完整性

用来描述信息的完整程度。

例如:某公司的人力资源系统中有100名员工信息,其中有50个员工中没有记载联系电话,这说明该公司人力资源系统的客户联系电话信息存在完整性问题。

2. 准确性

用来描述数据是否与其对应的客观实体的特征相一致(需要一个确定的和可访问的权威参考源)。

例如:某公司的人力资源系统中记录了员工A 的联系方式为12345,然而该员工真实的联系方式是56789,这说明系统中记载的员工A 的联系方式是不准确的,存在准确性问题。

3. 唯一性

用来描述数据是否存在重复记录,没有实体多余出现一次。

例如:全国公安联网核查系统中,有两个公民的身份证号码完全一样,这就说明该系统的身份证号码信息存在唯一性问题。

4. 有效性

用来描述数据是否满足用户定义的条件。通常从命名、数据类型、长度、值域、取值范围、内容规范等方面进行约束。

例如:某银行的核心系统中,客户A 的借记卡余额为-100元,这种现象违反了银行的业务规则,这说明该银行的核心系统中存在数据有效性问。

5. 一致性

用来描述同一信息主体在不同的数据集中信息属性是否相同,各实体、属性是否符合一致性约束关系。

例如:某银行在核心系统中记录的客户A 的性别是“男”,而在信贷系统中客户A 的性别却是“女”,这说明该银行的这两个系统存在数据一致性问题。

6. 及时性

用来描述从业务发生到对应数据正确存储并可正常查看的时间间隔程度,也叫数据的延时时长,数据在及时性上应能尽可能贴合业务实际发生时点。

例如:某证券公司于T 日购买了1亿国债A ,但直到T+10日才看到财务系统中的持仓变化,这说明该证券公司的财务数据存在及时性问题。

证券行业协会对数据质量的要求

2016年9月13日,中国证券业协会下发了“关于就《证券公司全面风险管理规范》等四项自律规则修订稿征求意见的通知。在《证券公司全面风险管理规范》核心修订内容中明确强调了对数据质量的要求。

由此可见,监管机构和行业自律性组织已逐渐意识到数据质量问题已不是个别券商或机构的问题,而是一个普遍性的行业问题,急待解决。

证券公司如何应对数据质量问题

首先,要提升数据质量意识,这需要确保公司各部门中配备合适的人员了解数据质量问题的存在。数据质量意识包括能够将数据质量问题与其实质影响联系起来,同时传达一种“数据质量问题不能仅仅依靠技术手段解决”的理念。在初始阶段,可以提供一些数据质量核心概念的培训。

其次,为数据质量建立数据治理框架。数据治理是为数据管理的各方面贯彻责任制度的一系列流程和程序。

由于数据质量低下会导致不正确的信息。数据清洗也许可以带来短期的、有一定代价的改善,但并不解决数据缺陷的根本问题。如果考虑为提升数据质量提供较为经济的解决方案,实施更加严格的数据质量项目是必要的。

在实际项目中,问题不仅仅包含校正数据,同时还包括管理数据创建、数据转换和数据传输等整个数据生命周期,从而确保生成的信息满足风险数据消费者的需求。

将数据质量管理和质量提升等流程制度化,取决于识别风险管理工作对高质量数据的需求和确定如何度量、监控和报告数据质量的最佳方式。在发现数据处理过程中的问题之后,需要通知相应的数据管理专员采取校正措施以便解决紧急问题,同时,需要采取措施消除问题的根源。

数据质量管理是一个持续的过程,为满足风险管理需求的数据质量标准指定

规格参数,并且保障数据质量能够满足这些标准。数据质量管理包括数据质量分析、识别数据异常和定义风险数据质量需求,还包括在必要的时候对已定义的数据质量规则进行合规性检查和监控的流程,以及数据解析、标准化、清洗和整合。最后,数据质量管理还包括问题追踪,从而对已定义的数据质量服务水平协议的合规性进行监控。

数据质量管理的一种通用方法是戴明质量环,戴明(Deming,W.Edwards )是对质量管理的发展产生巨大影响的大师之一,他提出了被大家所知的“计划-实施-检查-行动”用于解决问题的模型,该模型对数据质量管理同样有效,它包括:

● 指定数据质量现状评估计划和识别数据质量度量关键指标。

● 实施度量和提升数据质量的流程。

● 监控和度量根据业务预期定义的数据质量水平。

● 执行解决数据质量问题的行动方案,以提升数据质量从而更好的满足业

务预期。

一个数据质量管理周期的开始包括识别数据质量问题,这些问题是达成业务目标的关键问题,包括定义数据质量的业务需求、识别数据质量关键维度以及定义保障高水平数据质量的关键业务规则。

在计划阶段,数据质量团队评估已知的数据问题,包括确定问题的代价和影响以及评估处理该问题的可选方案。

在实施阶段,剖析数据并执行检查和监控,识别出现的数据质量问题。在此阶段,数据质量团队可以修复引致错误的流程中存在的缺陷,或者作为一种应急办法对下游错误进行校正。如果不能在错误的源头进行校正,那么就在数据流中尽早校正该错误(如:可在风险数据集市中进行校正)。

在监控阶段,根据已定义的业务规则对数据质量水平进行动态监控。只要数据质量满足可接受度阈值,流程就是受控的,数据质量水平就可以满足业务需求。然而,如果数据质量下降到可接受度阈值之下,需要通知数据管理专员以便他们在下一阶段采取行动。

在行动阶段,主要是处理并解决出现的数据质量问题。

当出现新的数据集或对已有的数据集提出新的数据质量需求时,一个新的数据质量管理周期便开始了。

最后,作为金融企业,应当建立数据质量管理委员会或数据治理委员会,与

各级数据治理角色建立汇报层级关系。数据管理专员负责与业务用户、业务条线甚至特定应用建立联席,他们持续地提倡数据质量意识并监控其所负责的数据资产。

结语

数据质量管理是循环管理过程,其终极目标是通过可靠的数据提升数据在使用中的价值,免除了员工日常处理数据问题的附加工作量,提高了工作效率,更重要的能够为企业的精细化管理打下坚实的基础,并最终为企业赢得经济效益。

作为一家准备上市的券商,公司在各方面将会面临更加严格的监管。这对公司披露信息的准确性和及时性提出了更高的要求。我们应该重视数据质量管理,建立起与之匹配的数据治理体系,提高数据质量。在满足外部监管的同时,加强内部的管理能力,最终提升公司在行业中的竞争力。


相关内容

  • 大数据时代下数据质量的挑战
  • 2013年9月 第33卷第5期(总121期)西安交通大学学报(社会科学版) Journal of Xi'an Jiaotong University (Social Sciences )Sep.2013 Vol.33(Sum No.121) 大数据时代下数据质量的挑战 宗 1,2威,吴 锋 1,2 ...

  • 东北师范大学数据管理办法.0621
  • 东北师范大学应用系统数据管理办法 (讨论稿) 第一章总则 第一条东北师范大学应用系统数据作为学校的无形资产和战略资源,须纳入学校统一管理范畴.根据东北师范大学各类应用系统数据的使用情况,为建立起我校的数据管理体系,实现应用系统数据的统一管控,提高数据质量和数据的利用效率,建立安全.完整.统一的数据服 ...

  • 数据交换共享整合系统平台技术方案
  • 数据交换共享整合协同平台设计 整合协同平台的主要功能是从其它子系统中提取共享数据,并对多来源渠道的.相互不一致的数据进行数据融合处理:基于数据字典对实时数据和历史数据进行组织,以保证数据间关系的正确性.可理解性并避免数据冗余:以各种形式提供数据服务,采用分层次的方法对各类用户设置权限,使不同用户既能 ...

  • 银行数据质量管理暂行办法
  • **银行数据质量管理暂行办法 第一章 总 则 第一条 为规范数据管理工作,提高我行数据质量,确保数据准确性.完整性.及时性,特制定本暂行办法. 第二条 相关概念 应用系统,是按照信息一体化的要求,用于处理我行经营管理的应用软件系统,主要包括客户交易类系统.业务管理类系统.管理信息类系统.技术保障类系 ...

  • 数据管理与数据治理的区别
  • 编者按 当我们谈数据资产管理时,我们究竟在谈什么?就目前而言,我们谈论得最多的非数据管理和数据治理这两个概念莫属.但是对于这两个概念,两者的准确定义是什么,具体区别又是什么,仍是困扰着许多人的关键问题. 数据管理和数据治理有很多地方是互相重叠的,它们都围绕数据这个领域展开,因此这两个术语经常被混为一 ...

  • 某基金公司数据库管理制度
  • 第一章第二章第二章第四章第五章 数据库管理细则 某基金公司 数据库管理制度 目 录 总 则 原 则 交易数据的管理 系统数据的管理 附 则 数据库管理细则 第一章 总 则 第一条 为规范信息技术部数据库系统的日常管理和维护操作,确保基于其上的业务系统的安全.稳定和高效运行,制定本制度. 第二条 本制 ...

  • 新药临床试验数据管理研究
  • 新药临床试验数据管理研究 摘要 新药临床试验数据管理作为新药研发的重要组成部分,在整个新药研发的工作中起着至关重要的作用.高质量的数据不仅是正确评价药物安全性和有效性的基础和依据,更是规范化高质量临床试验的重要标志.为了提高国内的临床数据规范化管理水平,尽快与国际的GCP (Good Clinica ...

  • 数据库运行管理规范
  • 数据库运行管理规范 目录 1. 总则 . .................................................................................................. 3 2. 适用范围 .................... ...

  • 制造业主数据管理应用
  • 1. 为什么需要主数据管理 1.1. MDM 的定义 "The whole is more than the sum of the parts." --Aristotle 整体比部分相加之和的内容要多.――亚里斯多德 这句亚里斯多德的哲学名言,很适合来描述主数据管理(MDM ,m ...