企业数据治理那些事
上QQ阅读APP看书,第一时间看更新

3.2 自查数据质量

数据质量指的是一条数据显性的质量表现,分析起来似乎比较容易,但是我们不仅要考虑数据自身的质量问题,也要考虑不同系统(数据所处环境)间由于各种原因造成的质量问题,毕竟数据的存在不是独立性的。因此,分析数据的质量问题,需要结合现有的业务管理系统,从数据的一致性、完整性、合规性、冗余、及时性和有效性6个方面进行全面的分析。

1.数据质量自查标准及方法

数据质量自查标准,如表3-2所示。

表3-2 企业数据质量自查标准

从数据自身的角度自查数据质量的方法,如表3-3所示。

表3-3 自查数据质量的方法(数据角度)

从业务管理和数据应用分析的角度判断数据质量的方法如表3-4所示。

表3-4 自查数据质量的方法(业务角度)

2.数据质量自查实例

从企业实际数据管理的角度,我们看一下现实中存在的各种数据质量的问题,可供企业做数据质量自查时参考。

1.数据规范、标准方面的数据质量问题

案例一:国内某大型装备制造企业集团,并没有形成统一的数据模型规范。其主要问题如下。

1)数据大类问题,如表3-5所示。

表3-5 数据大类问题

上表中可以看出,该企业的数据大类界定维度不一,如外购件和标准件两类,外购件的范围太广,没有限定具体范围,只要是外购的都适用。

2)数据中类问题。

中类包含的范围太广,模板无法统一,如表3-6所示。

表3-6 数据中类问题

从上表中可以看出,“化工用品”的范围太大,包含了“涂料”“粘接材料”等品类,经常出现很多本是“粘接材料”的物资误放到“化工用品”中的现象,直接造成一物多码等的数据冗余问题。

还有一种情况就是中类分的过细,导致中类包含数量较多,后期出现新的数据时,可能需要增加新的类别对应,导致未来中类数量越来越多,最终出现中类编码位数不够的现象,如表3-7所示。

表3-7 数据中类问题

3)数据小类问题。小类界定模糊不清,如表3-8、3-9所示。

表3-8 数据小类问题(1)

表3-9 数据小类问题(2)

表3-8中的“电线、电缆”小类和“排线”“自控电伴热线”小类有包含和被包含的关系存在,数据新增时很容易出现错放类别的情况。表3-9中的“门控器”和“安全门门控器”也是同样的问题。

4)编码属性问题。

传统型的规格型号整体式管理,无法实现严格的数据验证,且很容易造成人为的录入错误,尤其是中间连接符号如“*”“x”和“×”经常混用,如表3-10所示。

表3-10 编码属性问题(1)

编码数据模型不统一、不完整(同一小类),如表3-11所示。

表3-11 编码属性问题(2)

以上这些编码中很明显的可以看出,同一个小类中编码数据模型格式严重不统一,同样都是胶带,有的是颜色属性,有的是宽度属性,有的是长度,有的是品牌型号,这样后期新增数据时如此操作很难实现数据的精确查重,数据冗余在所难免。

5)计量单位的大小写不同(同一小类),如表3-12所示。计量单位出现了大小写,书写格式不规范,对于此类录入错误缺乏数据验证。

表3-12 编码属性问题(3)

案例二:国内某大型箱包生产企业集团案例,其编码数据模型不统一、不标准。其主要问题如下。

1)编码数据模型不统一、不标准,如表3-13所示。

表3-13 编码数据模型不统一

通过以上数据可以看出,不同编码的规格型号的描述方式相差较大,有纯汉字说明和借用编码流水号两种,二者的共存很容易导致一物多码或一码多物的问题发生,因为不一样的描述方法,业务系统无法验证新增数据时的重复所在。

还有一个问题就是物资描述不标准、不清晰,规格型号用编码来代替,此种情况适合比较熟悉实际业务。且非常了解相关物资的人,看到编码就可以直接对应到相关物资。但是企业生产过程中难免有岗位调离、离职、请假等现象的发生,新员工来到此岗位需要很长一段时间来熟悉物资的这种描述方式,很容易导致错误采购、错误生产、错误盘点等现象的发生,直接对业务产生负面影响。同样的问题(如表3-14所示的数据)也很严重。

表3-14 物资描述问题(1)

2)编码长度不一,且编码规则不一,如表3-15所示。

表3-15 物资描述问题(2)

从表3-15中可以清晰地看出左边编码列的长短不一,并且编码借用了规格型号,如最后两行的数据很可能造成“一物多码”问题的发生。

再有就是两个编码很明显属于同一类别,但是编码规则中有阿拉伯数字“9”和英文字母“A”共存的现象,这种现象很容易造成一些误解和“一物多码”问题。

3)规格型号书写格式不规范,如表3-16所示。

表3-16 物资描述问题(3)

在表3-16中,规格型号的描述中“织唛”前有的有空格,有的没有空格,这种现象的出现直接导致现有业务系统无法实现有效查重,出现重码现象在所难免。

2.主数据冗余方面的数据质量问题

案例一:国内某大型装备制造企业集团的数据冗余情况分析

企业的数据规范和标准长期由人工执行,以及数据新增时的人为查重、人为监管等,导致了主数据层面“一物多码”的大量存在,产生了大量的主数据冗余。

1)书写格式不规范,出现了大小写(同一小类)不统一的情况,如表3-17所示。

表3-17 书写格式不规范

表3-17的编码中,编码属性模板还是比较标准的,但是在实际录入过程中出现了大小写不一致的问题,如最后三条编码规格中用的是小写,往上三行是大写,再往上又有小写出现,这很明显地说明了缺乏严格的数据验证制度,所以编码重复在所难免。

2)数据模型不统一,如表3-18中所示的这组数据所示。

表3-18 数据模型不统一

在表3-18中,第一行和最后一行编码数据模型不同,规格型号的书写格式也不一样,但明显指的是同一件物料,有一物多码的嫌疑。其他行的编码数据模型还是比较标准、统一的。

3)很明显的数据冗余(同一小类内一物多码),如表3-19所示。

表3-19 明显的数据冗余(一物多码)

在表3-19中的数据中明显存在重复(冗余)数据,也就是我们经常提到的。

案例二:国内某大型箱包生产企业集团,其存在质量问题的数据如表3-20所示。

表3-20 一物多码

表3-20中数据,出现规格型号完全相同但编码不同的现象,是一物多码。此种现象会直接导致业务系统使用过程中不同的人使用不同的编码,最终结果是报表中这一物资的业务数据无法统计到一条编码下,导致报表数据不准确。