提升数据质量的四大有效方式

chatgpt/2023/10/4 8:32:52

在数字时代的今天,企业对于高质量、值得信赖的数据的需求越来越高。

目前,已经有很多企业将数据质量视为技术问题而非业务问题,这也是获取高质量数据的最大限制因素。只有查找技术缺陷,例如重复数据、缺失值、乱序序列,以及与历史数据预期模式的偏差无疑是至关重要的,但这也仅是第一步。一个更加苛刻和关键的步骤,便是衡量业务质量,检查数据是否上下文正确。

让我们看看提高现代数据质量的四大有效方式:

1)自上而下的业务如果数据质量——这个词从未被创造出来,而“业务质量”是目标,也许 IT 团队更加会受益。在那种情况下,确保数据正确的主要理由本来是为了确保业务成果得到满足。在这种情况下,需要重点从数据的基础设施转移到它的上下文。

但“上下文”到底是什么?

它是业务当中对数据的应用。例如,不同业务部门对“客户”的定义可能不同。对于销售来说,是买家;对于营销来说,是影响者;对于财务来说,是买单者。因此,上下文的变化取决于谁在处理数据。为此,数据质量需要与上下文保持同步。

在另一个例子中,国家代码 1 和地区美国与加拿大可能看起来类似,但事实并非如此。不同的团队可以出于截然不同的目的使用一个表格中的相同列。因此,数据质量的定义各不相同。为此,就需要在业务上下文级别应用数据质量。

2)产品思维——数据网格原则上引发的概念非常引人注目,他们改变了我们的思维方式,使那些在实践中可能行不通的旧方法在今天也能奏效。最大的变化是我们对数据的看法:作为一种产品,必须在管理时考虑到用户及其期望的结果。

任何企业正在应用产品管理实践来使他们的数据资产可用。 “数据产品”的目标是通过让不同的消费者群体更容易地消费和分析,以此来鼓励“可信数据”的更高利用率。反过来,又提高了企业以极低的方式从其数据资产中快速提取情报和见解的能力。

同样,数据质量也应该采用相同的产品管理原则来处理。数据生产者应发布一份“数据合同”,列出向消费者承诺的数据质量水平。通过将数据质量视为最重要的资产,生产者应该了解数据的使用方式及其质量的影响。数据产品的数据质量SLA旨在确保消费者了解数据新鲜度等参数。

3)数据可观察性——通常,数据消费者是第一个发现异常的人,例如 CFO 在仪表板上发现错误。如果这种情况发生,那么IT 团队将进入了一种被动的救火模式,试图检测复杂架构中错误出现的位置。

数据可观察性通过持续监控数据管道并使用先进的 ML 技术快速识别异常,甚至主动预测异常来填补空白,以便在问题到达下游系统之前对其进行补救。

数据质量问题可能发生在管道中的任何地方。但是,如果越早发现问题,修复成本就会越低。因此,采用“左移”的理念。数据可观察性产品通过以下方式提高数据质量:

·数据发现从数据源和数据管道的所有组件(例如转换引擎和报告或仪表板)中提取元数据。

·监控和分析——针对动态和静态数据,使用中的数据如何?

·预测性异常检测 - 使用内置。

·警报和通知

数据质量是数据可观察性的基础部分,下图显示了数据可观察性的总体范围。

4)整体数据治理——数据质量子系统与整体元数据管理密不可分。

一方面,数据目录存储定义或推断的规则;另一方面,DataOps 实践生成进一步细化数据质量规则的元数据。数据质量和 DataOps 确保数据管道以自动方式使用正确的规则和上下文进行持续测试,并在推断出异常时发出警报。

事实上,数据质量和 DataOps 只是元数据众多用例中的两个。现代数据质量与这些其他用例集成在一起,如下图所示。

将数据质量合并到数据治理的其他方面的综合元数据平台可改善业务用户(例如数据使用者与数据产品的生产者和维护者)之间的协作。它们共享相同的上下文和指标。

这种紧密集成有助于采用左移方法来提高数据质量。持续测试、编排和自动化有助于降低错误率并加快数据产品的交付。需要这种方法来提高对数据团队的信任和信心。

可以说,这种集成是企业采用数据产品、数据网格和数据共享选项(如交易所和市场)的现代数据交付方法的垫脚石。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.exyb.cn/news/show-5313973.html

如若内容造成侵权/违法违规/事实不符,请联系郑州代理记账网进行投诉反馈,一经查实,立即删除!

相关文章

国内外遥感数据处理软件对比

1.国内遥感数据处理软件概况 1.1北京航天宏图信息技术股份有限公司 1.1.1公司简介 航天宏图信息技术股份有限公司成立于2008年,是国内遥感和北斗导航卫星应用服务商,致力于卫星应用软件国产化、行业应用产业化、应用服务商业化,研发并掌握了具有完全自主知识产权的PIE(Pix…

MyBatis小记_three

目录 注解开发 环境搭建 1.创建Maven工程 2.创建实体类 3.提供接口,并提供增删改查的方法 4.编写SqlMapConfig.xml 主配置文件 5.采用注解的方式,来进行增删改查 6.测试 7.测试保存用户的方法 8.测试更新用户 9.测试删除一个用户 10.根据id查…

alphapose 安装教程

conda create -n alphapose python3.7 -y conda activate alphaposeconda install pytorch1.11.0 torchvision0.12.0 torchaudio0.11.0 cudatoolkit10.2 -c pytorch git clone https://github.com/MVIG-SJTU/AlphaPose.git cd AlphaPose export PATH/usr/local/cuda/bin/:$PAT

STM32F103C8T6程序烧录方法

1.购买烧录器pwlink 2.下载Power Writer烧录软件。 3.在keil5里面设置,如下: 注:此步骤前需要先将烧录器和stm32f103c8t6开发板连好,接到电脑上,之后才能在1处看到设备。 下面这个烧录步骤可能会报错,如果…

stm8_独立看门狗配置顺序错误导致不断复位

1、问题 在配置stm8独立看门狗的时候,先设置分频、重载寄存器,然后启动看门狗,发现不断复位。 按照手册中的表格,看门狗的超时时间应该是1s,但是在这1s中多次喂狗也不断复位,然后排查到是配置顺序的问题&…

【面试题】与通义千问的芯片前端设计模拟面试归纳

这里是尼德兰的喵芯片设计相关文章,欢迎您的访问! 如果文章对您有所帮助,期待您的点赞收藏! 让我们一起为芯片前端全栈工程师而努力! 前言 两个小时,与chatGPT进行了一场数字IC前端设计岗的面试_尼德兰的喵的博客-CSDN博客 和GPT-3.5的回答可以对比品尝,味道更好。 模…

基于 STM32+FPGA 的通用工业控制器设计(一)系统方案设计

本章首先介绍了现有 PLC 系统的概况,然后提出了本文设计的通用工业控制器的 整体方案架构,分析了硬件和软件上需要实现的功能,最后对各部分功能进行分析并提 出具体的实现方案。 2.1 PLC 系统简介 可编程逻辑控制器( Progra…

软件测试工程师的职业规划,你都做好了吗?

第一阶段:初级测试工程师 一般刚刚入门,熟悉基本的测试流程,此时已打基础为主。入门薪资一般在6000-8000元之间。 具体工作是: (1) 按照测试方案和流程对产品进行功能测试,检查产品是否有缺陷…
推荐文章