Bright LGM's Blog

数据任务流水线

发表于 2021-05-24 更新于 2022-12-30 分类于数据阅读次数：
本文字数： 4.1k 阅读时长 ≈ 7 分钟

数据流水线

在数据平台中进行数据开发时，数据任务流水线是常用于组织各个计算任务的方式。

比如，我们要想完成一个指标计算。第一个数据任务是将数据接入到数据平台，接着，需要一个任务将数据进行初步的数据清洗形成DWD中的数据，然后，下一个任务可能是计算初级汇总数据存入DWB，再然后，需要一个数据任务计算得到最终的指标结果，还有一些后续任务，比如宽表构建，导出到外部数据库中进行大屏展示等。

这一系列的任务需要按照先后关系一步步的完成，于是它们就构成了数据任务流水线。

阅读全文 »

基于点的数据分析与数据浏览器

发表于 2021-05-10 更新于 2022-12-16 分类于数据阅读次数：
本文字数： 5.8k 阅读时长 ≈ 10 分钟

基于数据点的数据分析

在进行数据分析时，常常会有基于数据点的分析需求。

比如，当做好一个客户画像应用的时候，我们可以得到某个客户的所有标签。如何验证这些标签的准确性呢？一个常用的方法是找到这个客户所有的相关数据，然后基于这些数据去验证标签的准确性。这就是基于数据点的分析，这里的数据点是前面提到的“某个”客户。

同样，当开发完指标之后，也可以尝试找出当前指标粒度（比如经销店粒度）下的所有事实及维度数据，从而进行验证。这里的数据点是“某个”经销店。

阅读全文 »

一个ETL自动化测试框架

发表于 2021-04-25 更新于 2022-12-05 分类于数据阅读次数：
本文字数： 7.1k 阅读时长 ≈ 12 分钟

在前一篇文章《数据测试实践》中，我们探讨了数据应用如何做测试的问题。在数据测试中，ETL脚本的测试是个难题。一般而言，采用高集成度的测试方式（即运行ETL并比对结果，下文称集成测试）是更有效的做法。但是，这类测试的编写和维护却有较高的成本。如何降低ETL集成测试的成本呢？本文尝试从数据工具的角度分享一些我们的经验。

阅读全文 »

数据测试实践

发表于 2021-04-20 更新于 2022-11-28 分类于数据阅读次数：
本文字数： 7.7k 阅读时长 ≈ 13 分钟

在数据平台建设过程中，测试怎么做是一个值得思考的问题。由于数据应用开发和功能性软件系统开发存在很大的不同，在我们实践过程中，在开发人员和质量保证人员间常常有大量关于测试如何实施的讨论。下文将尝试总结一下数据应用开发的特点，并讨论在这些特点之下，对应的测试策略应该是怎么样的。

功能性软件的测试

先来回顾一下功能性软件系统开发中的测试。

阅读全文 »

数据开发支持工具

发表于 2021-04-10 更新于 2022-11-21 分类于数据阅读次数：
本文字数： 5.8k 阅读时长 ≈ 10 分钟

在前面的文章《数据应用开发语言和环境》中我们建议使用SQL来作为主要数据开发语言，并且，通常我们需要对标准的SQL进行增强，以便可以更好的支持复杂的数据开发。一些典型的需要新增的特性可以是变量、控制语句、模板等。

增强SQL固然是可以解决我们的数据开发问题，但是它也会给我们带来一些其他的不便。第一个烦恼可能就是，标准的SQL可以在很多数据工具中运行，比如Superset的SQL查询器、Hive的查询控制台等，而使用增强语法的SQL编写的代码则不行。由于我们将标准的SQL增强了，而SQL周边生态工具却无法感知这样的增强，这时各种不便就随之而来了。

阅读全文 »