Bright LGM's Blog

Efficient ETL Testing

发表于 2022-06-08 更新于 2022-07-06 分类于数据阅读次数：
本文字数： 8.8k 阅读时长 ≈ 15 分钟

Previous posts about Easy SQL

It’s always been a pain point to do ETL testing. But it more and more becomes a must after data being so widely used these days.

An ETL with more than 100 lines of code is common. The filter conditions, data transformation rules, join conditions and other logic there could be very complicated.

阅读全文 »

Neat Syntax Design of an ETL Language (Part 2)

发表于 2022-05-30 更新于 2022-06-18 分类于数据阅读次数：
本文字数： 9.9k 阅读时长 ≈ 16 分钟

Previous posts about Easy SQL

People like to use Scala because Scala provides powerful type inference and embraces various programming paradigms. People like to use Python because it’s clean, out-of-the-box, delicate and expressive. People like to use rust because rust provides modern language features and zero-cost abstract.

阅读全文 »

A Guide to Write Elegant ETL

发表于 2022-05-16 更新于 2022-06-05 分类于数据阅读次数：
本文字数： 5.5k 阅读时长 ≈ 9 分钟

In the previous post, we talked about a new ETL language – Easy SQL. You may be very curious about how to write ETL in Easy SQL. Let’s take a peek at it today.

阅读全文 »

Neat Syntax Design of an ETL Language (Part 1)

发表于 2022-05-25 更新于 2022-05-30 分类于数据阅读次数：
本文字数： 9.3k 阅读时长 ≈ 16 分钟

Previous posts about Easy SQL

People like to use Scala because Scala provides powerful type inference and embraces various programming paradigms. People like to use Python because it’s clean, out-of-the-box, delicate and expressive. People like to use rust because rust provides modern language features and zero-cost abstract.

阅读全文 »

基于HDP构建企业数据平台

发表于 2021-01-22 更新于 2021-05-20 分类于数据阅读次数：
本文字数： 5.1k 阅读时长 ≈ 8 分钟

回顾数据平台建设整体思路

在上一篇文章中，我们聊到了对数据平台的理解以及企业数据平台的建设思路。

经过分析，可以了解到，数据平台应该是一定程度的中心化的系统，是团队对于数据接入、数据建模、数据清洗、数据开发过程的工程化经验的沉淀。

它可以：

阅读全文 »

那些数据工作中的角色

发表于 2020-11-26 更新于 2021-02-28 分类于数据阅读次数：
本文字数： 3.2k 阅读时长 ≈ 5 分钟

数据工作中有一类非常重要的角色，那就是数据分析师。为什么这个角色这么重要呢？因为要是没有这个角色，不管一个企业中的数据管理做得有多么好都没用，无法带来实际的价值。这些数据就像是藏在海底的石油，而数据分析师就是开采海底石油的油井设备。要想让石油用于汽车轮船，需要通过这些设备先将海底的石油抽取出来，经过加工处理，提纯。

阅读全文 »

一些企业数据平台建设的思考

发表于 2021-01-21 更新于 2021-02-28 分类于数据阅读次数：
本文字数： 3.5k 阅读时长 ≈ 6 分钟

我最近接触到不少传统行业的客户，他们都希望构建自己的数据平台。其目的大都是希望通过借鉴互联网公司积累的成熟的技术经验，构建自己的数据能力，最终实现数据驱动型企业。

数据平台早已不是什么新鲜事物，甚至在当前大家都在谈论数据中台的时候，还显得有点过时。在我看来，其实大家对于数据中台的认识还处于探索的阶段，并没有形成让行业信服的一致的观点。但一提到数据平台，大家对其应该包含的内容还相对比较清楚。所以，本文尝试选择“数据平台”这个可能有点过时但是相对务实一点的词语来组织内容。这里我不想在概念上谈论太多，无论这个东西是什么，它要解决的企业中的数据问题是明确而具体的。

阅读全文 »

Oracle数据迁移实用入门

发表于 2020-12-27 分类于数据阅读次数：
本文字数： 8.6k 阅读时长 ≈ 14 分钟

在一个大型企业中做数据工作，难免要跟各种不同种类的数据库打交道。Oracle，凭借其优异的性能，曾经是很多大型企业标配商业数据库，自然也是我们要重点应对的一种数据库。

Oracle的数据导入导出是一项基本的技能，但是对于懂数据库却不熟悉Oracle的同学可能会有一定的障碍。正好在最近的一个项目中碰到了这样一个任务，于是研究了一下Oracle的数据导入导出，在这里跟大家分享一下。

阅读全文 »

浅谈企业数据能力建设

发表于 2020-12-03 更新于 2020-12-04 分类于数据阅读次数：
本文字数： 3.7k 阅读时长 ≈ 6 分钟

随着市场的逐步成熟，要想保持企业的长期竞争力，运营和产品改进工作需要越来越精细化。

比如，在游戏行业，玩家留存率是一个关键指标，为提升留存率，需要精细化的分析玩家是哪一步流失的，根据游戏进程推进过程，按照先后顺序设置关键节点，分析各个节点流失情况数据，可以形成一个玩家流失漏斗。有了玩家流失漏斗，我们可以选择流失率高的环节进行进一步精细化分析，找到流失原因，比如机器适配问题，引导缺乏吸引力问题，数值设计问题等，根据这些原因就可以针对性的在产品和运营侧做改进了。

阅读全文 »