在前文《数据仓库建模实践》中,我们提到了在确定DWD
层的构建原则之后,可以通过开发数据建模工具来辅助实现。这样的工具应该设计成什么样子呢?
建模工具的基本方案
建模工具的特点
一个理想的建模工具应该具备良好的易用性和灵活性。
在前文《数据仓库建模实践》中,我们提到了在确定DWD
层的构建原则之后,可以通过开发数据建模工具来辅助实现。这样的工具应该设计成什么样子呢?
一个理想的建模工具应该具备良好的易用性和灵活性。
在前面的文章《数据应用开发语言和环境》中我们建议使用SQL
来作为主要数据开发语言,并且,通常我们需要对标准的SQL
进行增强,以便可以更好的支持复杂的数据开发。一些典型的需要新增的特性可以是变量、控制语句、模板等。
增强SQL
固然是可以解决我们的数据开发问题,但是它也会给我们带来一些其他的不便。第一个烦恼可能就是,标准的SQL
可以在很多数据工具中运行,比如Superset
的SQL
查询器、Hive
的查询控制台等,而使用增强语法的SQL
编写的代码则不行。由于我们将标准的SQL
增强了,而SQL
周边生态工具却无法感知这样的增强,这时各种不便就随之而来了。
有了数据开发测试工具及DWD
模型,数据开发看起来可以顺利往前推进了。下一步是数据开发真正产生业务价值的过程,即指标计算。前面的基础建设其实都是为了指标计算能高效高质量的完成。本文将尝试分享一些关于指标计算的实践经验。
在前面的文章数据平台数据管理实践中,我们提到了基础数据层(也常被称为轻度汇总层)。这一层一般以DWB
的缩写来表示,其全称是Data Warehouse Basis
。DWB
这样的数据分层是业界常见的数据仓库分层实践,对指标计算有很好的参考意义。
随着AI技术的使用日益广泛,在数据平台中进行机器学习建模分析成为了越来越常见的场景。
提到AI技术,不少人会直接联系到近几年特别火的基于人工神经网络的深度学习技术。其实,在企业业务中使用最广泛的还并不是深度学习,这是因为深度学习模型的应用领域常常是图像、音视频、自然语言处理等,而企业期望的应用领域多是销售、营销、客户关系管理等。另一方面,深度学习模型的可解释性比较差,难以从业务角度分析其合理性,这也限制了深度学习的应用。
一些常见的企业AI技术的应用场景示例如下:
数据平台的一个重要功能是数据集成。数据集成听起来是要从分布式走向单体,似乎不太符合当前技术领域要尽可能分布式的趋势。
但是,数据集成常常是必要的。这种必要性可能来自于企业战略上希望打破数据孤岛,也可能来自于某些数据分析需要跨业务线跨系统进行。
实现数据集成的一个重要问题是跨系统的数据关联。为什么这个问题如此重要?这还要从企业发展过程说起。