0%

前几天,我在跟一位做进口贸易的朋友聊天,发现一个很有意思的事情。

他们做的是国内的高端仪器进口的进口贸易业务。主要帮助销售国外产品的公司完成竞标、合同签订、物流、海关、进口贸易政策符合、维保等等事务。

我很疑惑,为什么会有这样的业务形态存在?为什么这些产品销售公司不自己处理这些事务,反而代理出去让其他公司赚钱呢?

阅读全文 »

ChatGPT刚刚开放API,价格低到没朋友。抛开背后的商业运作,这本身对人类的进步是很大的贡献。

可惜ChatGPT国内的网络环境让大家没法很容易的体验到最新的人工智能成果。

本人利用业余时间,搭建了一个简单的开源项目,可以帮助大家快速的基于微信公众号搭建自己的ChatGPT智能助理。

先上几个聊天截图,大家先睹为快。

阅读全文 »

数据平台的一个重要功能是数据集成。数据集成听起来是要从分布式走向单体,似乎不太符合当前技术领域要尽可能分布式的趋势。

但是,数据集成常常是必要的。这种必要性可能来自于企业战略上希望打破数据孤岛,也可能来自于某些数据分析需要跨业务线跨系统进行。

实现数据集成的一个重要问题是跨系统的数据关联。为什么这个问题如此重要?这还要从企业发展过程说起。

阅读全文 »

随着AI技术的使用日益广泛,在数据平台中进行机器学习建模分析成为了越来越常见的场景。

提到AI技术,不少人会直接联系到近几年特别火的基于人工神经网络的深度学习技术。其实,在企业业务中使用最广泛的还并不是深度学习,这是因为深度学习模型的应用领域常常是图像、音视频、自然语言处理等,而企业期望的应用领域多是销售、营销、客户关系管理等。另一方面,深度学习模型的可解释性比较差,难以从业务角度分析其合理性,这也限制了深度学习的应用。

一些常见的企业AI技术的应用场景示例如下:

阅读全文 »

在上一篇文章《指标计算实践》中,我们分析了指标开发过程,并给出了一些如何复用代码的建议。在一系列指标开发出来之后,如何管理好它们,使之容易访问,并方便的对外提供服务,这是数据平台建设中不得不解决的另一个问题。这里我们将这些问题统一称为指标管理问题。本文希望分享一些相关经验。

阅读全文 »

post structure

有了数据开发测试工具及DWD模型,数据开发看起来可以顺利往前推进了。下一步是数据开发真正产生业务价值的过程,即指标计算。前面的基础建设其实都是为了指标计算能高效高质量的完成。本文将尝试分享一些关于指标计算的实践经验。

在前面的文章数据平台数据管理实践中,我们提到了基础数据层(也常被称为轻度汇总层)。这一层一般以DWB的缩写来表示,其全称是Data Warehouse BasisDWB这样的数据分层是业界常见的数据仓库分层实践,对指标计算有很好的参考意义。

阅读全文 »

数据流水线

在数据平台中进行数据开发时,数据任务流水线是常用于组织各个计算任务的方式。

比如,我们要想完成一个指标计算。第一个数据任务是将数据接入到数据平台,接着,需要一个任务将数据进行初步的数据清洗形成DWD中的数据,然后,下一个任务可能是计算初级汇总数据存入DWB,再然后,需要一个数据任务计算得到最终的指标结果,还有一些后续任务,比如宽表构建,导出到外部数据库中进行大屏展示等。

这一系列的任务需要按照先后关系一步步的完成,于是它们就构成了数据任务流水线。

阅读全文 »

基于数据点的数据分析

在进行数据分析时,常常会有基于数据点的分析需求。

比如,当做好一个客户画像应用的时候,我们可以得到某个客户的所有标签。如何验证这些标签的准确性呢?一个常用的方法是找到这个客户所有的相关数据,然后基于这些数据去验证标签的准确性。这就是基于数据点的分析,这里的数据点是前面提到的“某个”客户。

同样,当开发完指标之后,也可以尝试找出当前指标粒度(比如经销店粒度)下的所有事实及维度数据,从而进行验证。这里的数据点是“某个”经销店。

阅读全文 »

在前一篇文章《数据测试实践》中,我们探讨了数据应用如何做测试的问题。在数据测试中,ETL脚本的测试是个难题。一般而言,采用高集成度的测试方式(即运行ETL并比对结果,下文称集成测试)是更有效的做法。但是,这类测试的编写和维护却有较高的成本。如何降低ETL集成测试的成本呢?本文尝试从数据工具的角度分享一些我们的经验。

阅读全文 »

data testing

在数据平台建设过程中,测试怎么做是一个值得思考的问题。由于数据应用开发和功能性软件系统开发存在很大的不同,在我们实践过程中,在开发人员和质量保证人员间常常有大量关于测试如何实施的讨论。下文将尝试总结一下数据应用开发的特点,并讨论在这些特点之下,对应的测试策略应该是怎么样的。

功能性软件的测试

先来回顾一下功能性软件系统开发中的测试。

阅读全文 »