0%

新的一期技术雷达如期发布,仔细阅读了这一期的所有条目,CUPID这一条尤其让我产生共鸣。

CUPID出自Daniel的一篇名为《CUPID—for joyful coding》的博文,即《CUPID-为了快乐编程》。CUPID是Composable/Unix philosophy/Predictable/Idiomatic/Domain based几个单词的缩写,有经验的同学一看就知道这是好代码的一些属性。知道Cupid这个单词的同学还能感受到这一组属性所蕴含的对于软件工程的热情。Cupid的中文是丘比特,是指古罗马的爱神,其意象是一个长有翅膀的小孩,拿着弓箭射向人们,以便人们可以相互爱上对方。

CUPID for joyful coding

阅读全文 »

前段时间,咱们CTO八叉在极客时间做了一次关于用Smart Domain实现DDD的分享(点击这里回看)。一个新词Smart Domain进入大家的视野。

Smart Domain解析

Smart Domain是啥?为什么可以用Smart Domain实现DDD?本文尝试结合以往对DDD的学习和实践的经验,跟大家分享一下个人的理解。

八叉在分享中提到Smart Domain这个名字来源于Smart UI。我们都知道Smart UI是DDD中提到的一种反模式,只能用于解决简单问题。这里的命名略带反讽戏谑的意味。

阅读全文 »

前面的文章《我理解的Smart Domain与DDD》中,我们分析了 Smart Domain 的设计,尝试回答了为什么 Smart Domain 可以用于实现 DDD,并对Smart Domain和DDD进行了一些扩展性的讨论。

虽然 Smart Domain 作为一种设计范式,可以辅助我们实现 DDD。但是具体到真实项目中,建模这个过程还得结合实际的领域问题,深入思考,大量尝试,大声建模,才能得到好的模型。有哪些值得参考的案例呢?下面分享几个个人在项目中觉得还不错的建模实践。

阅读全文 »

在最近的一个客户项目上,为了做性能优化,我们花了大量的时间,然而最终结果还是不够理想。我们的场景是实现特征处理过程和机器学习模型线上推理服务。由于用户量巨大,我们需要做到2万的TPS,每个请求需要在30ms内返回,且每个请求中包括对1000个项目的处理过程。

我们所使用的技术栈是springgrpc。在经过极致的代码优化及内存调优之后,运行在一台32GB内存64核CPU的服务器上,我们发现90%的请求可以在25ms完成。但是如果观察99%的分位线时,响应时间就下降到了70ms,有时候还可能超过100ms

为什么会出现上面这么明显的波动呢?问题出在javagc上。其实对于gc,我们已经非常仔细的做过调优了,整个过程没有full gc的发生。然而,在持续的压力测试下,javayoung gc却在频繁的工作。由于处理的数据量过大,新生代的gc几乎每秒都会触发一次,每次释放5GB内存,耗时30ms左后。

阅读全文 »

在前面的文章中提到我们在一个高性能场景中尝试了rust,那么它的效果如何呢?

在这次rust的尝试中,我们实现了一个通用的特征数据处理框架,并实现了几个常用的算子。这个数据处理框架目标是实现 Spark ML pipeline 的在线计算,为机器学习模型的在线推理场景提供特征处理。

我们选用了两个rustgrpc框架对外提供服务。它们分别是grpctonic,前者是基于线程池的实现,后者是基于rust异步模式async/await的实现。实验过程发现两者性能相差不大,tonic稍好,快2ms左右(不到5%),这可能是由于其数据结构设计更为精简带来的。

为了更有参考性,我们直接进行端到端的测试(用grpc客户端发起请求,在客户端采集数据),并与scala版本的实现进行性能对比。下面的结果中,服务端应用均部署在同一台64核心+32GB内存的服务器上,客户端也在此服务器上发起请求。由于数据处理的逻辑一致,客户端使用同一个java版本的实现。

阅读全文 »

作为一个非专业c/c++开发人员,相信很多人跟我一样,常常会在跟c/c++打交道时碰到困难。然而,我们所使用的很多底层的库或软件,却有大量是用c/c++编写而成。所以,了解一些基本的c/c++知识对于非专业c/c++开发人员将非常有帮助。

在下面这些典型的场景中,我们可能会需要用到这些知识:

  • 当由于平台需要,我们需要自己编译某些c/c++项目
  • 当需要在非c/c++程序里面进行少量的c/c++开发,并与c/c++代码交互
  • 遇到一些常见的库找不到、版本不兼容等问题

本文尝试总结一下基本的c/c++知识,包括常见的平台、静态库/动态库的原理、基础编译指令等。并将结合一些实例来加深理解。

阅读全文 »

一个项目越复杂,架构的作用就越显得重要。这就跟收拾家里面的东西一样,如果我们只有为数不多的几件物品,即便我们随意摆放,也不会妨碍我们找到想要的东西。但是随着购置的物品越来越多,如果不设置一套摆放规则,那么想找到东西就可能会花费大量的时间,效率低下。在我看来,架构就像这样一套摆放东西的规则。规则设置得好,屋子里面的东西将摆放得井井有条,我们的生活不仅将更高效也将更舒适顺心。

在最近的一个项目上,我们和客户一起建设了一个机器学习平台。对于某一个机器学习项目,最重要的四个部分是特征处理,模型探索,模型训练与模型推理。构建一个平台的目的是将这四个部分中通用的能力沉淀下来。一个成功的平台可以为新的机器学习项目提供基础设施,让项目快速起步,还可以使得项目组更专注在模型优化上而提升模型迭代效率。

阅读全文 »

随着系统功能越来越多,系统的配置也越来越多,配置管理成为了一个重要的问题。做过线上运维的同学们一定对配置的复杂性有深刻体会,多少次加班都是因为一个配置不对而导致系统无法正常工作!配置问题由于难以建立有效的自动化测试而难以检测,常常使得我们不得不花费数小时甚至数天来调试才能找到配置上的问题。

对于分布式计算,这个问题变得更加突出了,熟悉分布式大数据处理的同学们对于分布式任务的复杂配置一定深有感触。分布式系统本身的复杂性常常使得单个组件的配置就有上百个。而在微服务架构流行的当下,我们的系统越来越多以分布式的形式出现,系统的配置管理问题也越来越突出。

本文尝试分享一下我们在构建机器学习平台时对于配置管理方面的设计实践。

阅读全文 »

面向对象的程序设计思想多年来一直是我们进行软件设计的有效的指导思想。由于我们天生理解大自然的机制就是面向对象的(比如我们到了某一个商店,我们会看到门店、售货员、货架、货架上的货物等等,这些都是一个一个的对象,我们认识整个商店也就是去认识商店中的每个对象。),而面向对象程序设计思想恰好与这一机制相一致,所以一个面向对象设计做得好的系统就很容易为我们所理解。

对于一个机器学习平台,应该如何实践面向对象程序设计思想呢?

面向对象的抽象

回顾前面两篇文章的内容,机器学习平台具备这样的架构:

阅读全文 »

在当下很多的应用场景中,我们常常会想要应用具有一定的灵活性,以便我们可以在线调整计算逻辑,而不需要重新发布应用。这可能也可以称为以极限的速度发布软件的方式。

AB测试可以说解决了一部分这样的需求,使得我们可以在线的针对部分用户改变应用的行为。但AB测试需要我们预先定义并实现两套逻辑,然后通过线上配置来应用不同的逻辑。显然,在可自定义的程度上,AB测试是非常弱的。如果我们想要更大规模的调整应用的逻辑,AB测试就不够了。

阅读全文 »