2008 年我在我的第一份工作(Ask.com)中开始使用 Hadoop。当时是因为昂贵的 Oracle 集群无法处理不断增加的分析工作量,公司不得不切换到 Hadoop。随后在 Twitter 担任数据工程师的第二份工作中,我在第一线参与并推动了如何使用数据给几乎所有 Twitter 的产品赋能(与其称之为“大数据”,我更愿意简单称之为“数据”)。自 2008 年以来,我亲眼目睹了数据的力量,以及见证了它如何改变世界。如果你阅读过有关剑桥分析公司如何影响 2016 年美国大选的文章,那么你会感受到这种改变所带来的非凡意义。
然而,自流行词“大数据”出现 10 多年后,大数据似乎只对少数公司有用。在硅谷,几乎所有的独角兽企业都广泛使用大数据来推动他们的成功。在中国,像 BAT 这样的公司已经掌握了大数据的艺术,同时我们也有像字节跳动这样主要以大数据技术为基础的超级独角兽公司,但是仍然有很多关于大数据是如何难以使用的笑话。并且令人遗憾的事实是,对于大多数公司来说,大数据要么仍然是流行词,要么的确是难以实现。幸运的是,一门新学科正在崛起,是解开普通公司数据能力的关键,它就是 DataOps。
与 DevOps 明显相似的名称,以及与 DevOps 类似的软件开发角色,是数据工程师希望简化数据的使用并真正实现以数据来驱动企业成功的方法。今天,我们将简要介绍 DataOps 以及为什么它对每个想要从数据中获取真正价值的公司都很重要。
在维基百科上,DataOps 的定义是:
DataOps 是一种面向流程的自动化方法,由分析和数据团队使用,旨在提高质量并缩短数据分析的周期时间。
维基百科上的 DataOps 页面在 2017 年 2 月创建,其中详细介绍了这一新学科。DataOps 的定义肯定会随着时间的推移而发展,但其关键目标非常明确:提高数据分析的质量并缩短数据分析的周期。
在 2018 年的 Gartner 数据管理软件技术成熟度曲线中,DataOps 第一次出现在“Innovation Trigger”初始阶段。在 2021 年的曲线中,DataOps 已经快速发展到“Peak of Inflated Expectation”边缘了。同时,硅谷已经出现了一批以 DataOps 理念为核心打造数据产品的创业公司并得到了风险投资的大力支持,比如以集成开发为核心的 FiveTran 和 AirBytes,以 SQL 开发管理为核心的 DBT, 以调度为核心的 Astronomer 等等。
DataOps 可以降低数据分析的门槛,但是它并不会使数据分析变成一项简单的工作。实施成功的数据项目仍然需要大量工作,例如深入了解数据和业务的关系,良好的数据使用规范以及一个公司的数据驱动的文化培养。不过,DataOps 将极大地提高人们使用数据的效率并降低使用数据的门槛,公司可以更快、更早、更好地开始使用数据,并且成本和风险更低。
大数据的大多数应用可以分类为 AI(人工智能)或 BI(商业智能)。此处的 AI 是指广义的人工智能功能,包括机器学习、数据挖掘以及其他从数据中获取以前未知知识的技术。BI 则是更多地使用统计方法将大量数据汇总到更简单的报告,供人们理解。简而言之,AI 使用各种数据算法来计算新的东西,BI 则是统计人们可以理解的数字。
编写 AI / BI 程序并不难。你可以在几个小时内设置一个 TensorFlow 的人脸识别程序。或者使用 Matlab 绘制一些数据,甚至使用 Excel 也并不难实现这个目的。问题在于,要实际使用生产结果来支持面向用户的产品或根据这些神奇的数字来决定公司的命运,你需要的不仅仅是手动工作。