博客 2022 年数据管理趋势解读!

2022 年数据管理趋势解读!

   数栈君   发表于 2022-01-25 10:03  683  0

采用尖端系统、工具和最佳实践可以增强现代组织的能力、推动业务发展并实现突破。数据行业也不例外,每隔几个月就会出现突破性的创新。


十年前,支持大数据工作负载的分布式数据管理处于争论的前沿。到 2015 年,分布式系统最常使用本地服务器和集群运行,因为将数据迁移到云端才刚刚开始受到关注。就在去年,机器学习开始进入一个使用更简单工具的新时代,训练和运行所需的复杂程度更低。与此同时,BERT 和 GPT-3 等高级自然语言处理工具变得更加主流,产生了令人兴奋的新方法来增强面向语言的应用程序。


数据世界瞬息万变。在 Astronomer,我们看到了微观和宏观趋势的混合,因为我们不仅接近数据管理故事,而且我们通过积极参与开发 Apache Airflow 和塑造数据编排空间来共同编写它。在本文中,我们汇集了来自我们团队的九位专家,他们深入研究了塑造现代数据世界的最突出的趋势和现象。  


关键要点:


  • 数据和数据质量将在每个人的脑海中

  • 数据去中心化将继续存在

  • 数据工具的整合即将到来

  • 请继续阅读以了解更多信息!

  • 数据网格和数据的人为元素

  • 工程中的数据策略

  • 数据血缘和数据质量


数据的价值会随着你对它的了解越多而提高,它就越可靠。通过正确记录和存储数据,以及通过转向可重复的管道和更正式的分析项目来确保可靠性,您可以提高团队的生产力并消除数据孤岛——所有这些都有助于更加专注于为业务提供有用的见解。


数据网格


数据网格有助于消除数据团队之间的孤岛,确保在公司的数据专业人员之间共享有关数据的经验和知识。数据网格还涉及连接这些团队正在使用的平台,以便可以轻松地移动数据以造福于组织。公司将尝试找到更好的方法来统一和连接工具,以便数据专业人员不必在上下文切换和孤岛中工作。数据网格提供了一种方法来管理分散和集中数据资源之间的紧张关系——您在某种程度上分散了,但您有一个通用的基础设施。在 Astronomer,我们相信数据管道在部署以增强整个数据团队的能力时,可以成为实现数据网格架构的重要加速器。


面向分析师的统一 IDE 工具


数据专业人员通常依靠断开连接的工具网络来完成工作,将笔记本与基于语言的 IDE、数据管理界面、数据探索工具、编排界面和电子表格混合在一起。我们希望 IDE 以一种为完成分析工作提供更通用和一致的调色板的方式发展——帮助降低工具之间的上下文切换成本并提高生产力。


将数据置于人类环境中


2000 年代是构建计算资源来处理大数据的时代。2010 年代是关于创造理解数据的技术(例如机器学习或自然语言处理)。我认为这十年将更多地是在人类环境中利用数据。


只看数字会让你一事无成。他们只是从定性数据的角度开始创作故事。这项工作需要更多注释——您必须考虑人为因素(比机器行为更难预测)以增加更广泛的视角并充分利用数据。通过添加上下文,您可以确保您的数据对您的业务、用户和客户有用。


生产和分散数据

Bolke de Bruin,企业数据服务副总裁


今天的企业正在转向相对分散的 DevOps 团队和产品团队。他们有权进行端到端的产品开发。它可以是产品的一部分,但他们保留端到端的责任。他们也可以快速迭代并创建大量数据。中央数据团队无法跟上这一点。它移动得太快了。因此,维护数据集的责任正在从中心团队转移到产品团队。


还值得一提的是数据的生产化。我认为构建可操作、可扩展、可观察和有弹性的数据系统只有在数据本身经过不断发展的迭代产品的努力处理后才有可能。这需要本质上具有数据感知能力的工具。使用Datakin和 Amundsen等工具进行数据发现可以使您的收入增长的数据变得透明。PopMon 和 Great Expectations 等数据质量工具的集成可帮助您监控数据并保持在合规范围内。拥有所有这些东西可以大大加快您的业务流程。


在与 Bolke 的访谈中了解有关数据未来的更多信息。


通过与领域专家合作实现工具的专业化

Santona Tuli,员工数据科学家


今天的无/低代码解决方案承诺从数据专业人员那里抽象出大部分数据动态和 ML 管道,但这会造成领域专业知识的明显缺乏。我们将看到在数据空间中向更多涉及但也更专业和高性能的工具转变。这些将允许数据专业人员带来的领域专业知识来丰富数据作为产品和数据支持的产品。换句话说,去中心化、多才多艺和授权的团队,而不是表面上全面的工具,将有助于从数据中释放价值。


特别是在新兴的数据质量领域,工具将不断发展并支持数据专业人员对数据进行的广泛探索和取证研究,而不是试图用自动化的“整体”数据质量解决方案取代它们,这些解决方案由于矛盾而必然低于标准。宪章的性质。如今,自动化基本数据质量检查很容易——例如确保列内数据类型的一致性——但对聚合数据和底层分布的检查需要具有深厚领域知识和统计理解的人员。


在不久的将来,专业工具将合并成一个综合生态系统,在这个生态系统中,数据将作为一流的实体蓬勃发展,由授权的数据专业人员共同管理。


Jarek Potiuk,Apache Airflow PMC 成员和提交者,Astronomer 技术顾问


我们将看到更多与数据相关的工具。例如,为特定用例设计的更专业的数据库。我们已经有一个时间序列数据库(用于处理随时间变化的数据)或一个图形数据库(用于存储有关数据点之间关系的信息)。虽然他们过去没有受到太多关注,但这种情况可能会在 2022 年发生变化。


这将带来一些新的挑战,因为大多数企业都有不止一个用例,这意味着数据团队将需要不止一个数据库(或至少不止一种与数据交互的方式)。他们必须有效地连接他们的数据库,组合数据,以统一的方式呈现,并得出准确的结论。


数据库只是其中一个例子。市场上有如此多的新工具、产品和服务,数据专业人员需要能够以统一的方式进行连接,即使他们来自不同的生态系统。好消息是 Apache Airflow 作为一个完全可定制的编排器,可以充当粘合剂,使系统能够顺利通信。


数据管理:作为互连流程网络的 MLOps、DataOps 和数据管道

Steven Hillion,数据和机器学习副总裁


组织正在更加紧迫地看待数据编排,并意识到这是其运营基础架构的关键部分。他们需要管理数据、了解数据之间的关系、解决问题并将运营分析交付给业务的第一线。


与使用 cron 作业、Control-M 和一次性解决方案来调度数据管道不同,当今的公司需要将编排视为运行业务的基本组成部分,并将数据管道的概念视为互连进程的网络(相反到由不同技术和独立团队管理的数据管道)。


此外,越来越多的公司将数据管理与 MLOps 集成在一起。我们可以看到 DataOps 和 MLOps 团队齐心协力,创建从原始摄取、特征生成到模型训练和模型监控的管道。这是向数据管道和模型的综合生态系统发展的趋势。在 Astronomer,我们亲眼目睹了这一点——我们最成熟的客户是将 Airflow 视为单一数据管理生态系统的一部分——从数据到模型再到行动。


Kenten Danas,现场工程师


我认为在 2022 年,人们将更加关注简化数据管理工具的采用。数据生态系统是庞大的,并且随着针对某些用例开发出更专业的工具而继续增长,并且要求数据工程师深入精通所有这些是不合理的要求。我们从 Airflow 社区听到的主要担忧之一是,当有人离开团队时,他们会失去运行数据管道的关键知识。我相信我们会看到很多工作来降低使用常用工具的进入门槛,以及努力让不同的工具更无缝地协同工作,以便任何具有数据工程背景的人都可以弄清楚如何将它们结合在一起适合他们团队的技术堆栈。  


与 Airflow 相关的一个趋势可能会在明年继续,那就是提供商网络的扩展——我们将与通用工具更好地集成,这些工具在今天可能通过一些变通方法成为可能,但尚未处于理想状态。


数据血缘和数据质量

Pete DeJoy,创始团队,产品


值得一提的一件事是围绕数据血缘的所有活动。包括“现代数据堆栈”在内的寒武纪工具爆炸式增长,以及在整个组织中对嵌入式、分散式数据资源的推动,使得拥有数据资产生命周期的统一、端到端视图变得比以往任何时候都更加重要。


如果您在 Snowflake 中有一个每天由十个独立进程(Airflow、dbt、BI 查询等)更新的报告视图,并且其中一个作业失败,则下游仪表板和报告将建立在“坏数据”之上。通过资产优先的视角观察世界是通过流程优先的视角观察世界的自然下一步;如果您对所有数据资产和针对它们运行的流程有一个单一的管理平台,您可以快速轻松地追踪对数据质量产生不利影响的上游故障。归根结底,我们都想放心,我们的执行 KPI 报告和仪表板并没有因为供应链中某个难以处理的故障而被悄无声息地损坏。OpenLineage背后的人正在做一些非常棒的工作,以构建与各种编目和血缘系统集成的数据血缘收集的标准规范和框架。


另一个有趣的地方是围绕数据质量的讨论。Airflow 和其他流程驱动的编排系统非常擅长监控您的流程状态,但您可能希望更深入地了解您正在摄取的数据是否适合某个置信区间。这种公开允许您围绕验证和质量检查构建系统,因此您可以放心,您向 CEO 展示的仪表板不是由损坏的数据构建的。Great Expectations是一个在这个领域进行研究的工具。如果您有兴趣将质量检查烘焙到您的 Airflow DAG,  我们还支持通过我们的提供商与其库进行一流的集成。


Paola Peraza Calderon,创始团队,产品


如果我们从过去 10 年软件和数据的演变中学到了什么,那就是我们在数据之旅中的时间将远远超过我们将软件工程作为一门学科明显无处不在的时间。看看a16z 的 Martin Casado 和DBT Labs Coalesce的 Tristan Handy 之间的对话。从数据中提取价值的一般需求可以说更像是哲学而不是工程——如此复杂、分层和人性化,我们将在很长一段时间内构思、构建和重建系统。这很令人兴奋,这意味着我们都在建立职业生涯,并有望获得一些重大的长期收益。


鉴于此前提,我认为我们的技术打破壁垒的压力只会在 2022 年继续增长。这可能意味着几件事:


数据编排将继续处于现代数据堆栈的中心。如果没有调度程序,您的系统就会崩溃。如果没有数据编排,就不可能提及数据质量、数据治理和数据血缘。


工具之间更紧密的集成。数据从业者会期望将 Apache Airflow 与 DBT、Datakin、Snowflake、Datadog 和任何类型的数据库一起使用实际上很容易。在 Astronomer,我们每天都会进行数十次对话,例如“我如何使用 Astronomer 和 [insert-most-things-here]?” 或“我尝试安装此库的 x 版本,但它不适用于 [insert-a-lot-of-things-here]。” 产品领导者——数据工具不能孤立地工作。兼容性、文档和可访问性将是关键。


强大、公平的开发者社区在 Slack、面对面会议和其他方面的持续重要性,这为不和谐和富有成效的分歧提供了空间,同时让我们(和我们的工作描述)朝着同一个大方向前进。


这一切并不意味着一种工具将“统治一切”或角色专业化将消失——这只是意味着我们将构建和使用必须相互交谈并使用相同语言的复杂技术。开源和开放标准使这一承诺更加引人注目和可行。


数据可见性和治理

Maggie Stark,数据工程师


将更加关注数据可见性和治理。查看数据的历史以及分析模型(机器学习模型通常晦涩难懂)将变得至关重要。尤其是现在,当制定了法规来正确跟踪和使用数据时,如果您无法判断计算机对您的数据做了什么,那么这些法规将变得更加难以遵循。该行业在优化数据方面做了很多工作——如何存储和分析数据。现在是时候专注于扩展数据质量、可见性和可解释性实践了。最终,通过了解数据更改的方式、时间和原因来更好地理解数据,可以创建更丰富、更完整的图景,从而做出更好、更明智的决策。


Astronomer 提供了一个现代数据编排平台,使整个数据团队能够构建、运行和观察由 Apache Airflow 提供支持的数据管道。与世界各地的数据驱动型组织合作,我们已经看到了编排的力量,可以通过可选性来拥抱这些新兴趋势。联系我们,进一步讨论编排如何在 2022 年加速您的数据战略。


免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群