贝壳找房商业化广告中台技术负责人甘罗,将在《基于 Kafka Connect 的低代码平台实战》小册中,带你从0到1,搭建一个工业级可用的异构数据双向流式处理平台。
作者介绍
甘罗,贝壳找房商业化广告中台技术负责人,主要负责商业化广告中台相关研发和管理工作。主导过广告物料数据存储引擎统一和检索重构,从0到1搭建日均处理10亿+数据量级的、支持多种异构数据双向流式处理平台
。现在,整体C端广告流量分发核心服务可用性5个9,平稳承载贝壳C端日均10亿+广告流量分发的流量洪峰。
曾先后任职于蘑菇街、腾讯、火币集团,擅长电商交易和营销、社交内容、数字货币高频交易多领域核心研发和基础架构工作。
🚀 十亿量级数据治理面临的挑战
在大数据时代下,我们经常需要从海量的数据中精准地筛选出需要的数据。最开始,我们需要处理的数据在百万甚至是更低的量级。这种情况下,主流的离线计算和实时计算的数据处理方案,在性能方面的表现是非常稳定的。
但随着时代的飞速发展,处理数十亿级数据量的情况越来越普遍,而大多数公司的数据同步和清洗技术手段还比较传统,存在延迟高、吞吐低、性能差等一系列问题。这就导致,服务的整体技术架构将会面临可用性和稳定性的挑战。
比如说,业务方给你提了一个诉求:请将存储在 MySQL、MongoDB中的数十亿离线数据同步到 Kafka 中,以供我们实时消费。那么你可能需要开发监听 MySQL Binlog / MongoDB Oplog 的服务,实现把 MySQL / MongoDB 中的海量数据迁移到 Kafka 集群,同时还要保证数据一致性。
如果业务方的需求变为将 Hive 中的离线数据同步到 Kafka 中,以供实时消费呢?此时,你可能需要使用 MapReduce 或 Spark 进行离线数据批转流处理,如果是海量数据,数据的一致性和容错机制很难保证。
我们将可能遇到的挑战归纳为 4 种场景:
- 有海量数据同步和清洗诉求,但是不懂 MapReduce / Spark / Flink,或不想依赖很重的中间件;
- 有多种异构数据源的数据同步和清洗诉求,但是不想每次都有开发量,缺乏规模可扩展性和可重用性;
- 有多种异构数据源的数据同步和清洗诉求,但是缺乏异常容错管理和任务执行状态监控体系;
- 有海量数据同步和清洗诉求,但是不想投入很多机器计算资源,或不想做复杂中间件集群运维工作。
面临上述问题,Kafka Connect 一定是你的不二选择。
🔥 Kafka Connect 的优势
简单来说,Kafka Connect 是 Apache Kafka 的一部分,主要是为其他外部数据存储系统和 Kafka 提供流式集成的数据通道。
Kafka Connect 天然支持在异构数据源(MySQL、MongoDB、Elasticsearch、Kafka)下,让离线数据(批数据)转实时流(Kafka)或者反向的流转批,还提供了在 Data Pipline(数据同步管道)上的处理能力,让开发者在数据管道中对实时数据进行结构化的清洗,具备高度的灵活性。
作者甘罗带领的团队,就在2020年基于 Kafka Connect 自建了异构数据双向流式同步服务,它运行着 100+ Source 和 Sink Connectors 集群,覆盖 MySQL、MongoDB、Hive、Elasticsearch、Kafka 多种异构存储引擎,日均处理离线和实时数据量级 10+ 亿。
此外,他们还定制开发了 Kafka Connect 集群控制台,除了满足日常 Connectors 集群管理,还实现了数据同步任务从异构数据接入,到选择数据清洗规则,再到选择写入数据源的全流程自助接入,真正实现了零开发即可新建异构数据流式同步 Connectors 集群。
在这个过程中,他们总结了很多最佳实践,作者甘罗非常想在小册中把它们分享给大家。
🏆 学习小册,你能得到哪些提升?
小册将划分为7个模块,从当前主流的各种数据同步框架选型,到基于 Kafka Connect 开源生态到搭建新的数据流式双向同步新架构,再到定制开发异构数据双向流式同步 Connector 组件。
最终,你不仅能收获一个工业级可用、可伸缩扩展、易接入维护的支撑日均处理数十亿级海量异构数据的双向流式处理平台
,还能在面对海量数据的同步和清洗工作时,更加游刃有余!
更详细点来说,你将收获:
- 面对海量异构数据的通用流式处理技术方案和架构设计
- 一个工业级可用、可扩展、易维护的多种异构数据双向流式处理平台
- Kafka Connect、CDC机制、Data Routing & Pipeline 等技术栈的底层原理和生产实战
- 掌握 Source 和 Sink Connectors 架构剖析和扩展开发能力
- 掌握 Transforms 的架构设计理念,并能定制开发轻量级 ETL 组件
- 掌握基于 JMX、Prometheus Exporter、Grafana 一站式的指标收集和监控体系搭建
最后,如果你想要精通或提升离线和实时数据同步和处理能力
,想要掌握 Kafka 核心特性、MySQL 和 MongoDB 底层存储机制、CDC架构的理念和适用场景、Elasticsearch 分片/路由/管道等高阶操作、通用的数据ETL组件和框架等进阶技能,那这本小册你一定不要错过!
上新优惠5折,限时14.95元
,戳链接即可购买:sourl.cn/cHk2xT
🎤 名人推荐
本文转载自: 掘金