应用实践 | 海量数据,秒级分析!Flink+Doris 构建实时数仓方案 DATE: 2024-05-08 11:40:24
编者荐语:随着领创集团的应用快速发展,为了满足十亿级数据量的实践数据实时数仓实时报表统计与决策分析,领创集团选择了 Flink + Doris 海量的实时数仓方案 。本篇文章详尽了介绍了此方案的秒级实践过程 。
以下文章来源于领创集团Advance Group,分析方案 作者苏浩
原文链接
:海量数据!构建秒级分析
!应用Flink+Doris构建实时数仓方案
业务背景
Advance Intelligence Group(领创集团)成立于 2016 年 ,实践数据实时数仓是海量一家以 AI 技术驱动的科技集团,致力于通过科技创新的秒级本地化应用,改造和重塑金融和零售行业,分析方案以多元化的构建业务布局打造一个服务于消费者、企业和商户的应用生态圈 。集团旗下包含企业业务和消费者业务两大板块,实践数据实时数仓企业业务包含 ADVANCE.AI 和 Ginee,海量分别为银行、金融 、金融科技 、零售和电商行业客户提供基于 AI 技术的数字身份验证 、风险管理产品和全渠道电商服务解决方案;消费者业务 Atome Financial 包括亚洲领先的先享后付平台 Atome 和数字金融服务 。
2021 年 9 月,领创集团宣布完成超 4 亿美元 D 轮融资 ,融资完成后领创集团估值已超 20 亿美元 ,成为新加坡最大的独立科技创业公司之一。业务覆盖新加坡、印度尼西亚、中国大陆、印度、越南等 17 个国家与地区,服务了 15 万以上的商户和 2000 万消费者。
随着集团业务的快速发展 ,为满足十亿级数据量的实时报表统计与决策分析,我们选择基于 Apache Flink + Apache Doris 构建了实时数仓的系统方案。
Doris 基本原理
Apache Doris 基本架构非常简单,只有 FE(Frontend)、BE(Backend) 两种角色 ,不依赖任何外部组件 ,对部署和运维非常友好 。架构图如下:
FE(Frontend)以 Java 语言为主 。
主要功能职责:
- 接收用户连接请求(MySQL 协议层)
- 元数据存储与管理
- 查询语句的解析与执行计划下发
- 集群管控
FE 主要有有两种角色 ,一个是 Follower,还有一个 Observer ,Leader 是经过选举推选出的特殊 Follower 。Follower 主要是用来达到元数据的高可用 ,保证单节点宕机的情况下,元数据能够实时地在线恢复,而不影响整个服务。
BE(Backend) 以 C++ 语言为主 。
主要功能职责:
- 数据存储与管理
- 查询计划的执行
技术架构
整体数据链路如下图 :