数据处理(ETL)
数据处理(ETL)属于数据集成的增强能力,ETL代表Extract(提取)、Transform(转换)、Load(加载),它涵盖了将数据从一个数据源提取出来,经过各种处理和转换,最后加载到另一个数据源的全过程。在同步任务中,除来源和目的地节点外,我们还提供了四个功能性节点,分别为: 筛选过滤、多表连接、分类汇总、数据合并, 下面将对其进行详细介绍。

筛选过滤
功能说明
“筛选过滤”节点用于对输入数据进行条件过滤。用户可通过单个筛选条件或条件组,仅将满足规则的数据传递到下游节点。
常用场景示例:
-
仅同步订单金额≥100 的订单
-
仅保留状态为“已完成”的记录
-
只同步最近 30 天的数据
操作指引
在任务画布中选择「过滤筛选」节点后,将显示对应配置区域:
-
创建筛选条件:
1)点击 “添加筛选条件”
2.)在新增的条件行中依次选择:
-
字段(例如:order_status、total_amount)
-
运算符(例如:等于、大于、不等于、包含)
-
值(例如:completed、1000)
3)支持添加多个筛选条件用于扁平的条件组合,可调整“且 / 或”逻辑
4)点击保存

-
-
创建条件组
条件组的作用说明:在每条筛选条件之间,系统提供了“且 / 或”逻辑,可用于表达同层级的简单条件组合,例如:
状态 = completed 且 金额 > 1000。此类逻辑适用于扁平的条件组合。
在复杂场景下,可通过条件组实现嵌套逻辑,例如:
(城市 = 北京 OR 上海) AND (金额 > 1000)
这类结构包含多层级逻辑,仅使用单条条件之间的“且 / 或”无法表达。因此系统提供 “条件组”。条件组允许用户先在组内实现一套逻辑,再将组作为整体与其他条件组合,从而构建复杂的嵌套逻辑结构。
1)点击 “条件组”
2)系统会生成一个新的逻辑组
3)在组内添加多个筛选条件,并选择组逻辑:
-
且:所有条件均满足
-
或:任意条件满足即可
4)点击保存,系统会即时展示匹配结果,用户可展开下方结果预览查看预览数据。

-
-
结果预览
当条件配置完成,点击保存,用户可展开下方结果预览查看预览数据,通过预览可以确认条件设置是否符合预期。

多表连接
功 能说明
“多表连接”节点用于将两个或多个数据表按指定字段进行关联,生成一张结构更完整的新表。
用户可以通过不同的连接方式(内连接、左连接等)组合多来源数据,常用于业务数据整合。
常用场景示例
-
将订单表与商品表进行连接,补充商品名称、分类等信息
-
将用户表与订单表按 user_id 对齐,用于做用户维度分析
-
将销售记录与门店信息表关联,补齐门店区域、类型等字段
-
合并多个来源的业务表,统一字段结构用于后续统计
操作指引
在任务画布中选择「多表连接」节点后,将显示对应配置区域:
-
配置连接表:
1)点击“连接方式”下拉菜单,选择所需的连接类型,例如:
-
内连接(INNER JOIN):仅保留双方匹配的记录

-
左连接(LEFT JOIN):保留左表全部记录,右表匹配不到的字段为空

-
右连接(RIGHT JOIN):保留右表全部记录

2)可选择现有数据源或新建数据源。若需多次连接,可添加多个连接节点。
-
-
配置连接条件:
1)在“连接字段”区域点击“添加连接条件”,依次选择连接字段:
-
左表字段(例如:orders.product_id)
-
右表字段(例如:products.id)
2)支持添加多个连接条件用于复合匹配,条件之间可选择 且/或 环节
示例连接: orders.receiver_mobile = users.mobile
-
-
选择输出字段:
连接完成后,用户可选择输出哪些字段:
-
勾选要保留的字段
-
可取消勾选不需要的字段,避免数据冗余
-
字段支持重命名用于后续节点处理
-
-
结果预览:
配置完成后,点击保存,用户可展开下方结果预览查看预览数据,通过预览可以确认条件设置是否符合预期。

-
可在任意节点间,增加“多表连接”;
-
同一数据源同一数据库同一张表,不支持再次添加关联;
-
字段配置中,两个表的字段一起判断不可重复,可通过重命名解决;
-
字段配置中,如果是数据库主键列必选,如果是工作表rowid列必选。
分类汇总
功能说明
“分类汇总”节点用于对数据进行分组统计。用户可按指定字段进行分类,并为每个分类计算统计指标,如总数、求和、平均数、最大值、最小值等。适用于需要将明细数据汇总成统计结果的业务场景,例如:按城市汇总订单金额、按商品统计销量。
常用场景示例
-
按“商品 ID”统计每个商品的销售数量与销售总额
-
按“城市”统计每天的订单数量
-
按“用户 ID”统计用户的订单次数与订单金额
-
按“门店类型 + 城市”多字段分组统计店铺业绩
操作指引
在任务画布中选择「分类汇总」节点后,将显示对应配置区域:

-
选择分类字段(分组依据):
1.)点击“添加分类字段”,从字段列表中勾选用于分组的字段
- 例如:city、product_id、user_id
2.)支持选择多个字段用于多维度分组
- 如:按“城市 + 渠道”进行组合统计,计算每个城市不同渠道的汇总数据

-
设置汇总字段(统计指标):
1)点击“添加汇总字段”,在新增的汇总行中设置:
-
字段(例如:total_amount、order_id)
-
汇总方式(如:计数、去重计数、求和、平 均值、最大值、最小值)
2.)支持添加多个汇总字段

-
-
结果预览:
配置完成后,点击保存,用户可展开下方结果预览查看预览数据,通过预览可以确认条件设置是否符合预期。

-
只有在分类字段和汇总统计字段中添加的字段,才会作为输出参数传递给下一个节点;
-
汇总统计字段中的字段应选择数值类型或可计数字段。
数据合并
功能说明
“数据合并”节点用于将两个数据表的行记录合并到一个数据表中。支持多种合并方式(UNION / UNION ALL / INTERSECT / EXCEPT),可实现去重合并、全量合并、取交集、排除等不同场景。
常用场景示例
-
按月份拆分的订单表(order_01、order_02、order_03…)合并成全年订单总表
-
多个来源系统产生的相同结构数据(如来自不同门店的日报)合并为一个统一表
-
将“应用工作表”的数据与源表数据合并,用于补充或清洗数据
-
从两个来源各取部分数据后,在本节点做统一合并输出
操作指引
在任务画布中选择「数据合并」节点后,将显示对应配置区域:
-
添加第二个要合并的表:
1)点击 “选择数据源” ,来选择/新增数据源;或选中新增的「数据源」节点,选择/新增数据源。

2)需确认两个数据源的表结构一致(字段名、字段类型相同或可以对齐),方便后续字段映射
-
选择合并方式:
在“合并方式”区域,根据业务需求选择一种合并策略:
-
去重合并(UNION):将两个数据源的记录合并后,对完全相同的行去重

-
全部合并(UNION ALL):将两个数据源的记录全部合并,不做去重,适合保留所有明细的场景

-
相交并去重(INTERSECT):只保留两个数据源中都存在的记录,并去重

-
相交(INTERSECT ALL):保留两个数据源中都存在的记录,保留重复次数

-
排除并去重(EXCEPT):保留“数据源 orders 中有,但读取数据源中没有”的记录,并去重

-
排除(EXCEPT ALL):保留“仅在 orders 中存在”的记录,并保留重复次数

-
-
配置字段设置:
1)在“字段设置”区域,系统会按当前页面展示一个字段映射表:
-
左侧数据源中的字段
-
右侧数据源中的对应字段
-
合并后字段:合并之后输出的字段名称
-
类型:字段的数据类型(如 bigint、varchar、decimal 等)
2)勾选需要参与合并输出的字段
3)确认左右两侧映射关系是否正确

-
-
结果预览:
配置完成后,点击保存,用户可展开下方结果预览查看预览数据,通过预览可以确认条件设置是否符合预期。

- 字段配置只有相同名称,相同类型才会合并列。