Skip to main content

数据处理(ETL)

数据处理(ETL)属于数据集成的增强能力,ETL代表Extract(提取)、Transform(转换)、Load(加载),它涵盖了将数据从一个数据源提取出来,经过各种处理和转换,最后加载到另一个数据源的全过程。在同步任务中,除来源和目的地节点外,我们还提供了四个功能性节点,分别为: 筛选过滤、多表连接、分类汇总、数据合并, 下面将对其进行详细介绍。


筛选过滤

功能说明

“筛选过滤”节点用于对输入数据进行条件过滤。用户可通过单个筛选条件或条件组,仅将满足规则的数据传递到下游节点。

常用场景示例:

  • 仅同步订单金额≥100 的订单

  • 仅保留状态为“已完成”的记录

  • 只同步最近 30 天的数据

操作指引

在任务画布中选择「过滤筛选」节点后,将显示对应配置区域:

  1. 创建筛选条件

    1)点击 “添加筛选条件”

    2.)在新增的条件行中依次选择:

    • 字段(例如:order_status、total_amount)

    • 运算符(例如:等于、大于、不等于、包含)

    • (例如:completed、1000)

    3)支持添加多个筛选条件用于扁平的条件组合,可调整“且 / 或”逻辑

    4)点击保存

  2. 创建条件组

    条件组的作用说明:

    在每条筛选条件之间,系统提供了“且 / 或”逻辑,可用于表达同层级的简单条件组合,例如:

    状态 = completed 金额 > 1000。此类逻辑适用于扁平的条件组合。

    在复杂场景下,可通过条件组实现嵌套逻辑,例如:

    (城市 = 北京 OR 上海) AND (金额 > 1000)

    这类结构包含多层级逻辑,仅使用单条条件之间的“且 / 或”无法表达。因此系统提供 “条件组”。条件组允许用户先在组内实现一套逻辑,再将组作为整体与其他条件组合,从而构建复杂的嵌套逻辑结构。

    1)点击 “条件组”

    2)系统会生成一个新的逻辑组

    3)在组内添加多个筛选条件,并选择组逻辑:

    • :所有条件均满足

    • :任意条件满足即可

    4)点击保存,系统会即时展示匹配结果,用户可展开下方结果预览查看预览数据。

  3. 结果预览

当条件配置完成,点击保存,用户可展开下方结果预览查看预览数据,通过预览可以确认条件设置是否符合预期。


多表连接

功能说明

“多表连接”节点用于将两个或多个数据表按指定字段进行关联,生成一张结构更完整的新表。

用户可以通过不同的连接方式(内连接、左连接等)组合多来源数据,常用于业务数据整合。

常用场景示例

  • 将订单表与商品表进行连接,补充商品名称、分类等信息

  • 将用户表与订单表按 user_id 对齐,用于做用户维度分析

  • 将销售记录与门店信息表关联,补齐门店区域、类型等字段

  • 合并多个来源的业务表,统一字段结构用于后续统计

操作指引

在任务画布中选择「多表连接」节点后,将显示对应配置区域:

  1. 配置连接表:

    1)点击“连接方式”下拉菜单,选择所需的连接类型,例如:

    • 内连接(INNER JOIN):仅保留双方匹配的记录

    • 左连接(LEFT JOIN):保留左表全部记录,右表匹配不到的字段为空

    • 右连接(RIGHT JOIN):保留右表全部记录

    2)可选择现有数据源或新建数据源。若需多次连接,可添加多个连接节点。

  2. 配置连接条件:

    1)在“连接字段”区域点击“添加连接条件”,依次选择连接字段:

    • 左表字段(例如:orders.product_id)

    • 右表字段(例如:products.id)

    2)支持添加多个连接条件用于复合匹配,条件之间可选择 且/或 环节

    示例连接: orders.receiver_mobile = users.mobile

  3. 选择输出字段:

    连接完成后,用户可选择输出哪些字段:

    • 勾选要保留的字段

    • 可取消勾选不需要的字段,避免数据冗余

    • 字段支持重命名用于后续节点处理

  4. 结果预览:

    配置完成后,点击保存,用户可展开下方结果预览查看预览数据,通过预览可以确认条件设置是否符合预期。

❗❗注意事项
  • 可在任意节点间,增加“多表连接”;

  • 同一数据源同一数据库同一张表,不支持再次添加关联;

  • 字段配置中,两个表的字段一起判断不可重复,可通过重命名解决;

  • 字段配置中,如果是数据库主键列必选,如果是工作表rowid列必选。


分类汇总

功能说明

“分类汇总”节点用于对数据进行分组统计。用户可按指定字段进行分类,并为每个分类计算统计指标,如总数、求和、平均数、最大值、最小值等。适用于需要将明细数据汇总成统计结果的业务场景,例如:按城市汇总订单金额、按商品统计销量。

常用场景示例

  • 按“商品 ID”统计每个商品的销售数量与销售总额

  • 按“城市”统计每天的订单数量

  • 按“用户 ID”统计用户的订单次数与订单金额

  • 按“门店类型 + 城市”多字段分组统计店铺业绩

操作指引

在任务画布中选择「分类汇总」节点后,将显示对应配置区域:

  1. 选择分类字段(分组依据)

    1.)点击“添加分类字段”,从字段列表中勾选用于分组的字段

    • 例如:city、product_id、user_id

    2.)支持选择多个字段用于多维度分组

    • 如:按“城市 + 渠道”进行组合统计,计算每个城市不同渠道的汇总数据

  2. 设置汇总字段(统计指标):

    1)点击“添加汇总字段”,在新增的汇总行中设置:

    • 字段(例如:total_amount、order_id)

    • 汇总方式(如:计数、去重计数、求和、平均值、最大值、最小值)

    2.)支持添加多个汇总字段

  3. 结果预览:

    配置完成后,点击保存,用户可展开下方结果预览查看预览数据,通过预览可以确认条件设置是否符合预期。

❗❗注意事项
  • 只有在分类字段和汇总统计字段中添加的字段,才会作为输出参数传递给下一个节点;

  • 汇总统计字段中的字段应选择数值类型或可计数字段。


数据合并

功能说明

“数据合并”节点用于将两个数据表的行记录合并到一个数据表中。支持多种合并方式(UNION / UNION ALL / INTERSECT / EXCEPT),可实现去重合并、全量合并、取交集、排除等不同场景。

常用场景示例

  • 按月份拆分的订单表(order_01、order_02、order_03…)合并成全年订单总表

  • 多个来源系统产生的相同结构数据(如来自不同门店的日报)合并为一个统一表

  • 将“应用工作表”的数据与源表数据合并,用于补充或清洗数据

  • 从两个来源各取部分数据后,在本节点做统一合并输出

操作指引

在任务画布中选择「数据合并」节点后,将显示对应配置区域:

  1. 添加第二个要合并的表:

    1)点击 “选择数据源” ,来选择/新增数据源;或选中新增的「数据源」节点,选择/新增数据源。

    2)需确认两个数据源的表结构一致(字段名、字段类型相同或可以对齐),方便后续字段映射

  2. 选择合并方式:

    在“合并方式”区域,根据业务需求选择一种合并策略:

    • 去重合并(UNION):将两个数据源的记录合并后,对完全相同的行去重

    • 全部合并(UNION ALL):将两个数据源的记录全部合并,不做去重,适合保留所有明细的场景

    • 相交并去重(INTERSECT):只保留两个数据源中都存在的记录,并去重

    • 相交(INTERSECT ALL):保留两个数据源中都存在的记录,保留重复次数

    • 排除并去重(EXCEPT):保留“数据源 orders 中有,但读取数据源中没有”的记录,并去重

    • 排除(EXCEPT ALL):保留“仅在 orders 中存在”的记录,并保留重复次数

  3. 配置字段设置:

    1)在“字段设置”区域,系统会按当前页面展示一个字段映射表:

    • 左侧数据源中的字段

    • 右侧数据源中的对应字段

    • 合并后字段:合并之后输出的字段名称

    • 类型:字段的数据类型(如 bigint、varchar、decimal 等)

    2)勾选需要参与合并输出的字段

    3)确认左右两侧映射关系是否正确

  4. 结果预览:

    配置完成后,点击保存,用户可展开下方结果预览查看预览数据,通过预览可以确认条件设置是否符合预期。

❗❗注意事项
  • 字段配置只有相同名称,相同类型才会合并列。