助睿 ETL 入门实验:订单利润分流数据加工完整记录

本文记录“实验一:订单利润分流数据加工”的完整过程。实验目标是在助睿数智/Uniplore 数据集成平台中,通过零代码拖拽方式读取订单表和产品表,完成左外连接、字段清理、利润分流,并最终导出盈利订单和亏损订单两个 Excel 文件。

一、实验目标

本次实验主要练习助睿数据集成平台中的基础 ETL 操作,包括:

  • 新建转换流
  • 添加并配置表输入组件
  • 使用记录集连接组件完成多表关联
  • 使用字段选择组件移除重复字段
  • 使用过滤记录组件按条件分流
  • 使用 Excel 输出组件导出结果
  • 执行转换并查看日志

二、实验环境与数据

实验平台:助睿数智/Uniplore 数据集成平台
实验入口:https://lab.guilan.cn/
数据库:MySQL
数据源:线上公共数据源(Readonly)

本次实验用到两张表:

表名 说明
business_anaylsis.order_detail 订单明细表
business_anaylsis.product 产品信息表

实验要实现的业务逻辑是:将订单明细表和产品信息表按产品 ID 左外连接,再根据利润字段 profit 判断订单属于盈利还是亏损。

三、整体处理流程

business_anaylsis.order_detail
             |
             | LEFT OUTER JOIN,按产品 ID 关联
             v
business_anaylsis.product
             |
             v
移除重复 ID 字段
             |
             v
profit >= 0 ?
     | True              | False
     v                   v
盈利订单.xlsx          亏损订单.xlsx

四、创建项目与同步数据源

进入实验平台后,选择“数据集成/ETL”模块。为了方便管理,可以先在“团队管理”中创建团队,然后进入“我的项目”新建实验项目。

项目创建完成后,点击“打开项目”进入工作区。工作区左侧主要包含资源库、文件库和元数据三个部分:

  • 资源库:用于管理转换流和工作流
  • 文件库:用于保存输出文件
  • 元数据:用于管理数据库连接和运行配置

接着进入“元数据”,右键“关系数据库”,选择“同步数据源”。刷新后应能看到“线上公共数据源(Readonly)”。

五、新建转换流

切换到“资源库”,右键根目录,选择“新建转换流”,名称填写:

订单利润分流处理

创建成功后进入转换流设计页面。如果画布处于锁定状态,需要先点击解锁图标。

六、添加组件

本实验需要在画布中添加以下组件:

组件 数量 命名
表输入 2 订单-详细订单、订单-产品信息
记录集连接 1 记录集连接
字段选择 1 移除产品 ID-1 字段
过滤记录 1 过滤记录
Excel 输出 2 盈利订单、亏损订单

连接关系如下:

订单-详细订单 ----\
                  记录集连接 -> 移除产品 ID-1 字段 -> 过滤记录 -> 盈利订单
订单-产品信息 ----/                                      \-> 亏损订单

其中过滤记录到两个 Excel 输出组件的连接类型分别为:

  • 盈利订单:True 输出
  • 亏损订单:False 输出

七、配置组件

1. 表输入组件

双击“订单-详细订单”组件:

  1. 数据库连接选择“线上公共数据源(Readonly)”。
  2. 点击“获取 SQL 查询语句”。
  3. 选择表 business_anaylsis.order_detail
  4. 系统自动生成 SQL 后点击确认。

另一个表输入组件“订单-产品信息”同样配置,选择表:

business_anaylsis.product

2. 记录集连接组件

双击“记录集连接”组件:

  1. 第一个 Transform 选择“订单-详细订单”。
  2. 第二个 Transform 选择“订单-产品信息”。
  3. 连接类型选择 LEFT OUTER
  4. 获取两个 Transform 的连接字段。
  5. 第一个 Transform 保留订单明细表中的产品 ID 字段。
  6. 第二个 Transform 保留产品表中的 id 字段。
  7. 删除多余字段并保存。

这里的含义是:以订单明细表为主表,将产品信息表中的产品维度信息关联进来。

3. 字段选择组件

双击“移除产品 ID-1 字段”组件,进入“移除”选项,点击“获取字段”。由于连接后产品 ID 会重复,这里只保留要移除的 id 字段,删除其他字段,最后点击确认。

4. 过滤记录组件

双击“过滤记录”组件,配置条件:

profit >= 0

字段选择 profit(Number),函数选择 >=,值类型选择 Integer,值填写 0

配置完成后:

  • True 输出:盈利订单
  • False 输出:亏损订单

5. Excel 输出组件

双击“盈利订单”Excel 输出组件:

  • 文件名:盈利订单
  • 文件扩展名:xlsx [Excel 2007 and above]
  • 在“输出字段”中右键选择“获取字段”

“亏损订单”组件同理,文件名改为“亏损订单”。

八、执行转换与查看结果

配置完成后,点击启动按钮,在弹窗中选择“启动”。执行完成后可以在运行日志中查看各组件是否执行成功。

然后进入“文件库”,右键根目录刷新,可以看到两个输出文件:

文件 内容
盈利订单.xlsx profit >= 0 的订单
亏损订单.xlsx profit < 0 的订单

九、遇到的问题

问题 1:Excel 输出获取不到字段

原因通常是上游组件没有保存、连线类型不正确,或者 Excel 输出组件没有从正确的数据流接收字段。

解决办法:

  • 检查过滤记录到 Excel 输出组件的连线类型
  • 盈利订单选择 True 输出
  • 亏损订单选择 False 输出
  • 保存上游组件后重新点击“获取字段”

问题 2:记录集连接结果不正确

记录集连接时,如果连接字段选择错误,可能导致关联结果为空或重复。

解决办法:

  • 第一个 Transform 使用订单表中的产品 ID 字段
  • 第二个 Transform 使用产品表中的 id 字段
  • 连接类型使用 LEFT OUTER
  • 删除多余连接字段后重新执行

十、总结

本次实验完整走通了一个典型 ETL 任务:读取数据、关联数据、清理字段、按条件分流、导出结果。通过助睿平台的零代码组件,可以比较直观地理解数据加工流水线中每个环节的作用。

对初学者来说,这个实验最值得注意的地方有三个:一是记录集连接字段必须选对,二是过滤记录的 True/False 输出要连接到正确目标,三是 Excel 输出前要先获取字段。


建议标签:ETL数据集成MySQL助睿零代码

Logo

一站式 AI 云服务平台

更多推荐