一、实验背景

1.1 实验目的

本次实验旨在熟悉助睿零代码数据集成平台(ETL 平台)的核心功能和操作方法,具体目标如下:

掌握新建转换、添加组件、执行转换等基本操作流程

熟悉表输入、记录集连接、字段选择、过滤记录、Excel 输出等常用组件的配置方法

理解多表关联、数据过滤与分流处理的 ETL 设计思路 通过本次实验,我能够独立使用助睿平台完成常见的数据加工任务,为后续更复杂的数据处理场景打下基础。

1.2 实验环境

平台:助睿数智(Uniplore)一站式数据科学实验平台,产品官网为 https://www.uniplore.com/ ,本次实验的访问地址为 https://lab.guilian.cn/ 。该平台覆盖数据接入、ETL 处理、机器学习建模到可视化分析的全链路 Agentic 零代码数据智能场景。

数据库:MySQL(含订单数据和产品信息表)

数据准备:订单表(business_anaylsis.order_detail)、产品表(business_anaylsis.product)

1.3 业务场景

在企业经营分析中,经常需要将多张表关联起来计算利润,并按利润正负对订单进行分类存储。本实验以订单利润分流为例,通过零代码拖拽方式完成这一数据处理任务。

二、实验步骤

2.1 登录实验平台

1. 在课程学习页面,点击 “实验课 1:助睿 ETL 入门实验”。

2. 点击课程实训说明中的 “大数据实训平台”,前往实验地址 https://lab.guilian.cn/

3. 从课程页面进入实验平台,系统自动完成登录,成功进入实验平台首页。

2.2 基础概念了解

助睿一站式大数据平台中的数据集成平台,通过可视化方式完成数据 ETL(抽取、转换、加载)操作。核心概念如下:

2.3 团队管理

在该环节,每个小组的组长可以创建该小组的团队方便团队实验作业的管理

2.4 创建实验项目

平台提供默认项目,可以使用默认项目进行实验,但为了方便管理,可以为课程创建专属项目。​

选择创建的项目所属团队(也可以是个人),因为这次实验是个人完成,因此我这里选择了所属个人

创建成功后即可在数据集成页面看到新创建的项目

2.5 同步数据源

项目创建成功后点击该项目右上角“...”,点击“打开项目”

在项目页面,可以看到左侧有3个菜单:资源库、文件、元数据​

资源库用于对工作流的管理,包括新建、删除、修改、查看工作流的信息;导出导入工作空间;调度管理等操作​

文件库用于保存工作流中需要用到的文件和工作流产生的文件​

元数据管理是数据集成的重要基石,可以为工作流定义“运行配置”、“数据库”、“flink集群”等配置​

本次实验主要用到资源库和文件库

首先获取本次的实验数据集:点击“元数据”,右键根“关系数据库”,点击“同步数据源”;然后切换“文件库”菜单再切换回到元数据,可以看到成功同步的数据库“线上公共数据源(Readonly)”

2.6 新建转换流

本次实验将创建 “订单利润分流处理” 转换流,实现订单数据与产品信息的关联,并根据利润正负将数据分流为盈利订单和亏损订单,分别输出到两个 Excel 文件。

新建转换流具体操作如下:

1. 切换到资源库,右键根目录,点击 “新建转换流”输入转换流名称 “订单利润分流处理”,点击 “确定”。

2. 转换流设计页面每次打开都是锁定状态,需要解锁后才可编辑转换流;点击画布上方的🔒图标解锁转换流,进入编辑状态。

整体逻辑:订单明细表 → 左外连接产品信息表 → 移除重复 ID 字段 → 按利润≥0 分流 → 盈利订单 / 亏损订单分别输出

2.7 添加并配置组件

2.7.1 添加并配置表输入组件

1. 在组件库搜索 “表输入”,拖拽 2 个表输入组件至画布中。

2. 右键第一个表输入组件,选择 “编辑组件”,修改名称为 “订单_详细订单”,点击 “确认”。

3. 双击 “订单_详细订单” 组件,配置数据源:

选择 “线上公共数据源 (Readonly)”,点击 “获取 SQL 查询语句”。

找到 “business_anaylsis.order_detail” 表并选择,系统自动生成 SQL 语句,点击 “确认”。系统自动填写了完整的SQL查询语句,点击“确认”。当自动生成的SQL语句无法满足业务需求时,也可以通过在文本框输入自定义SQL语句。表输入组件的其他配置参数保持默认即可

4. 参考上述步骤,配置第二个表输入组件,修改名称为 “订单_产品信息”,并关联 “business_anaylsis.product” 表。

2.7.2 添加并配置记录集连接组件

使用表输入组件读取数据后,需要通过记录集连接组件将表输入组件的数据进行关联。

1. 在组件库搜索 “记录集连接”,拖拽至画布中。

创建两个表输入组件到记录集连接组件的连接线,如下图:

2. 双击组件,配置连接信息:

第一个 Transform 选择 “订单_详细订单”,第二个 Transform 选择 “订单_产品信息”,连接类型选择LEFT OUTER

点击 “获得连接字段”,获取两个表的字段列表。

第一个 Transform 字段仅保留produc_id,第二个 Transform 字段仅保留id,其余字段删除,实现按产品 ID 的左外连接。

3. 点击 “确认” 完成配置。

2.7.3 添加并配置字段选择组件

两个表数据进行连接后,会出现重复的字段“产品ID”。我们可以通过“字段选择”组件移除这个多余字段。

1. 在组件库搜索 “字段选择”,拖拽至画布中,命名为 “移除重复 ID 字段”。

创建记录集连接组件到字段选择组件的连接线,如下图:

通过记录集连接后,我们可以发现,字段 produc_id 与字段 id 内容相同,只需要保留一个,因此,需要使用“移除产品ID_1字段”字段选择组件的移除选项移除字段 id,具体操作如下:​

2. 双击组件,选择 “移除” 选项,点击 “获取字段”。

在字段列表中,选中id字段(与produc_id重复),保留其余字段,点击 “确认”。

2.7.4 添加并配置过滤记录组件

本次实验是根据订单的利润情况对订单进行分流。使用“过滤记录”组件可以根据记录中某个字段的值进行记录分流。

1. 在组件库搜索 “过滤记录”,拖拽至画布中。

创建字段选择组件到过滤记录组件的连接线,如下图:

在选择连接线的弹窗中点击“主输出步骤”。由于在进行字段选择操作时,可能有记录不满足要求,导致记录被标记为错误。主输出步骤表示满足要求的记录通过该连接线传输数据。

2. 双击组件,设置过滤条件:profit ≥ 0

根据业务需求需要将盈利订单和亏损订单分开存储,两个订单可以使用字段利润来区分:点击“value”,值类型选择“Integer”,值输入“0”点击“确定”

3. 点击 “确认” 完成配置。

2.7.5 添加并配置 Excel 输出组件

记录经过“过滤记录”组件后会被分成2个记录流。我们可以根据业务需求将2个记录流输出到指定位置(文件、数据库表)。在本次实验中,我们选择将记录输出到 Excel 文件中。

1. 在组件库搜索 “Excel 输出”,拖拽 2 个组件至画布中,分别命名为 “盈利订单” 和 “亏损订单”。

2. 连接过滤记录组件与两个 Excel 输出组件:

盈利订单:选择 “True 输出”(满足条件的记录)

亏损订单:选择 “False 输出”(不满足条件的记录)

至此,一个完整的转换任务流程构建完毕,如下图所示:

3. 双击 “盈利订单” 组件,配置输出信息:

文件名修改为 “盈利订单”,文件格式选择 “xlsx [Excel 2007 and above]”。

点击 “输出字段”,右键选择 “获取字段”,保留所有字段,点击 “确认”。

4. 参考上述步骤,配置 “亏损订单” 组件,文件名为 “亏损订单”。

2.8 执行转换流

1. 点击画布上方的 “运行” 按钮,执行 “订单利润分流处理” 转换流。

2. 查看执行日志,确认转换流无报错、执行成功。

2.9 查看实验结果

点击 “文件库”,右键根目录刷新,可看到转换任务的输出结果文件:盈利订单.xlsx亏损订单.xlsx,右键文件可下载查看。

三、实验结果

3.1 输出文件说明

3.2 结果验证

1. 下载两个文件并打开,核对数据记录数与转换流执行日志中的输出记录数一致。

2. 随机抽取盈利订单中的记录,计算利润值,确认均满足profit ≥ 0;抽取亏损订单记录,确认均满足profit < 0

3. 检查数据字段,确认无重复的id字段,所有订单的产品信息已正确关联。

实验成功实现了订单数据的关联与分流处理,为后续的盈利分析提供了规范的数据基础。

四、问题与解决

问题 1:Excel 输出组件无法获取字段

问题现象:配置 Excel 输出组件时,点击 “获取字段” 无反应,无法加载数据字段列表。

问题原因:过滤记录组件到 Excel 输出组件的连接线类型选择错误,未正确区分 “True 输出” 和 “False 输出”,导致数据流向异常。

解决方法:删除原连接线,重新创建过滤记录组件与 Excel 输出组件的连接,盈利订单组件选择 “True 输出”,亏损订单组件选择 “False 输出”,配置完成后再次点击 “获取字段”,成功加载字段列表。

问题 2:两个 Excel 输出组件因文件名相同导致执行报错

问题现象:配置完成后执行转换流,系统报错,提示文件写入冲突。

问题原因:两个 Excel 输出组件默认文件名均为 “file”,未修改为不同名称,平台无法区分两个输出任务的文件写入请求。

解决方法:分别修改两个 Excel 输出组件的 “文件名” 参数,设置为 “盈利订单” 和 “亏损订单”,保存配置后重新执行转换流,报错消失,文件成功生成。

五、实验总结

5.1 实验收获

通过本次实验,我熟悉了助睿零代码 ETL 平台的基本操作方法,包括创建项目、同步数据源、新建转换流、添加和配置组件、执行转换以及查看结果。同时掌握了表输入、记录集连接、字段选择、过滤记录、Excel 输出等常用组件的配置方法,理解了多表关联和条件分流在数据处理中的应用逻辑。

相比传统编写 SQL 和脚本的数据处理方式,助睿平台的零代码拖拽式操作更加直观,组件之间的数据流向清晰可见,便于理解和调试。对于初学者来说,这种方式降低了 ETL 的学习门槛,能够快速上手完成常见的数据加工任务。

希望这篇内容能帮到你,我们下期再见~

#睿助数智 #商业数据分析 #ETL平台 #零代码平台

Logo

一站式 AI 云服务平台

更多推荐