一、实验背景

1.1 实验目标

本次实验旨在通过助睿零代码数据集成平台(ETL平台),掌握以下技能:

  • 基本操作: 新建转换、添加组件、执行任务
  • 组件配置: 表输入、记录集连接、字段选择、过滤记录、Excel 输出
  • 设计思路: 多表关联、数据过滤与分流处理

通过动手实践,学生能够独立完成常见的数据加工任务,为进一步学习复杂数据处理奠定基础。

1.2 实验环境

  • 平台: 助睿数智(Uniplore)一站式零代码数据科学平台
    • 功能覆盖:数据接入、ETL 处理、机器学习建模、可视化展示
    • 本次实验地址:https://lab.guilian.cn/
    • 官网地址:https://www.uniplore.com
  • 数据源:MySQL 数据库
    • 订单表:business_analysis.order_detail
    • 产品信息表:business_analysis.product

1.3 业务场景

在企业经营分析中,常需要将多张表关联以计算利润,并根据利润正负对订单进行分类存储。

本实验模拟该场景,使用零代码拖拽方式完成订单利润分流任务。

1.4 数据处理流程

  • 将订单明细表与产品信息表进行左外连接
  • 移除重复字段
  • 根据利润是否 ≥ 0 进行过滤分流
  • 分别输出盈利订单和亏损订单到两个 Excel 文件
    在这里插入图片描述

二、实验步骤

2.1 基本概念了解

平台简介

助睿一站式大数据平台中的数据集成模块,支持通过可视化方式完成数据的抽取(Extract)、转换(Transform)、加载(Load),即 ETL 过程。

核心概念说明

概念 说明
Pipeline(转换) 面向数据流的处理单元,由多个 Transform(步骤)串联组成,用于完成一项数据处理逻辑
Workflow(作业) 面向任务流的执行单元,由多个 Action(任务项)组成,必须包含一个"开始"项,用于完成一件完整的业务任务
Transform(步骤) 转换中的最小执行单元,例如"Excel 输入"、"字段选择"等。每个步骤独立线程运行
Action(任务项) 作业中的基本执行单位,例如"启动转换"、"发送邮件"等
Hop(节点连接) 用于连接步骤与步骤、或任务项与任务项之间的数据传输通道,表示数据或控制流的流向

2.2 登录实验平台

从实验环境中给的实验实验地址登录,登录成功后进入实验平台首页。
在这里插入图片描述

2.3 创建实验项目

平台提供默认项目,可以使用默认项目进行实验,但为了方便管理,可以创建专属项目。

点击"新建项目"。
在这里插入图片描述

输入项目名称后点击"确定"。

在这里插入图片描述

创建成功后即可在数据集成页面看到新创建的项目。
在这里插入图片描述

2.4 同步数据源

项目创建成功后点击该项目右上角"…“,点击"打开项目”。

在这里插入图片描述

页面功能介绍

在项目页面左侧,包含三个主要菜单:资源库、文件库、元数据管理。各模块功能说明如下:

模块 功能说明
资源库 管理工作流,支持新建、删除、修改、查看工作流信息;支持工作空间的导入与导出;调度管理等操作
文件库 保存工作流中所需使用的文件,以及工作流运行后生成的结果文件
元数据管理 作为数据集成的重要基础,支持定义运行配置、数据库连接信息、Flink 集群等关键配置项

本次实验主要用到资源库和文件库。

在这里插入图片描述

首先获取本次的实验数据集:点击"元数据",右键根"关系数据库",点击"同步数据源"。

在这里插入图片描述

切换"文件库"菜单再切回到元数据,可以看到成功同步的数据库"线上公共数据源(Readonly)"。

在这里插入图片描述

2.5 新建转换流

转换流程设计

本次实验将创建一个名为"订单利润分流处理"的转换流,实现订单数据与产品信息的关联,并根据利润正负将数据分流为盈利订单和亏损订单,最终分别输出到两个 Excel 文件中。

整体处理逻辑

订单明细表 → 左外连接产品信息表 → 移除重复的 ID 字段 → 按利润是否 ≥ 0 进行分流 → 盈利订单和亏损订单分别输出到 Excel。

组件及作用说明

组件 作用
表输入(订单表) 读取订单明细数据
表输入(产品表) 读取产品信息数据
记录集连接 按产品 ID 关联订单表与产品表(左外连接)
字段选择 移除关联后重复的 ID 字段,精简数据结构
过滤记录 根据利润字段的正负值对数据进行分流
Excel 输出(盈利) 将利润 ≥ 0 的订单输出为 Excel 文件
Excel 输出(亏损) 将利润 < 0 的订单输出为另一个 Excel 文件

新建转换流具体操作如下:

切换到资源库,同样右键根目录,点击"新建转换流"。

在这里插入图片描述

输入转换流名字"订单利润分流处理",点击确定。

在这里插入图片描述

创建成功后进入转换流设计页面。转换流设计页面每次打开都是锁定状态,需要解锁后才可编辑转换流。

在这里插入图片描述

点击锁图标进行解锁。

在这里插入图片描述

2.6 添加组件

在建立转换任务后,可添加相应组件到转换任务中。

(1)添加表输入组件

本次实验需要将两类数据进行合并计算,所以需要添加2个表输入组件,读取2个不同表的数据。

点击"组件库",由于组件库的组件数量较多,可以通过关键字搜索快速获取。

在搜索输入框中输入"表输入",即可查询到"表输入"组件。

在这里插入图片描述

将表输入组件拖拽至画布中。

在这里插入图片描述

再次拖拽表输入组件至画布中,即现在画布中有两个表输入组件。

在这里插入图片描述

右键表输入组件,点击"编辑组件"。

在这里插入图片描述

修改步骤名称为订单_详细订单,点击"确认",此时画布中的对应表输入组件被命名为"订单_详细订单"。

在这里插入图片描述

同样的,另一表输入组件修改为订单_产品信息。

在这里插入图片描述

(2)添加记录集连接组件

使用表输入组件读取数据后,需要通过记录集连接组件将表输入组件的数据进行关联。

在搜索输入框中输入"记录集连接",将记录集连接组件拖拽至画布中。

在这里插入图片描述

创建两个表输入组件到记录集连接组件的连接线。

在这里插入图片描述

(3)添加字段选择组件

两个表数据进行连接后,会出现重复的字段"产品ID"。我们可以通过"字段选择"组件移除这个多余字段。

在搜索框中输入"字段选择",将字段选择组件拖拽至画布中。
在这里插入图片描述

将字段选择组件名字修改为"移除产品ID_1字段"。

在这里插入图片描述

创建记录集连接组件到字段选择组件的连接线。

在这里插入图片描述

(4)添加过滤记录组件

本次实验是根据订单的利润情况对订单进行分流。使用"过滤记录"组件可以根据记录中某个字段的值进行记录分流。

在搜索输入框中输入"过滤记录",将过滤记录组件推拽至画布中。

在这里插入图片描述

在选择连接线的弹窗中点击"主输出步骤"。由于在进行字段选择操作时,可能有记录不满足要求,导致记录被标记为错误。主输出步骤表示满足要求的记录通过该连接线传输数据。

在这里插入图片描述

(5)添加excel输出组件

记录经过"过滤记录"组件后会被分成2个记录流。我们可以根据业务需求将2个记录流输出到指定位置(文件、数据库表)。在本次实验中,我们选择将记录输出到Excel文件中。

在搜索输入框中输入"excel输出",将2个表输出组件拖拽至画布中。

在这里插入图片描述

2个excel输出组件分别命名为"盈利订单"和"亏损订单",并创建过滤记录组件到两个excel输出组件的连接线,在选择连接线类型的弹窗中分别选择"True输出"和"False输出"。

  • "True输出"表示满足过滤条件的记录输出
  • "False输出"表示不满足过滤条件的记录输出

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

至此,一个完整的转换任务流程构建完毕。

在这里插入图片描述

2.7 配置组件信息

组件添加完成后需要对其进行相应配置。

2.7.1 表输入组件配置

双击订单_详细订单表输入组件,弹出组件配置页面。在数据库连接下拉框中选择已同步的"线上公共数据源(Readonly)"。

在这里插入图片描述

点击"获取SQL查询语句",自动生成SQL查询语句。

在这里插入图片描述

点开"线上公共数据源(Readonly)""表"目录。

在这里插入图片描述

下滑找到"business_anaylsis.order_detail"并点击它,再点击"确定"。

在这里插入图片描述

在系统提示弹窗中点击"确定"。

在这里插入图片描述

系统自动填写了完整的SQL查询语句,点击"确定"。当自动生成的SQL语句无法满足业务需求时,也可以通过在文本框中输入自定义SQL语句。表输入组件的其它配置参数保持默认即可。

在这里插入图片描述

另一个订单_产品信息表输入也参考上述配置,获取"business_anaylsis.product"的SQL查询语句。

在这里插入图片描述

2.7.2 记录集连接组件配置

双击记录集连接组件,在下拉列表中选择需要连接的数据来源。

第一个Transform选择订单_详细订单,第二个Transform选择订单_产品信息,连接类型选择LEFT OUTER。点击Transform的连接字段中"获得连接字段"按钮,即可获得在表输出组件中查询到的字段。

在这里插入图片描述

第一个Transform字段保留produc_id,第二个Transform的字段保留id,连接类型选择LEFT OUTER,表示使用订单_详细订单的字段produc_id与订单_产品信息的字段id进行左外连接。

第一个Transform字段中除了produc_id外的其他字段,右键点击"删除选中的行",第二个Transform字段中除了id外的其他字段,右键点击"删除选中的行"。

在这里插入图片描述在这里插入图片描述

删除完后,点击"确认",若删除错误,可重新获取连接字段再进行删除。

在这里插入图片描述

2.7.3 字段选择组件配置

通过记录集连接后,我们可以发现,字段 produc_id 与字段 id 内容相同,只需要保留一个,因此,需要使用"移除产品ID_1字段"字段选择组件的移除选项移除字段 id,具体操作如下:

双击"移除产品ID_1字段"字段选择组件,点击"移除",并点击"获取字段"。

在这里插入图片描述

在获取的字段中选中除"id"字段以外的字段,右键点击"删除选中的行"。

在这里插入图片描述

可以看到,字段"id"已被删除,点击"确认"。

在这里插入图片描述

2.7.4 过滤记录组件配置

根据业务需求需要将盈利订单和亏损订单分开存储,两个订单可以使用字段利润来区分。

双击"过滤记录"组件,在弹窗中的下拉列表中选择将结果发送给不同的后续处理步骤。

在这里插入图片描述

选择字段利润(profit)来作为判断字段,选中"profit(Number)“后点击"确定”。

在这里插入图片描述

=0作为判断条件,点击"=“,在函数中选择”>=“,点击"确定”。

在这里插入图片描述

点击"value",值类型选择"Integer",值输入"0",点击"确定"。

在这里插入图片描述
在这里插入图片描述

至此,过滤条件已配置完成,点击"确认"。

在这里插入图片描述

2.7.5 Excel输出组件配置

将接收到的结果写入到Excel表中,双击"盈利订单"excel表输出组件,在配置弹窗中,文件名修改为"盈利订单",选择文件拓展名"xlsx [Excel 2007 and above]"。

在这里插入图片描述

在配置弹窗中点击"输出字段",在空白表格处右键点击"获取字段"。

在这里插入图片描述

字段获取后,点击"确认"。

在这里插入图片描述

"亏损订单"的excel组件也进行同样的设置。

在这里插入图片描述
在这里插入图片描述

2.8 执行转换

组件配置完成后,可执行转换任务,点击启动按钮。
在这里插入图片描述

在弹出的窗口中点击"启动"。
在这里插入图片描述

执行成功。

在这里插入图片描述

2.9 查看结果

点击"文件库",右键根目录刷新,可以看到转换任务的输出结果:盈利订单和亏损订单,可以右键下载查看。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


三、实验结果

本次实验成功完成了订单数据的关联与利润分流处理,输出结果如下:

输出文件 内容说明
盈利订单.xlsx 利润(profit)≥ 0 的订单记录
亏损订单.xlsx 利润(profit)< 0 的订单记录

实验结果表明,订单数据与产品信息成功关联,并按利润正负实现了数据分流,为后续的盈利分析提供了规范、可用的数据基础。


四、核心组件说明

实验中使用的核心 ETL 组件及其作用汇总如下:

组件 作用
表输入 从数据库表中读取原始数据
记录集连接 实现多表之间的关联操作(如左外连接)
字段选择 对字段进行筛选、移除、重命名或调整顺序
过滤记录 根据指定条件对数据进行分流或筛选

五、实验总结

本次实验基于助睿零代码数据集成平台,完成了订单利润分流处理的ETL任务。通过表输入组件读取订单明细表与产品信息表,利用记录集连接实现左外关联,借助字段选择移除重复ID,再通过过滤记录按利润正负进行分流,最终将盈利订单与亏损订单分别输出至两个Excel文件。实验掌握了平台的基本操作与常用组件的配置方法,理解了多表关联、数据清洗与条件分流的设计思路,为后续复杂数据处理场景奠定了实践基础。


📍 实验平台:助睿数智(Uniplore)零代码数据科学平台
🔗 实验地址:https://lab.guilian.cn/
🔗 官网地址:https://www.uniplore.com

Logo

一站式 AI 云服务平台

更多推荐