一、实验背景

1.1 实验目的

本次实验旨在熟悉助睿零代码数据集成平台(ETL平台)的核心功能和操作方法,具体包括:

  • 掌握新建转换、添加组件、执行转换等基本操作流程

  • 熟悉表输入、记录集连接、字段选择、过滤记录、Excel输出等常用组件的配置方法

  • 理解多表关联、数据过滤与分流处理的ETL设计思路

通过本次实验,能够独立使用助睿平台完成常见的数据加工任务,为后续更复杂的数据处理场景打下基础。

1.2 实验环境

  • 零代码在线实验平台:使用助睿数智(Uniplore)作为一站式数据科学平台。本次实验的访问地址为 https://lab.guilian.cn/

  • 数据库:MySQL(含订单数据和产品信息表)

  • 数据准备:订单表(business_anaylsis.order_detail)、产品表(business_anaylsis.product)

1.3 业务场景

在企业经营分析中,经常需要将多张表关联起来计算利润,并按利润正负对订单进行分类存储。本实验以订单利润分流为例,通过零代码拖拽方式完成这一数据处理任务。

1.4 数据加工流程

订单明细表与产品信息表进行左外连接,移除重复字段,按利润是否大于等于零进行分流,最后分别输出盈利订单和亏损订单到两个Excel文件。

图1:订单利润分流处理整体流程

二、实验步骤

2.1 登录实验平台

在贵兰在线对应的课程学习页面,点击“实验课1:助睿ETL入门实验”,点击课程实训说明中的“大数据实训平台”,即可前往实验地址 https://lab.guilian.cn/。从贵兰在线进入实验平台可以自动登录。

图1:登录页面

图2:实践平台

2.2 基本概念了解

助睿一站式大数据平台中的数据集成平台,通过可视化方式做数据ETL(抽取、转换、加载)。

概念

说明

Pipeline(转换)

面向数据流,处理数据的一个功能单元,由多个Transform组成

Workflow(作业)

面向任务,完成一件完整的事,由多个Action组成,必须包含开始

Transform(步骤)

转换内的最小单元,如“Excel输入”、“字段选择”,每个步骤独立

Action(任务项)

作业的执行单位,如“启动”、“发送邮件”

Hops(节点连接)

数据传输通道,连接步骤或任务项

图3:助睿平台基本概念

2.3 团队管理

每个小组的组长可以创建该小组的团队方便团队实验作业的管理,我们小组创建了属于我们的团队。

图4:团队创建示例

2.4 创建实验项目

平台提供默认项目,但为了方便管理,可以为课程创建专属项目。选择创建的项目所属团队为“商业数据分析小组1”(也可以是个人),这里我选择了我的所属团队。

图5:创建实验项目

2.5 同步数据源

项目创建成功后点击该项目右上角“…”,点击“打开项目”。

在项目页面,可以看到左侧有3个菜单:资源库、文件、元数据。本次实验主要用到资源库和文件库:

首先获取本次的实验数据集:点击“元数据”,右键根“关系数据库”,点击“同步数据源”。切换“文件库”菜单再切换回到元数据,可以看到成功同步的数据库“线上公共数据源(Readonly)”。

图6:同步数据源

2.6 新建转换流

本次实验将创建“订单利润分流处理”转换流,实现订单数据与产品信息的关联,并根据利润正负将数据分流为盈利订单和亏损订单,分别输出到两个Excel文件。

整体逻辑:订单明细表 → 左外连接产品信息表 → 移除重复ID字段 → 按利润≥0分流 → 盈利订单/亏损订单分别输出

各组件作用:

组件

作用

表输入(订单/产品)

读取原始数据

记录集连接

按产品ID关联两表

字段选择

移除重复的ID字段

过滤记录

根据利润正负分流

Excel输出

分别输出盈利/亏损订单

新建转换流具体操作如下:切换到资源库,右键根目录,点击“新建转换流”,输入转换流名字“订单利润分流处理”,点击“确定”。创建成功后进入转换流设计页面,转换流设计页面每次打开都是锁定状态,需要解锁后才可编辑转换流。

图7:新建转换流

2.7 添加组件

在建立转换任务后,可添加相应操作组件到转换任务中。按如下顺序向转换中添加组件:

(1)添加表输入组件

本次实验需读取两张不同表的数据,因此添加2个表输入组件。

  • 点击“组件库”,在搜索框输入“表输入”,找到该组件

  • 将表输入组件拖拽至画布中,重复操作添加第二个表输入组件

  • 右键表输入组件,点击“编辑组件”,分别将两个组件命名为“订单_详细订单”和“订单_产品信息”

图8:添加并命名表输入组件

(2)添加记录集连接组件

读取数据后,需通过记录集连接组件关联两张表的数据。

  • 在组件库搜索框输入“记录集连接”,将组件拖拽至画布

  • 创建两个表输入组件到记录集连接组件的连接线

  • 建立连接时会出现“排序需要”提示(记录集连接组件按接收数据的顺序进行关联,无序数据可能导致连接结果出错)

图9:排序需要提示

图10:建立表输入到记录集连接的连接线

(3)添加字段选择组件

两表连接后会出现重复的“产品ID”字段,可通过“字段选择”组件移除多余字段。

  • 在组件库搜索“字段选择”,将组件拖拽至画布

  • 将组件名称修改为“移除产品ID_1字段”

  • 创建记录集连接组件到字段选择组件的连接线

图11:添加字段选择组件

(4)添加过滤记录组件

本实验需根据订单利润情况对数据进行分流,使用“过滤记录”组件实现按字段值分流。

  • 在组件库搜索“过滤记录”,将组件拖拽至画布

  • 创建字段选择组件到过滤记录组件的连接线,在弹窗中点击“主输出步骤”

图12:设置主输出步骤

(5)添加Excel输出组件

过滤后的记录会分为两个流,需分别输出到Excel文件中。

  • 在组件库搜索“Excel输出”,拖拽2个该组件至画布

  • 将两个组件分别命名为“盈利订单”和“亏损订单”

  • 创建过滤记录组件到两个Excel输出组件的连接线,分别选择“True输出”(满足过滤条件的记录)和“False输出”(不满足过滤条件的记录)

图13:设置True/False输出连接

至此,完整的转换任务流程构建完毕。

图14:订单利润分流处理完整转换流

2.8 配置组件信息

组件添加完成后需要对其进行相应配置。

2.8.1 表输入组件配置
  1. 双击“订单_详细订单”表输入组件,在数据库连接下拉框中选择已同步的“线上公共数据源(Readonly)”

  2. 点击“获取SQL查询语句”,自动生成SQL查询语句

  3. 点开“线上公共数据源(Readonly)”→“表”目录,找到business_anaylsis.order_detail并点击,再点击“确定”

图15:配置订单表输入

  1. 重复上述步骤,为“订单_产品信息”表输入组件配置business_anaylsis.product表的SQL查询语句

图16:配置产品表输入

2.8.2 记录集连接组件配置
  1. 双击记录集连接组件,第一个Transform选择“订单_详细订单”,第二个Transform选择“订单_产品信息”,连接类型选择LEFT OUTER

  2. 点击第一个Transform的“获得连接字段”按钮,获取订单_详细订单的查询字段;同理获取第二个Transform的连接字段

  3. 第一个Transform字段保留product_id,第二个Transform字段保留id(使用product_id与id进行左外连接),其余字段右键删除

  4. 删除完成后点击“确认”

图17:配置记录集连接字段

2.8.3 字段选择组件配置

记录集连接后,product_id与id字段内容重复,需通过“移除产品ID_1字段”组件移除多余的id字段。

  1. 双击“移除产品ID_1字段”组件,点击“移除”选项卡,再点击“获取字段”

  2. 在获取的字段列表中,选中除id字段以外的所有字段,右键删除,确保仅保留要移除的id字段

  3. 确认字段id已被标记为移除状态,点击“确认”

图18:配置移除重复字段

2.8.4 过滤记录组件配置

根据业务需求,需要按利润字段区分盈利订单和亏损订单并分流存储。

  1. 双击“过滤记录”组件,设置判断条件:

  • 判断字段:profit(Number)

  • 条件运算符:>=

  • 判断值:0(Integer类型)

图19:配置利润过滤条件

2.8.5 Excel输出组件配置

盈利订单组件配置:双击“盈利订单”Excel输出组件,修改文件名为“盈利订单”,文件扩展名选择xlsx。点击“输出字段”选项卡,右键“获取字段”,获取全部字段后点击“确认”。

图20:盈利订单配置

亏损订单组件配置:同样的设置,文件名为“亏损订单”。

图21:亏损订单配置

2.9 执行转换

组件配置完成后,点击页面上的启动按钮,在弹出的窗口中点击“启动”。等待任务执行,画布上的组件流转完成,显示执行成功。

图22:转换执行成功

2.10 查看执行日志

任务执行过程会记录操作日志,执行完毕后可查看:

  1. 点击“日志”选项卡,可查看任务执行的详细过程信息

  2. 点击“步骤度量”选项卡,可查看每个步骤的读取、写入记录数、执行时间和状态

图23:查看步骤度量

2.11 查看结果

  1. 点击“文件库”,右键根目录刷新,可看到生成的“盈利订单.xlsx”和“亏损订单.xlsx”文件

  2. 右键文件选择“下载”,即可查看和保存输出结果

三、实验结果

输出文件

内容

说明

盈利订单.xlsx

profit ≥ 0 的订单

可进一步分析高利润产品

亏损订单.xlsx

profit < 0 的订单

可用于亏损原因追踪

实验成功实现了订单数据的关联与分流处理,为后续的盈利分析提供了规范的数据基础。

四、核心组件说明

组件

作用

本实验配置要点

表输入

读取数据库表

配置数据源和SQL,自动获取字段

记录集连接

多表关联

选择连接类型(左外连接)和连接字段

字段选择

字段筛选与重命名

移除重复的id字段

过滤记录

按条件分流

设置profit ≥ 0

Excel输出

导出结果

配置文件名和输出字段

五、问题与解决

在实验过程中遇到了两个问题:

💡 问题1:Excel输出获取不到字段

解决方法:配置Excel输出时点击“获取字段”没有反应。原因是过滤记录到Excel输出的连接线类型选错了,盈利订单应连接“True输出”,亏损订单应连接“False输出”。重新创建连接线并正确选择后恢复正常。

💡 问题2:Excel输出组件因文件名相同导致执行报错

解决方法:配置完两个Excel输出组件后执行转换,系统报错。检查发现两个组件的默认输出文件名都是“file”,没有修改。将盈利订单和亏损订单的“文件名”分别修改为“盈利订单”和“亏损订单”后,重新执行正确。

六、实验总结

通过本次实验,熟悉了助睿零代码ETL平台的基本操作方法,包括创建项目、同步数据源、新建转换流、添加和配置组件、执行转换以及查看结果。掌握了表输入、记录集连接、字段选择、过滤记录、Excel输出等常用组件的配置方法,理解了多表关联和条件分流在数据处理中的应用。

相比传统编写SQL和脚本的数据处理方式,助睿平台的零代码拖拽式操作更加直观,组件之间的数据流向清晰可见,便于理解和调试。对于初学者来说,这种方式降低了学习门槛,能够快速上手完成常见的数据加工任务。

如果这篇文章对你有帮助,欢迎点赞+喜欢+收藏支持一下~

Logo

一站式 AI 云服务平台

更多推荐