#助睿数智 #商业数据分析 #ETL数据加工 #数据实验

最近在学习数据分析相关课程时,我完成了一个基于助睿数智(Uniplore)平台的 ETL 入门实验。本次实验主要通过零代码拖拽方式,实现订单利润数据的自动分流处理。

整个实验不需要手写复杂代码,而是通过组件拖拽和流程配置完成数据加工任务,对于刚接触 ETL 的同学来说非常适合入门。

这篇文章将按照实验过程,对整个操作流程进行记录和总结。


一、实验背景

1.1 实验目的

本次实验主要目的是熟悉助睿零代码数据集成平台(ETL 平台)的基础功能,并掌握常见的数据加工流程。

通过实验,我重点学习了以下内容:

  • 新建转换流和执行任务
  • 添加并配置 ETL 组件
  • 多表关联处理
  • 数据过滤与分流
  • Excel 文件输出

同时,也进一步理解了 ETL(抽取、转换、加载)在企业数据处理中的实际应用场景。


1.2 实验环境

本次实验使用的平台如下:

  • 平台名称:助睿数智(Uniplore)一站式数据科学实验平台
  • 实验平台地址:
    https://lab.guilian.cn/
  • 产品官网:
    https://www.uniplore.com/

实验数据库环境:

  • MySQL 数据库
  • 订单明细表:business_anaylsis.order_detail
  • 产品信息表:business_anaylsis.product

1.3 实验业务场景

在企业经营分析中,经常需要根据订单利润情况对订单进行分类,例如:

  • 盈利订单
  • 亏损订单

为了后续经营分析、利润统计以及亏损原因追踪,需要先完成数据清洗和分类处理。

本次实验通过:


订单表 + 产品表 → 数据关联 → 利润过滤 → 分类输出

实现订单利润分流。


1.4 数据处理流程

本次实验整体处理流程如下:


整个流程均通过助睿平台可视化拖拽完成。


二、实验步骤

2.1 登录实验平台

首先进入贵兰在线课程页面。

在课程中点击:


随后点击:

即可进入实验平台。

由于平台支持课程系统自动登录,因此可以直接进入助睿平台首页。


2.2 认识 ETL 平台基本概念

在开始实验前,我先了解了平台中的几个核心概念。

概念 说明
Pipeline(转换) 面向数据流的数据处理流程
Workflow(作业) 面向任务的完整执行流程
Transform(步骤) 数据处理中的具体组件
Action(任务项) 作业中的执行动作
Hops(连接线) 组件之间的数据传输通道

通过这些概念,可以更容易理解平台中的工作流结构。


2.3 创建团队与项目

进入数据集成页面后,可以先创建团队。

操作步骤:

团队管理 → 新增团队 → 输入团队名称

随后创建实验项目:

新建项目 → 输入项目名称 → 确认

项目创建成功后,即可进入项目页面。


2.4 同步数据源

进入项目后,可以看到左侧菜单:

  • 资源库
  • 文件库
  • 元数据

本次实验主要使用:

  • 资源库
  • 元数据

同步数据源操作:


元数据 → 关系数据库 → 同步数据源

同步完成后,可以看到:


说明实验数据已经成功导入。


三、构建订单利润分流转换流

3.1 新建转换流

在资源库中右键:


新建转换流

命名为:


订单利润分流处理

进入设计页面后,需要先点击右上角的 🔒 图标进行解锁。


3.2 添加表输入组件

由于实验涉及两张表,因此需要添加两个“表输入”组件。

分别命名为:


订单_详细订单
订单_产品信息

它们分别读取:

  • 订单表
  • 产品表


3.3 添加记录集连接组件

接下来添加:


记录集连接

使用表输入组件读取数据后,需要通过记录集连接组件将表输入组件的数据进行关联。

在搜索输入框中输入“记录集连接”,将记录集连接组件拖拽至画布中

创建两个表输入组件到记录集连接组件的连接线,如下图:

用于实现两张表的数据关联。

在建立连接线时,会出现“排序需要”的提示。这是由于记录集连接组件是按接收数据的顺序进行记录关联的,如果接收的数据是无序的,可能会造成记录连接结果出错。

连接方式设置为:


LEFT OUTER

关联字段:

订单表字段 产品表字段
produc_id id

这里使用左外连接,是为了保证订单数据完整保留。


3.4 添加字段选择组件

两个表数据进行连接后,会出现重复的字段“产品ID”。我们可以通过“字段选择”组件移除这个多余字段。

在搜索输入框中输入“字段选择”,将字段选择组件拖拽至画布中


将字段选择组件名字修改为“移除产品ID_1字段”


创建记录集连接组件到字段选择组件的连接线,如下图:

并删除重复字段,避免后续输出时字段冗余。


3.5 添加过滤记录组件

接下来需要根据利润字段进行订单分类。

本次实验是根据订单的利润情况对订单进行分流。使用“过滤记录”组件可以根据记录中某个字段的值进行记录分流。

在搜索输入框中输入“过滤记录”,将过滤记录组件拖拽至画布中


创建字段选择组件到过滤记录组件的连接线,如下图:

在选择连接线的弹窗中点击“主输出步骤”。由于在进行字段选择操作时,可能有记录不满足要求,导致记录被标记为错误。主输出步骤表示满足要求的记录通过该连接线传输数据。


其中:

  • True 输出 → 盈利订单
  • False 输出 → 亏损订单

这样就完成了订单分流逻辑。


3.6 添加 Excel 输出组件

最后添加两个 Excel 输出组件:

组件名称 输出内容
盈利订单 盈利订单数据
亏损订单 亏损订单数据

2个excel 输出组件分别命名为“盈利订单”和“亏损订单”,并创建过滤记录组件到两个excel 输出组件的连接线,在选择连接线类型的弹窗中分别选择“True输出”和“False输出”

“True输出”表示满足过滤条件的记录输出。

“False输出”表示不满足过滤条件的记录输出。

至此,一个完整的转换任务流程构建完毕,如下图所示:


四、组件配置过程

4.1 表输入组件配置

在表输入组件中:

  • 选择数据库连接
  • 获取 SQL 查询语句
  • 选择对应数据表

最终自动生成 SQL。

双击订单_详细订单表输入组件,弹出组件配置页面。在数据库连接下拉框中选择已同步的“线上公共数据源(Readonly)”如下图所示:

点击“获取SQL查询语句”,自动生成SQL查询语句。

点开“线上公共数据源(Readonly)”-“表”目录

下滑找到“business_anaylsis.order_detail”并点击它,再点击“确定”

在系统提示弹窗中点击“确认”

系统自动填写了完整的SQL查询语句,点击“确认”。当自动生成的SQL语句无法满足业务需求时,也可以通过在文本框输入自定义SQL语句。表输入组件的其他配置参数保持默认即可,

另一个订单_产品信息表输入也参考上述配置,获取“business_anaylsis.product”的SQL查询语句



4.2 记录集连接配置

记录集连接配置如下:

配置项 内容
连接类型 LEFT OUTER
第一张表 order_detail
第二张表 product
连接字段 produc_id → id

配置完成后即可实现多表关联。

双击记录集连接组件,在下拉列表中选择需要连接的数据来源

第一个Transform选择订单_详细订单,第二个Transform选择订单_产品信息,连接类型选择LEFT OUTER

点击第一个Transform的连接字段中的“获得连接字段”按钮,即可获取表输入组件在订单_详细订单的查询到的字段

同样的,获取第二个Transform的连接字段

第一个Transform字段保留 produc_id,第二个Transform的字段保留 id,连接类型选择LEFT OUTER,表示使用订单_详细订单的字段 produc_id 与订单_产品信息的字段 id 进行左外连接

第一个Transform字段中除了 produc_id 外的其他字段,右键点击“删除选中的行”,第一个Transform字段中除了id 外的其他字段,右键点击“删除选中的行”

删除完后,点击“确认”,若删除错误,可重新获取连接字段再进行删除

通过记录集连接后,我们可以发现,字段 produc_id 与字段 id 内容相同,只需要保留一个,因此,需要使用“移除产品ID_1字段”字段选择组件的移除选项移除字段 id,具体操作如下:

双击“移除产品ID_1字段”字段选择组件,点击“移除”,并点击“获取字段”

在获取的字段中选中除“id”字段以外的字段,右键点击“删除选中的行”

可以看到,字段“id”已被删除,点击“确认”


4.3 过滤记录配置

根据业务需求需要将盈利订单亏损订单分开存储,两个订单可以使用字段利润来区分
双击“过滤记录”组件,在弹窗中的下拉列表中选择将结果发送给不同的后续处理步骤,如下图:

选择字段**利润(profit)**来作为判断字段,选中“profit(Number)”后点击“确定”

>=0 作为判断条件,点击“=”,在函数中选择“>=”,点击“确定”

点击“value”,值类型选择“Integer”,值输入“0”点击“确定”

至此,过滤条件已配置完成,点击“确认”

将接收到的结果写入到Excel表中,双击“盈利订单”excel表输出组件,在配置弹窗中,文件名修改为“盈利订单”,选择文件拓展名“xlsx [Excel 2007 and above]”

在配置弹窗中点击“输出字段”,在空白表格处右键点击“获取字段”

字段获取后,点击“确认”

“亏损订单”的excel组件也进行同样的设置


五、执行转换任务

所有组件配置完成后,点击:


启动

即可执行整个转换流程。

运行成功后,可以查看:

  • 执行日志
  • 输出文件
  • 各组件运行状态


六、实验结果

最终系统成功生成两个 Excel 文件:

输出文件 内容
盈利订单.xlsx 利润 ≥ 0 的订单
亏损订单.xlsx 利润 < 0 的订单

说明整个 ETL 流程已经成功运行。

通过结果文件,可以进一步进行:

  • 利润分析
  • 产品盈利能力分析
  • 亏损原因分析

七、实验过程中遇到的问题

问题1:Excel 输出无法获取字段

问题现象

点击“获取字段”后没有反应。

原因分析

过滤记录组件连接线类型配置错误。

解决方法

重新设置连接关系:


True 输出 → 盈利订单
False 输出 → 亏损订单

问题解决。


问题2:Excel 输出执行报错

问题现象

转换执行时报错。

原因分析

两个 Excel 输出组件使用了相同文件名。

解决方法

分别修改为:


盈利订单
亏损订单

之后即可正常执行。


八、实验总结

通过本次实验,我对助睿零代码 ETL 平台有了更深入的认识。

相比传统 SQL 脚本处理方式,这种拖拽式数据加工更加直观:

  • 数据流向清晰
  • 组件逻辑容易理解
  • 调试更加方便

对于 ETL 初学者来说,能够快速理解:

  • 数据抽取
  • 数据转换
  • 数据加载
  • 数据分流

等核心概念。

同时,本次实验也让我进一步理解了企业中常见的数据加工流程,为后续学习数据分析和数据工程相关内容打下了基础。


九、实验体会

这次实验最大的感受是:


ETL 并不只是“搬运数据”,而是对数据进行结构化处理的重要过程。

以前更多接触的是 SQL 查询,而这次通过可视化流程方式,更容易理解数据在不同组件之间的流动过程。

对于刚学习数据分析的人来说,这种方式比直接编写复杂脚本更容易入门。

后续我还准备继续学习:

  • 数据清洗
  • 数据建模
  • 数据可视化
  • 机器学习流程

进一步提升自己的数据分析能力。


#助睿数智 #商业数据分析 #ETL数据加工 #数据实验

Logo

一站式 AI 云服务平台

更多推荐