一、实验背景

1.1 实验目的

本次实验旨在熟悉助睿零代码数据集成平台(ETL 平台)的核心功能和操作方法,具体包括:

  • 掌握助睿 ETL 软件基本操作:新建转换、添加组件、执行转换的完整流程
  • 熟悉表输入、记录集连接、字段选择、过滤记录、表输出等核心组件的配置与使用方法
  • 理解并实践多表关联、数据过滤与分流处理的 ETL 设计思路

通过本次实验,能够独立使用助睿平台完成订单数据的关联加工、过滤分流任务,为后续复杂数据处理场景打下基础。

1.2 实验环境

  • 零代码在线实验平台:本次实验基于助睿数智(Uniplore)一站式数据科学平台完成。该平台提供可视化 ETL 数据集成能力,覆盖数据接入、转换、加载全流程,支持零代码拖拽式开发,适用于教学与企业数据加工场景。产品官网为 https://www.uniplore.com/,本次实验的访问地址为 https://lab.guilian.cn/。
  • 数据库:MySQL 数据库,包含订单数据与产品信息两张核心业务表
  • 数据准备:订单表(business_anaylsis.order_detail)、产品表(business_anaylsis.product)

1.3 数据加工流程

二、实验步骤

2.1 登录并进入实训平台

进入ETL界面

2.2 团队管理

团队分为个人团队和协作团队,协作团队可和团队成员共享资源线上共同完成工作,个人团队系统默认创建。本次实验是个人实验,可以不用创建协作团队,如果想要创建协作团队也可参考下列步骤:

进入团队管理并新增团队

输入团队名称、描述后即可创建协作团队,团队组长可通过手机号搜索添加组员

2.3 项目创建

可以使用系统默认创建的项目进行实验,但为了方便课程实验管理推荐自主创建项目进行实验。

确定项目所属团队

完善项目信息,其中项目名称必填,且确定后不可更改,其余选填

2.4 完成实验

点击项目右上角“…”打开项目

项目打开后左侧有三个库:

资源库:对工作流的管理,包括新建、删除、修改、查看工作流的信息;导出导入工作空间;调度管理等操作

文件库:保存工作流中需要用到的文件和工作流产生的文件

元数据:为工作流定义 “运行配置”、“数据库”、“flink 集群” 等配置

本次实验主要使用资源库和文件库

同步数据源:

选择元数据,右键关系数据库,选择同步数据源,同步成功后点击资源/文件库再切回元数据即可看见线上公共数据源已添加

新建转换流:

选择资源库,右键根目录,选择新建转换流并命名

转换流设计页面每次打开均处于锁定状态,需要手动点击解锁

添加组件:

本次实验涉及订单数据表(business_anaylsis.order_detail)和产品信息数据表(business_anaylsis.product)两张表的合并计算,首先需要两个“表输入”组件。

在表输入读取数据之后需要将读入的数据进行关联,这时候我们需要添加“记录集连接”组件来关联数据

同表输入组件添加过程,搜索记录集连接组件并拖入画布

创建表输入到记录集连接的连线

两表数据连接后会出现重复“产品ID”字段,这时候我们可以通过“字段选择”组件来移除重复字段,同前面组件添加步骤添加字段选择组件并建立连接

本实验通过利润字段的值进行分流,所以我们现在需要添加一个“过滤记录”组件

建立连接时需要我们选择连接线类型,我们选择主输出步骤

主输出步骤:在数据过滤分流时可能有数据不符合过滤要求而被标记为错误,主输出步骤表示满足要求的数据通过该连接线传输数据

数据过滤后将被分为2个数据流,我们可以指定这2个数据流输出到什么地方。本次实验中我们将其以excel格式进行输出,这需要我们添加“excel输出”组件

双击添加的excel输出组件,将两个组件的名称分别改为“盈利订单”“亏损订单”

接下来我们将对各个组件进行配置使其能够满足实验的要求

首先右键表输入组件,选择编辑组件,将组件名改为订单_详细订单,然后在数据库一栏选择已同步的线上公告数据源,接着获取SQL语句

点击打开“表”目录,并选择business_anaylsis.order_detail表单

一路点击确定,最后获得完整的SQL语句并点击确认

另一个表输入组件命名为订单_产品信息,选择business_anaylsis.product表单,其余操作同上

接下来配置记录集连接组件,进入组件编辑界面进行如下配置

点击获得连接字段

第一个Transform中保留product_id字段,第二个Transform中保留id字段,其余全部删除并点击确认。若不小心误删,可以重新获得连接字段

配置字段选择组件,首先将组件名改为移除产品ID_1字段,然后选择“移除”,在下方的空白部分右键选择获取字段

将除id字段外的其余字段全部删除,最后点击确认

配置过滤记录组件时,先将其与盈利订单和亏损订单相连,连接盈利订单时选择True输出,连接亏损订单时选择False输出

进入过滤记录组件编辑界面,将匹配结果发送给盈利订单,不匹配结果发送给亏损订单

选择利润profit字段作为过滤判断字段

判断条件设置为>=0

最后配置excel输出组件,进入组件编辑界面,将文件名修改为组件名(盈利订单/亏损订单),文件扩展名选择xlsx[Excel 2007 and above]

点击输出字段,在下方空白处右键选择获取字段,获取完成后点击确认

两个excel输出组件均按照此步骤配置,配置完成后即可点击开始按钮开始转换

任务执行时会将各种信息写入执行日志,任务执行完成后可以查看执行日志与结果

点击文件库,右键根目录选择刷新即可看见生成的两个excel文件

三、实验结果

3.1 实验结果展示

盈利订单结果展示:

亏损订单展示:

3.2 实验结果分析与验证

通过借助AI对盈利订单和亏算订单进行了全量数据校验,未发现任何分类错误,数据分流逻辑完全符合 “利润≥0 为盈利订单、利润 < 0 为亏损订单” 的规则,整体分类准确率达 100%。

文件名称

记录总数

利润字段校验标准

异常记录数

盈利订单 (1).xlsx

7,977 条

利润≥0

0 条

亏损订单 (1).xlsx

2,023 条

利润 < 0

0 条

合计

10,000

-

0

利润分布详情

  • 盈利订单
    • 利润范围:0 ~ 10,108(无负数)
    • 平均利润:394
  • 亏损订单
    • 利润范围:-7,978 ~ -1(无非负数)
    • 平均亏损额:487(取绝对值)

四、问题与解决

问题:excel输出报错。

原因:配置excel输出组件时只更改了组件名而忘记更改对应的文件名导致两个文件重名。

解决:更改excel输出组件所要输出的文件的文件名,重新执行后顺利完成。

五、实验总结

通过本次实验,我系统掌握了助睿零代码 ETL 平台的核心操作流程,涵盖项目创建、数据源同步、转换流搭建、组件配置、任务执行与结果校验等环节。同时我也了解了表输入、记录集连接、字段选择、过滤记录、Excel 输出等组件的作用与相关配置方法

助睿零代码 ETL 平台相较于传统编写 SQL 或脚本的数据处理方式,图形拖拽式交互开发更加简单,数据流向与经过哪些处理更加清晰透明,大幅降低了流程理解与问题调试的难度。这种可视化开发模式显著降低了数据处理的学习门槛,让初学者也能快速上手。

Logo

一站式 AI 云服务平台

更多推荐