本文是一篇学习笔记式实验记录,主要整理我在助睿数智平台中完成订单利润分流数据加工的过程。实验重点是通过零代码 ETL 组件完成订单表和产品表的关联,并按照利润字段将订单拆分为盈利订单和亏损订单。

一、实验背景

1.1 实验目的

本次实验使用助睿数智(Uniplore)一站式数据科学实验平台完成订单利润分流数据加工任务。通过实验,我主要想掌握以下内容:

  • 熟悉助睿数智零代码数据集成平台的基本操作方法;
  • 掌握新建转换流、添加组件、配置组件、执行转换等基础流程;
  • 熟悉表输入、记录集连接、字段选择、过滤记录、Excel 输出等常用 ETL 组件;
  • 理解多表关联、字段清洗、条件过滤和结果分流的基本数据处理逻辑;
  • 能够将订单数据按照利润情况拆分为盈利订单和亏损订单,并输出为 Excel 文件。

1.2 实验环境

本次实验基于助睿数智平台完成,平台和数据环境如下:

平台全称:助睿数智(Uniplore)一站式数据科学实验平台
平台定位:覆盖数据接入、ETL处理、机器学习建模到可视化分析的全链路 Agentic 零代码数据智能平台
产品官网:https://www.uniplore.com/
实验平台地址:https://lab.guilian.cn/

数据库:MySQL
订单明细表:business_anaylsis.order_detail
产品信息表:business_anaylsis.product

1.3 业务场景

在企业经营分析中,订单数据通常需要和产品信息表进行关联,才能进一步分析产品、销售额、利润等指标。本次实验以订单利润分流为例,通过零代码拖拽方式完成以下任务:

  • 将订单明细表和产品信息表进行关联;
  • 移除关联后产生的重复字段;
  • 根据利润字段 profit 判断订单是盈利还是亏损;
  • 将盈利订单和亏损订单分别输出为 Excel 文件。

1.4 数据加工流程

本次实验的整体处理流程如下:

在这里插入图片描述
整体逻辑可以概括为:读取订单数据和产品信息数据 → 按产品 ID 关联 → 清理重复字段 → 按利润正负分流 → 输出 Excel 文件。

二、实验步骤

2.1 登录实验平台

  1. 首先打开实验平台地址,并使用课程或实验账号登录。
https://lab.guilian.cn/
  1. 进入页面后,点击进入右上角头像,随后点击“我的学习”
    在这里插入图片描述
  2. 进入以后,点击进入实训平台
    在这里插入图片描述
  3. 进入实验平台首页
    在这里插入图片描述

配置要点:登录后进入实训平台,后续主要在“数据集成 / ETL”模块中完成实验操作。

2.2 了解数据集成平台基本概念

在开始操作前,我先了解了助睿数据集成平台中的几个基本概念。

概念 说明
Pipeline(转换) 面向数据流的数据处理单元,由多个 Transform 组成
Workflow(作业) 面向任务的完整流程,由多个 Action 组成,通常包含开始项
Transform(步骤) 转换流中的最小处理单元,例如“表输入”“字段选择”等
Action(任务项) 作业中的执行单元,例如“启动”“发送邮件”等
Hops(节点连接) 步骤之间的数据传输通道,用来连接不同组件

转换工作流
在这里插入图片描述
作业工作流
在这里插入图片描述

本次实验主要使用的是转换流 Pipeline,通过多个 Transform 组件完成订单数据加工。

2.3 团队管理

进入平台后,选择数据集成 / ETL 模块,进入数据集成页面。在团队管理环节,可以由小组组长创建团队,方便统一管理课程实验作业。
在这里插入图片描述

  1. 点击团队管理,新增团队
    在这里插入图片描述

  2. 在弹窗中填写团队名称和团队描述,点击确认;
    在这里插入图片描述

  3. 根据需要添加小组成员。

配置要点如下:

团队名称:根据课程小组命名
团队描述:填写课程实验或小组说明

2.4 创建实验项目

平台提供默认项目,但为了方便管理实验内容,本次实验新建一个专属项目。

  1. 在数据集成页面选择所属团队;
    在这里插入图片描述

  2. 点击新建项目,输入项目名称,点击确认;
    在这里插入图片描述

  3. 创建成功后,可以在项目列表中看到新项目。
    在这里插入图片描述
    本次实验中,项目可以归属于课程小组,也可以归属于个人空间,具体以自己实际需求为准。

2.5 同步数据源

项目创建成功后,点击项目右上角的“…”,选择打开项目。进入项目页面后,可以看到左侧主要有资源库、文件库、元数据三个菜单。

菜单 作用
资源库 管理转换流和作业,包括新建、删除、修改、导入导出等
文件库 存放实验输入文件和转换输出文件
元数据 管理数据库、运行配置、Flink 集群等信息

本次实验需要先在元数据中同步公共数据源。

  1. 点击左侧元数据,右键根目录下的关系数据库,点击同步数据源;
    在这里插入图片描述

  2. 切换到文件库后再切回元数据;

  3. 查看是否成功出现“线上公共数据源(Readonly)”。
    在这里插入图片描述

配置要点:本实验使用只读公共数据源,后续表输入组件需要选择该数据源。

2.6 新建转换流

本次实验需要创建一个转换流,用于完成订单数据和产品信息数据的关联,并根据利润字段进行分流。

  1. 切换到资源库,右键根目录,点击新建转换流;
    在这里插入图片描述
  2. 输入转换流名称“订单利润分流处理”,点击确定;
转换流名称:订单利润分流处理

在这里插入图片描述

  1. 进入转换流设计页面;
    在这里插入图片描述

  2. 转换流设计页面每次打开都是锁定状态,需要解锁后才可编辑转换流,点击锁图标进行解锁,进入可编辑状态。

在这里插入图片描述

转换流的整体逻辑如下:

订单明细表 → 左外连接产品信息表 → 移除重复 ID 字段 → 按 profit >= 0 分流 → 分别输出盈利订单和亏损订单
组件 作用
表输入 读取订单明细表和产品信息表
记录集连接 按产品 ID 关联两张表
字段选择 移除重复字段
过滤记录 按利润正负进行分流
Excel 输出 输出盈利订单和亏损订单

2.7 添加组件

2.7.1 添加表输入组件

本次实验需要读取两张表,因此需要添加两个表输入组件。

business_anaylsis.order_detail
business_anaylsis.product
  1. 点击组件库,在搜索框中输入“表输入”,将表输入组件拖拽到画布中;
    在这里插入图片描述

  2. 再次拖拽一个表输入组件;
    在这里插入图片描述

  3. 双击组件,将第一个组件命名为“订单_详细订单”;
    在这里插入图片描述

  4. 同理将第二个组件命名为“订单_产品信息”。

在这里插入图片描述

配置要点:两个表输入组件分别对应订单明细表和产品信息表,名称要能清楚表达数据来源。

2.7.2 添加记录集连接组件

两个表输入组件读取数据后,需要通过记录集连接组件进行关联。

  1. 在组件库搜索“记录集连接”,并将记录集连接组件拖拽到画布中;
    在这里插入图片描述

  2. 将两个表输入组件分别连接到记录集连接组件;

  3. 如果出现“排序需要”的提示,需要注意记录集连接对数据顺序有要求。
    在这里插入图片描述

2.7.3 添加字段选择组件

两张表关联后,会出现重复字段,例如产品 ID 字段。为了避免后续数据冗余,需要使用字段选择组件移除重复字段。

  1. 在组件库搜索“字段选择”,将字段选择组件拖拽到画布中;
    在这里插入图片描述

  2. 右键编辑组件;
    在这里插入图片描述

  3. 将组件名称修改为“移除产品ID_1字段”;
    在这里插入图片描述

  4. 将记录集连接组件连接到字段选择组件。

在这里插入图片描述

配置要点:字段选择组件主要用于移除重复 id 字段,保证输出结果字段更清晰。

2.7.4 添加过滤记录组件

本次实验需要根据利润字段 profit 判断订单是盈利订单还是亏损订单,因此需要添加过滤记录组件。

  1. 在组件库搜索“过滤记录”,将过滤记录组件拖拽到画布中;
    在这里插入图片描述
  2. 将字段选择组件连接到过滤记录组件,在连接线弹窗中选择主输出步骤。

在这里插入图片描述

2.7.5 添加 Excel 输出组件

过滤记录后会产生两个数据流,因此需要添加两个 Excel 输出组件。

  1. 在组件库搜索“Excel 输出”,拖拽两个 Excel 输出组件到画布中;
    在这里插入图片描述

  2. 右键选择“编辑组件”,将两个组件分别命名为“盈利订单”和“亏损订单”;
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  3. 将过滤记录组件连接到两个 Excel 输出组件;

  4. 连接到“盈利订单”时选择 True 输出;
    在这里插入图片描述

  5. 连接到“亏损订单”时选择 False 输出。
    在这里插入图片描述

配置要点:True 输出表示满足过滤条件的记录,False 输出表示不满足过滤条件的记录。

2.8 配置组件信息

组件添加完成后,还需要逐个配置组件参数。

2.8.1 配置表输入组件

双击“订单_详细订单”表输入组件,进入组件配置页面。

  1. 在数据库连接下拉框中选择“线上公共数据源(Readonly)”;
    在这里插入图片描述

  2. 点击获取 SQL 查询语句,搜索并选择订单明细表;
    在这里插入图片描述

  3. 点击确定;
    在这里插入图片描述

  4. 系统自动生成 SQL 查询语句,点击确认保存。
    在这里插入图片描述

  5. 另一个表输入也参考上述配置,获取’business_anaylsis.product”的SQL查询语句
    在这里插入图片描述

订单明细表:business_anaylsis.order_detail
产品信息表:business_anaylsis.product

配置要点:表输入组件可以自动生成 SQL。当自动生成 SQL 无法满足业务需求时,也可以手动编写 SQL。

2.8.2 配置记录集连接组件

双击记录集连接组件,进入配置页面。

  1. 在第一个 Transform 中选择“订单_详细订单”;

  2. 在第二个 Transform 中选择“订单_产品信息”;

  3. 连接类型选择 LEFT OUTER;

  4. 点击获得连接字段;
    在这里插入图片描述

  5. 第一个 Transform 中只保留 produc_id,选中需要删除的字段,右键点击”删除选中的行”;
    在这里插入图片描述

  6. 点击”确认”,若删除错误,可重新获取连接字段再进行删除
    在这里插入图片描述

  7. 第二个 Transform 中只保留 id,其他字段右键删除,点击确认。
    在这里插入图片描述

使用左外连接可以尽量保留订单表中的全部订单记录。

2.8.3 配置字段选择组件

经过记录集连接后,字段 produc_id 和字段 id 表示相同含义,因此只需要保留一个字段。

  1. 双击“移除产品ID_1字段”组件,点击移除选项,点击获取字段;
    在这里插入图片描述

  2. 在字段列表中只保留需要移除的 id 字段,删除其他不需要移除的字段行。
    在这里插入图片描述

  3. 点击确认。
    在这里插入图片描述

配置要点:移除产品表中的重复 id 字段,保留订单表中的 produc_id 及其他业务字段。

2.8.4 配置过滤记录组件

过滤记录组件用于按照利润字段对订单进行分流。

  1. 双击过滤记录组件,选择字段 profit(Number);
    在这里插入图片描述

  2. 配置判断条件为 >=;
    在这里插入图片描述

  3. 值类型选择 Integer;
    在这里插入图片描述

  4. 值输入 0;
    在这里插入图片描述

  5. 点击确认。
    在这里插入图片描述

2.8.5 配置 Excel 输出组件

双击“盈利订单”Excel 输出组件,进入配置页面。

  1. 将文件名修改为“盈利订单”,文件扩展名选择 xlsx [Excel 2007 and above];
    在这里插入图片描述

  2. 点击输出字段,在空白表格处右键点击获取字段;
    在这里插入图片描述

  3. 字段获取成功后点击确认;

  4. “亏损订单”组件也按相同方式配置。
    在这里插入图片描述
    在这里插入图片描述

盈利订单.xlsx
亏损订单.xlsx

配置要点:两个 Excel 输出组件的文件名不能相同,否则执行时可能会报错。

2.9 执行转换

组件全部配置完成后,可以执行转换任务。

  1. 点击页面中的启动按钮;
  2. 在弹出的窗口中点击启动;
  3. 等待转换执行完成;
  4. 查看页面提示和执行状态。

在这里插入图片描述

执行前需要检查所有组件是否正确连接,表输入 SQL 是否正确,连接字段是否正确,过滤条件是否为 profit >= 0,以及两个 Excel 输出文件名是否不同。

2.10 查看执行日志

任务执行过程中,平台会记录运行日志。转换执行完成后,可以查看日志判断任务是否成功。

在这里插入图片描述

日志检查重点包括:是否出现错误提示、是否有组件执行失败、是否成功生成输出文件、数据流是否正常传递到 Excel 输出组件。

2.11 查看输出结果

转换执行成功后,点击左侧文件库,右键根目录刷新,可以看到本次实验生成的输出文件。

盈利订单.xlsx
亏损订单.xlsx

在这里插入图片描述

可以右键下载文件并打开查看数据内容。

三、实验结果

本次实验成功生成了两个 Excel 输出文件。

输出文件 内容 说明
盈利订单.xlsx profit >= 0 的订单数据 可用于后续分析盈利订单、优势产品和高利润产品
亏损订单.xlsx profit < 0 的订单数据 可用于后续分析亏损订单、异常产品和亏损原因

在这里插入图片描述
在这里插入图片描述

从实验结果来看,订单明细表和产品信息表已经成功完成关联,并且通过 profit 字段完成了订单分流。

本次实验的结果验证方式主要包括:

  1. 在文件库中确认是否生成两个 Excel 文件;
  2. 下载 Excel 文件后检查字段是否完整;
  3. 检查“盈利订单.xlsx”中 profit 是否大于等于 0;
  4. 检查“亏损订单.xlsx”中 profit 是否小于 0;
  5. 检查是否已经移除重复的 id 字段。

通过以上验证,可以确认本次订单利润分流处理流程执行成功。

四、问题与解决

问题一:Excel 输出组件获取不到字段

问题现象: 在配置 Excel 输出组件时,点击“获取字段”后没有正常获取到字段信息。

问题原因: 检查后发现,是过滤记录组件到 Excel 输出组件之间的连接线类型选择错误。盈利订单应该连接 True 输出,亏损订单应该连接 False 输出。如果连接线类型配置错误,后续 Excel 输出组件无法正确识别输入字段。

解决方法: 重新创建过滤记录组件到 Excel 输出组件之间的连接线,并正确选择输出类型。

盈利订单:True 输出
亏损订单:False 输出

重新连接后,再次点击“获取字段”,即可正常获取字段。

问题二:两个 Excel 输出组件文件名相同导致执行报错

问题现象: 两个 Excel 输出组件配置完成后执行转换,系统出现报错,转换无法正常完成。

问题原因: 检查后发现,两个 Excel 输出组件的默认文件名都没有修改,仍然是默认的 file。两个输出步骤使用相同文件名,导致平台无法区分输出结果。

解决方法: 将两个 Excel 输出组件的文件名分别修改为“盈利订单”和“亏损订单”,并选择 xlsx 格式。

盈利订单.xlsx
亏损订单.xlsx

修改后重新执行转换,任务可以正常运行,并成功生成两个 Excel 文件。

五、实验总结

通过本次实验,我熟悉了助睿数智零代码 ETL 平台的基本操作流程,包括创建团队、创建项目、同步数据源、新建转换流、添加组件、配置组件、执行转换和查看输出结果。

在组件使用方面,本次实验重点练习了以下组件:

组件 本次实验中的作用 本实验配置要点
表输入 读取数据库表 配置数据源和SQL,自动获取字段
记录集连接 多表关联 选择连接类型和连接字段
字段选择 字段筛选与重命名 移除重复的id字段
过滤记录 按条件分流 设置profit ≥0
Excel 输出 导出结果 配置文件名和输出字段

本次实验让我进一步理解了 ETL 数据处理的基本流程。相比直接编写 SQL 或脚本,助睿数智平台通过可视化拖拽方式展示数据流向,整体操作更加直观,也便于检查每个步骤的数据处理逻辑。

在实验过程中,我也发现零代码平台虽然降低了操作门槛,但组件之间的连接类型、字段配置、输出文件名等细节仍然需要认真检查。例如,过滤记录组件的 True / False 输出连接错误,就会影响后续字段获取;Excel 输出文件名重复,也会导致任务执行失败。

总体来说,本次实验完成了订单利润分流数据加工任务,也让我对数据接入、表关联、字段清洗、条件过滤和结果输出这一类常见数据处理流程有了更清晰的认识。对于初学者来说,助睿数智平台能够帮助我们更直观地理解 ETL 的执行过程,也适合作为商业数据分析和数据处理实验的学习工具`

Logo

一站式 AI 云服务平台

更多推荐