基于零代码平台的订单利润分流数据加工

一、实验背

1.1 实验目的

本次实验旨在熟练掌握助睿零代码数据集成平台(ETL平台)的核心功能与操作方法,具体目标如下:

  • 熟练掌握新建转换、添加组件、配置组件、执行转换等基础操作流程;
  • 熟悉表输入、记录集连接、字段选择、过滤记录、Excel输出等常用组件的配置方式;
  • 理解多表关联、数据过滤与分流处理的ETL设计思路。

通过本次实验,能够独立运用助睿平台完成常规数据加工任务,为后续开展更复杂的数据处理工作奠定基础。

1.2 实验环境

  • 零代码在线实验平台:助睿数智(Uniplore)——一站式数据科学平台,覆盖数据接入、ETL处理、机器学习建模、可视化展示等全链路零代码功能。

产品官网:https://www.uniplore.com/

实验访问地址:https://lab.guilian.cn/

  • 数据库:MySQL(包含订单数据与产品信息表)
  • 数据准备:
    • 订单表:business_anaylsis.order_detail
    • 产品表:business_anaylsis.product

1.3 业务场景

在企业经营分析工作中,常常需要关联多张数据表计算订单利润,并依据利润正负对订单进行分类存储。本次实验以“订单利润分流”为实际案例,通过零代码拖拽式操作完成该项数据处理任务。

1.4 数据加工流程

=

二、实验步骤

2.1 登录实验平台

  1. 打开贵兰在线PC端: https://www.guilan.cn/home

2.点击页面【登录】按钮,输入账号与密码;未注册用户可先通过学号登录。

  1. 登录成功后,依次点击【我的学习】→【实训平台】,进入平台首页。

2.2 基本概念了解

助睿平台是一款由AI驱动的一站式大数据智能全流程服务产品。本次实验所使用的数据集成平台,可通过可视化操作实现数据ETL流程。

概念

说明

Pipeline(转换)

面向数据流的功能单元,由多个 Transform 组成

Workflow(作业)

面向任务,由多个 Action 组成,必须包含开始项

Transform(步骤)

转换内的最小单元(如表输入、字段选择),每个步骤独立线程运行

Action(任务项)

作业的执行单位(如启动、发送邮件)

Hops(节点连接)

数据传输通道,连接步骤或任务项

2.3 团队管理

  1. 进入【数据集成】板块,选择【团队管理】,点击【新增团队】。

2.添加成功后可在成员列表中查看。

2.4 创建实验项目

  1. 切换至【我的项目】模块,选择所属团队,点击【新建项目】。
  2. 填写“项目名称”,点击【确定】。
  3. 返回后可在数据集成页面看到新建的项目。

  1. 项目操作页面包含三个主要区域:
    • 资源库:管理工作流、导入导出、调度等;
    • 文件库:保存工作流输入/输出文件;
    • 元数据:配置运行参数、数据库连接、Flink集群等。

2.7 添加组件

本实验需要的组件及作用:

组件

作用

表输入

读取原始数据表

记录集连接

根据产品ID关联两张表

字段选择

移除重复的产品ID字段

过滤记录

根据利润正负分流数据

Excel输出

分别输出盈利订单/亏损订单

  1. 添加表输入组件(2个)

搜索并拖拽两个“表输入”组件至画布,分别重命名为“详细订单”与“产品信息”。

  1. 添加记录集连接组件

拖拽“记录集连接”组件至画布,分别从两个表输入组件向该组件建立连线。连线时会弹出“排序需要”提示(因记录集连接要求输入数据保持有序)。

(3) 添加字段选择组件

拖拽“字段选择”组件,重命名为“移除产品ID字段”,并连接在记录集连接之后。

(4) 添加过滤记录组件

拖拽“过滤记录”组件,连接字段选择组件,连线类型选择【主输出步骤】。

(5) 添加Excel输出组件(2个)

拖拽两个“Excel输出”组件,分别重命名为“盈利订单”和“亏损订单”。

建立过滤记录到Excel输出的连线:

  1. True输出 → 盈利订单
  2. False输出 → 亏损订单

         

2.8 配置组件信息

2.8.1 表输入组件配置

详细订单组件

  1. 双击组件,在“数据库连接”下拉框中选择“线上公共数据源(Readonly)”;
  2. 点击【获取SQL查询语句】;
  3. 浏览选中 business_anaylsis.order_detail 表,点击【确定】;
  4. 在弹出的确认框中点击【确认】,系统将自动填充SQL语句。

产品信息组件:同样步骤,选择 business_anaylsis.product 表。

2.8.2 记录集连接组件配置

  1. 双击组件,设置:
    • 第一个Transform:详细订单
    • 第二个Transform:产品信息
    • 连接类型:LEFT OUTER
  2. 分别点击【获取连接字段】,得到两个表的字段列表。
  3. 仅保留:
    • 第一个Transform的 product_id
    • 第二个Transform的 id
  4. 删除其余字段,完成配置。

2.8.3 字段选择组件配置

  1. 双击“移除产品ID字段”组件,点击【移除】标签页;
  2. 右键点击【获取字段】,删除除 id 之外的所有字段;
  3. 确认仅剩余 id 字段后,点击【确认】完成配置。

2.8.4 过滤记录组件配置

  1. 双击组件,在弹窗中选择“将结果发送给不同的后续处理步骤”;
  2. 选取字段 profit (Number) 作为判断依据;
  3. 条件设置为 >=;
  4. 值类型选择 Integer,数值输入 0;
  5. 点击【确定】完成配置。

2.8.5 Excel输出组件配置

以盈利订单组件为例:

  1. 双击组件,设置文件名为“盈利订单”;
  2. 扩展名选择 xlsx [Excel 2007 and above];
  3. 点击【输出字段】标签页,右键【获取字段】,确认字段信息后点击【确认】。

亏损订单做相同配置。

2.9 执行转换

2.10 查看执行日志

任务执行过程中,日志实时记录。执行完毕后,可点击日志面板查看详细信息。

2.11 查看结果

  1. 切换至【文件库】菜单;
  2. 右键点击根目录,选择【刷新】;
  3. 即可看到生成的“盈利订单.xlsx”与“亏损订单.xlsx”文件;
  4. 右键点击文件,可将其下载至本地查看具体内容。

三、实验结果

输出文件

内容

说明

盈利订单.xlsx

profit ≥ 0 的订单

可用于进一步分析高利润产品

亏损订单.xlsx

profit < 0 的订单

可用于追踪产品亏损的原因

盈利订单

亏损订单

四、核心组件说明

组件

作用

本实验配置要点

表输入

读取数据库表

配置数据源和SQL,自动获取字段

记录集连接

多表关联

选择左外连接,连接字段 product_id = id

字段选择

字段筛选与重命名

移除重复的 id 字段

过滤记录

按条件分流

设置条件 profit >= 0

Excel 输出

导出结果到Excel

分别配置文件名和输出字段

五、问题与解决

问题描述:

  1. 配置“记录集连接”后运行报错,提示“数据未排序”。
  2. 过滤记录后数据流向混乱,无法正确分流盈利与亏损订单。
  3. Excel输出文件生成失败,提示“文件路径无效”。

原因分析:

  1. 记录集连接组件要求输入数据必须按关联字段排序,原始表输入未做排序,导致连接失败。
  2. 过滤记录组件的True/False输出连线错误,未分别指向对应Excel输出组件。
  3. Excel输出组件未正确配置文件保存路径,或文件名含特殊字符,导致无法写入文件。

解决方法:

  1. 在两个表输入后分别添加“排序记录”组件,按关联字段(product_id、id)升序排序,再连接记录集连接组件,报错消失。
  2. 重新调整连线:过滤记录True端连接“盈利订单”,False端连接“亏损订单”,分流恢复正常。
  3. 重新配置Excel输出组件,文件名仅使用中文、字母与数字,不添加特殊符号,路径选择平台默认目录,文件成功生成。

六、实验总结

通过本次实验,全面掌握了助睿ETL数据处理平台的核心操作方法:

  • 完成平台内团队创建、项目搭建,实现数据源的对接与同步配置;
  • 新建数据转换任务,熟练配置数据读取、多表关联、字段筛选、数据过滤、结果文件输出等标准组件;
  • 搭建完整数据转换流程,完成任务运行与数据结果核验工作;
  • 熟练掌握多表关联查询、冗余字段清理、条件数据分流等ETL数据处理核心思路。

相较于传统手动编写SQL脚本的数据处理模式,该平台零代码可视化的操作方式,具备流程逻辑清晰、数据流向直观的优势,能够快速定位运行异常、简化调试流程,有效降低了数据处理的技术门槛。本次实验熟练掌握了ETL全流程基础操作,为后续开展复杂数据调度、多流程联动等进阶实训任务奠定了坚实基础。

Logo

一站式 AI 云服务平台

更多推荐