目录

一、实验背景

1.1 实验目的

1.2 实验环境

1.3 业务场景

1.4 数据加工流程

二、实验步骤

2.1 登录实验平台

2.2 基本概念了解

2.3 团队管理

2.4 创建实验项目

2.5 同步数据流

2.6 新建转换流

2.7 添加组件

2.8 配置组件信息

2.8.1 表输入组件配置

2.8.2 记录集连接组件配置

2.8.3 字段选择组件配置

2.8.4 过滤记录组件配置

2.8.5 Excel 输出组件配置

2.9 执行转换

2.10 查看执行日志

2.11 查看结果

三、实验结果

四、核心组件说明

五、问题与解决

六、实验总结


一、实验背景

1.1 实验目的

本次实验旨在熟悉助睿零代码数据集成平台(ETL平台)的核心功能和操作方法,具体包括:

  • 掌握新建转换、添加组件、配置组件信息、执行转换等基本操作流程
  • 熟悉表输入、记录集连接、字段选择、过滤记录、Excel 输出等常用组件的配置方法
  • 理解多表关联、数据过滤与分流处理的ETL设计思路

       通过本次实验,我们能够独立使用助睿平台完成常见的数据加工任务,为后续更复杂的数据处理场景打下基础。


1.2 实验环境

  • 零代码在线实验平台:本次实验使用 助睿数智(Uniplore)作为一站式数据科学平台。该平台覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能,适用于数据分析教学与企业数据加工场景。
  • 产品官网为 https://www.uniplore.com/,本次实验的访问地址为 https://lab.guilian.cn/
  • 数据库:MySQL(含订单数据和产品信息表)
  • 数据准备:订单表(business_anaylsis.order_detail)、产品表(business_anaylsis.product)


1.3 业务场景

       在企业的经营分析中,我们经常需要将多张表关联起来计算利润,并按利润正负对订单进行分类存储。本实验以订单利润分流为例,通过零代码拖拽方式完成这一数据处理任务。


1.4 数据加工流程


二、实验步骤

2.1 登录实验平台

  • 打开贵兰在线PC端,链接地址:https://www.guilan.cn/home

  • 点击登录,进入登录页面,输入账号和密码即可登录;未注册用户需先学号登录。

  • 登录成功后,点击【我的学习】→ 选择【实训平台】→ 进入平台首页。

  • 进入实验平台首页,如下图所示。


2.2 基本概念了解

  • 助睿平台是什么?  ——助睿平台是一款AI驱动的一站式大数据智能全流程服务产品,本次实验所用到的数据集成平台,可以通过可视化方式实现数据ETL(抽取、转换、加载)。
  • 基本概念如下
概念 说明
Pipeline(转换) 面向数据流,处理数据的一个功能单元,由多个Transform组成
Workflow(作业) 面向任务,完成一件完整的事,由多个Action组成,必须包含开始项
Transform(步骤) 转换内的最小单元,如“表输入”、“字段选择”,每个步骤独立线程运行
Action(任务项)

作业的执行单位,如“启动”、“发送邮件”

Hops(节点连接) 数据传输通道,连接步骤或任务项

2.3 团队管理

  • 点击【数据集成板块】,选择【团队管理】,点击【新增团队】,创建自己的协作团队。

  • 在弹框中填写【团队名称】和【团队描述】,点击确认即可完成团队的创建

  • 点击三个点,选择【添加成员】。

  • 输入用户名称可快速查询,选择好后,点击添加,即可完成成员的添加。

  • 完成后可以看到成员已经加入了我们的团队。

2.4 创建实验项目

  • 切换至【我的项目】模块,选择【所属团队】,点击【新建项目】。

  • 填写好【项目名称】,点击确定。

  • 返回后即可在数据集成页面查看到新建的项目。

2.5 同步数据流

  •  点击项目卡片右上角的三个小点,选择【打开项目】

  • 项目操作页面如下:

  • 资源库:用于管理工作流,包括新建、删除、修改、查看工作流的信息;导出和导入工作空间;调度管理等操作。
  • 文件库:用于保存工作流中需要用到的文件和工作流中产生的文件。
  • 元数据:元数据管理是数据集成的重要基石,为工作流定义“运行配置”、“数据库”、“flink集群”等配置。
  • 首先我们需要获取本次实验的数据集:选择【元数据】→ 右键【关系型数据库】→ 点击【同步数据源】

  • 点击其他菜单,再切换回【元数据】菜单,即可看到成功同步的 “线上公告数据源”

2.6 新建转换流

       为了实现本次实验的目标,我们将创建 “订单利润分流处理” 转换流,实现订单数据与产品信息的关联,删除冗余字段后,根据利润的正负将数据分流为盈利订单和亏损订单,分别输出到Excel文件中。

整体实验逻辑:订单明细表 →(左外连接)产品信息表 → 移除重复的ID字段 → 根据利润(profit)的正负分流 → 输出盈利订单表/亏损订单表

  • 切换到【资源库】菜单,右键项目的根目录,点击【新建转换流】。

  • 输入转换流名称,点击确定

  • 在目录中选中,右键【打开】,进入转换流的设计画布

  • 每次进入画布都处于锁定状态,需要点击🔒解锁,才可编辑画布。


2.7 添加组件

  • 点击组件库查找所需组件,也可通过关键词快速检索。
组件 作用
表输入 读取原始数据
记录集连接 根据产品ID关联两张表
字段选择 移除重复的ID字段
过滤记录 根据利润正负分流
Excel输出 分别输出盈利订单/亏损订单

(1)添加表输入组件(2个)

—— 本次实验需要将两类数据进行合并计算,需要读取2个不同表的数据。

  • 搜索并将两个表输入组件拖拽到画布中

  • 右键表输入组件,点击【编辑组件】。

  • 修改该步骤名称为:“详细订单”;同样地,将另一表输入组件的步骤名称改为:“产品信息”

(2)添加记录集连接组件

—— 本次实验在使用表输入组件读取数据后,需要通过记录集连接组件将表输入组件得到的数据进关联。

  • 搜索并将记录集连接组件拖拽到画布中

  • 点击表输入组件,创建表输入组件到记录集连接组件的连线

  • 在建立连接线时,会出现“排序需要”的提示。

       这是由于记录集连接组件是按接收数据的顺序进行记录关联的,如果接受的数据是无序的,可能会造成记录连接结果出错。

(3)添加字段选择组件

—— 两个表数据进行连接后,会出现重复的字段“产品ID”。我们可以通过“字段选择”组件移除这个多余的字段。

  • 搜索并拖拽添加字段选择组件到画布。

  • 我们可以右键字段选择组件,点击【编辑组件】,将步骤名称改为:移除产品ID字段

  • 创建记录集连接组件到字段选择(移除产品ID字段)组件的连线

(4)添加过滤记录组件

—— 本次实验需要根据订单的利润情况对订单进行分流处理。所以借助于“过滤记录”组件,可以根据记录中的某个字段值,对记录进行分流。

  • 搜索并拖拽过滤记录组件到画布中。

  • 创建字段选择字段组件到过滤记录组件的连线,在弹出的系统提示中,选择连接线类型为:【主输出步骤】

(5)添加Excel输出组件(2个)

—— 记录经过“过滤记录”组件后会根据条件被分成2个记录流。我们可以根据业务需求将2个记录输出到指定位置。在本次实验中,我们选择将记录分别输出到2个 Excel 文件中。

  • 搜索并拖拽2个 excel输出组件到画布中。

  • 右键点击【编辑组件】,将两个组件的步骤名称分别改为:盈利订单、亏损订单。

  • 创建过滤记录组件到 Excel输出 组件的连线,并选择连接线类型为:True输出 → 盈利订单、False输出 → 亏损订单

  • 至此,本次实验的任务转换流程构建完毕,如下图所示。

2.8 配置组件信息

在添加完组件,搭建完整体转换流程后,我们需要对每个组件进行相应的配置。

2.8.1 表输入组件配置
  • 双击详细订单组件,弹出组件配置页面。在数据库连接的下拉框中选择已同步的 “线上公共数据源(Readonly)”,如下图所示:

  • 点击【获取SQL查询语句】,自动生成SQL语句。

  • 点开“线上公共数据源”-“表”目录,下滑找到“business_anaylsis.order_detail”并点击它,点击确定。(或直接在搜索栏输入关键词查找)

  • 在弹出的提示中,选择确认

  • 之后可以看到系统自动填充了完整的SQL查询语句,若系统给出的语句无法满足业务需求时,也可手动在输入框中编写自定义语句。表输入组件的其他参数保持默认即可。

  • 另一表输入组件(产品信息)的配置,也参照上述步骤,获取 “business_anaylsis.product”的SQL查询语句。

2.8.2 记录集连接组件配置
  • 双击记录集连接组件,在下拉列表中选择需要连接的数据来源:第一个Transform选择详细订单;第二个Transform选择产品信息。连接类型选择:LEFT OUTER

  • 点击第一个Transform的连接字段【获取连接字段】按钮,即可看到在详细订单中查询到的字段。

  • 同样地,获取第二个Transform的连接字段。

  • 接下来,我们仅保留第一个Transform的连接字段product_id与第二个Transform的连接字段id,进行左外连接。其余字段删除。

2.8.3 字段选择组件配置

       数据经记录集连接后,我们发现,字段 product_id 与字段 id 内容相同,只需要保留一个。因此,我们接下来使用字段选择组件(“移除产品ID字段”)的移除选项,来移除字段 id 。

  • 双击字段选择(“移除产品ID字段”)组件,点击【移除】,并右键点击【获取字段】。

  • 将获取得到的字段中,除了 “id” 之外的字段都删掉。

  • 确认只剩下 id 字段后,点击确认

2.8.4 过滤记录组件配置

       根据业务要求,我们需要将盈利订单和亏损订单分开存储,两个订单表可以使用利润字段(profit)来区分。

  • 双击过滤记录组件,在弹窗的下拉列表中选择将结果发送给不同的后续处理步骤

  • 选择 profit(Number)字段作为判断字段,点击确定

  • 选择 >= 作为判断条件,点击确定

  • 点击【Value】,类型选择:Integer,值输入:0,点击确定。

  • 完整的过滤记录组件配置,如下图所示:

2.8.5 Excel 输出组件配置

       为了将接收到的结果正确地写入到Excel表中,我们需要对 excel 输出组件进行配置。

  • 双击盈利订单 excel 表输出组件,在配置弹窗中,将文件名设置为:盈利订单,选择文件拓展名为:xlsx [Excel 2007 and above]

  • 点击【输出字段】,右键点击【获取字段】,字段成功获取后,点击确认

同样地,对亏损订单 excel 表输出组件进行上述同样的配置。

2.9 执行转换

  • 将组件都配置完成后,我们就可以点击启动按钮,执行转换任务了。

  • 流程图中的组件上出现✔️号,证明已经成功运行了。

2.10 查看执行日志

  • 任务执行过程中,相关的操作会记录到日志中,任务执行完毕后,我们可以查看执行结果及日志。

2.11 查看结果

  • 点击【文件库】菜单,右键根目录【刷新】,即可看到得到的输出结果:盈利订单亏损订单,可以右键下载到本地查看具体内容。

三、实验结果

输出文件 内容 说明
盈利订单 profit≥0的订单 可用于进一步分析高利润产品
亏损订单 profit<0的订单 可用于追踪产品亏损的源因


四、核心组件说明

组件 作用 本实验的配置要点
表输入 读取数据库表 配置数据源和SQL,自动获取字段
记录集连接 多表关联 选择连接类型和连接字段
字段选择 字段筛选与重命名 移除重复的 id字段
过滤记录 按条件分流 设置判断条件为profit≥0
Excel 输出 导出结果 配置文件名和输出字段

五、问题与解决

【待补充】

六、实验总结

【待补充】

Logo

一站式 AI 云服务平台

更多推荐