一、实验背景

1.1 实验目的

这次做订单利润分流的实验,主要是为了熟练使用助睿零代码 ETL 平台,把数据整合、筛选、分流这套流程真正练会。具体要达到这几点:

  1. 会自己新建转换、加组件、跑流程,把基础操作练熟。
  2. 搞懂表输入、记录集连接、字段选择、过滤记录、Excel 输出这些常用组件怎么配、用来干什么。
  3. 理解多表关联、数据过滤、按条件分流的整体思路,而不只是跟着点鼠标。
  4. 能独立完成一套接近企业真实场景的数据加工,为后面更复杂的数据分析打基础。

简单说,就是从会点工具,到会做数据处理,以后遇到类似任务能自己上手解决。

1.2 实验环境

整个实验在助睿数智(Uniplore)零代码平台上完成,环境很稳定,也适合教学实训:

  • 实验平台:助睿零代码在线实验平台:https://lab.guilian.cn/
  • 数据库:MySQL,里面已经准备好订单和产品两张表
  • 用到的数据表:订单表 business_anaylsis.order_detail、产品表 business_anaylsis.product
  • 特点:不用写代码,全程拖拽组件,流程看得清清楚楚,很适合新手入门。

1.3 业务场景

在实际工作里,企业每天都会产生大量订单,财务和运营都需要算利润、分订单:哪些赚钱、哪些亏钱,要分开存、分开分析。

如果人工一条条弄,又慢又容易错。所以用 ETL 工具自动关联、自动算、自动分流,是标准做法。我们这次就是模拟这个真实场景。

1.4 数据加工思路

整体流程很清晰:

先把订单表和产品表关联起来 → 删掉重复多余的字段 → 按利润≥0把订单分成两类 → 最后分别导出成两个 Excel 文件,方便后续使用。

二、实验步骤

2.1 登录实验平台

在贵兰在线课程页面,进入 “实验课 1:助睿 ETL 入门实验”,通过大数据实训平台入口登录系统:https://lab.guilan.cn/

2.2 基本概念了解

助睿数据集成平台是一站式大数据平台中的 ETL 工具,支持以可视化方式完成数据抽取、转换、加载全流程。其中 Transform 代表转换步骤,是数据处理的最小功能单元。

概念

说明

Pipeline (转换)

面向数据流,处理数据的一个功能单元,由多个 Transform 组成

Workflow (作业)

面向任务,完成一件完整的事,由多个 Action 组成,必须包含开始项

Transform (步骤)

转换内的最小单元,如 "Excel 输入"、"字段选择",每个步骤独立线程运行

Action (任务项)

作业的执行单位,如 "启动"、"发送邮件"

Hops (节点连接)

数据传输通道,连接步骤或任务项

2.3 团队管理

组长可在平台内创建团队,方便小组协作完成实验。进入数据集成 / ETL 页面,打开团队管理,新增团队并填写名称与描述,创建成功后添加组员即可。

1.“团队管理”菜单,并点击“新增团队”

2. 在弹出的窗口中团队名称和团队描述,点击“确认”

3. 创建成功后,点击团队卡片右上角的“更多”,选择“添加成员”

4. 输入手机号查询组员,勾选后点击“添加”即可

2.4 创建实验项目

使用默认项目或新建专属实验项目,选择所属团队,输入项目名称并确认,完成项目创建。

先点击“新建项目”, 再输入项目名称后点击“确定”, 创建成功后即可在数据集成页面看到新创建的项目。

2.5 同步数据源

打开创建好的项目,在项目页面,可以看到左侧有3个菜单:资源库、文件、元数据

资源库用于对工作流的管理,包括新建、删除、修改、查看工作流的信息;导出导入工作空间;调度管理等操作

文件库用于保存工作流中需要用到的文件和工作流产生的文件

元数据管理是数据集成的重要基石,可以为工作流定义“运行配置”、“数据库”、“flink集群”等配置

本次实验主要用到资源库和文件库

进入元数据管理,右键关系数据库,选择同步数据源,完成后可在平台内看到 “线上公共数据源 (Readonly)”。

2.6 新建转换流

新建名为 “订单利润分流处理” 的转换流,解锁画布后开始搭建流程。整体流程为:订单明细表→左外连接产品表→移除重复 ID→按利润≥0 分流→分别输出 Excel。

新建转换流具体操作如下:

切换到资源库,同样右键根目录,点击“新建转换流”

这里我们输入转换流名字“订单利润分流处理”,然后点击“确定”

创建成功之后,我们就进入了转换流的设计界面喽!

要记得我们每次进入转换流设计页面,它都是锁定状态哦,需要解锁后才可编辑转换流,点击锁子图标进行解锁!

2.7 添加组件

我们此次实验以订单数据(business_anaylsis.order_detail)和产品信息数据(business_anaylsis.product)生成盈利订单数据和亏损订单数据为例来构建转换任务,按如下顺序向转换中添加组件:

  1. 添加两个表输入组件,分别命名为 “订单_详细订单” 和 “订单_产品信息”。

首先我们可以通过在组件库搜索输入框搜索关键字——表输入来找到表输入组件,然后拉取两个至画布中。

然后我们需要右键表输入组件,点击“编辑组件”,然后修改步骤名称中为订单_详细订单,并点击“确认,另外一个组件同理修改名字。

  1. 添加记录集连接组件,关联两个表输入数据。

同理组件库搜索“记录集连接”,将记录集连接组件拖拽至画布中。

然后开始连线,连线部分只需要从一个组件拉到另外一个组件即可。(注意这里你的指针需要指到对应组件的边缘,出现十字标记,然后开始拉,就不会有问题了。)

还有在你连线的时候出现这个提示

这是由于记录集连接组件是按接收数据的顺序进行记录关联的,如果接收的数据是无序的,可能会造成记录连接结果出错。(在后面的实验中要注意到这一点哦!)

  1. 添加字段选择组件,用于移除重复的产品 ID 字段。

这时我们要注意到两个表数据进行连接后,会出现重复的字段“产品ID”。所以我们要通过“字段选择”组件来移除这个多余字段。

依旧在搜索输入框中搜索段选择”,并将字段选择组件拖拽至画布中

并将字段选择组件名字修改为“移除产品ID_1字段”

然后把记录集连接组件和字段选择组件连接起来

  1. 添加过滤记录组件,按利润条件分流数据。

我们要知道,我们这个实验是要据订单的利润情况对订单进行分流的,所以我们需要使用“过滤记录”组件来分流。

依旧搜索“过滤记录”,并将该组件拉入画布中

将创建字段选择组件和过滤记录组件连接起来,这里要注意到我们要在选择连接线的弹窗中点击“主输出步骤”。

这里可能有同学会好奇为什么,这是因为进行字段选择操作时,可能有记录不满足要求,导致记录被标记为错误。主输出步骤表示满足要求的记录通过该连接线传输数据。

  1. 添加两个 Excel 输出组件,分别命名为 “盈利订单” 和 “亏损订单”。

我们都知道我分流结果就是盈利和亏损的两个记录流,所以我们需要一个组件来存储他们,这个时候,我们就使用到了Excel 输出组件。

依旧搜索“excel 输出”,将2个表输出组件拉到画布中。

并且分别命名为“盈利订单” 和 “亏损订单”。

这次连线是要注意,我们要选择是“True输出”还是“False输出”

那我们就要理解他们分别是什么意思了:

“True输出”表示满足过滤条件的记录输出。

“False输出”表示不满足过滤条件的记录输出。

你是不是以为这样就完了,其实并没有哦。接下来,我们需要配置组件信息,要知道,我们对他们工作的设置只停留在我们的预想,并没有真正配置好!

2.8 配置组件信息

2.8.1 表输入组件配置

首先,我们要设置表输入配件,双击订单_详细订单表输入组件,在数据库连接下拉框中选择已同步的“线上公共数据源(Readonly)”

然后点击获取对应订单表与产品表的 SQL 语句:

点开“线上公共数据源(Readonly)”-“表”

下滑找到“business_anaylsis.order_detail” 并点击它,再点击“确定”

继续点击确定。

之后我们的系统就自动填写好了我们的SQL查询语句,然后我们点击“确认”,就完成了这部分的设置,而另一个订单_产品信息表输入也参考上述配置,获取“business_anaylsis.product”的SQL查询语句即可。

2.8.2 记录集连接配置

双击记录集连接组件,在下拉列表中选择需要连接的数据来源

第一个Transform选择订单_详细订单,第二个Transform选择订单_产品信息,连接类型选择LEFT OUTER

点击获取两个连接字段

第一个Transform字段保留 produc_id,第二个Transform的字段保留 id

第一个Transform字段中除了 produc_id 外的其他字段,右键点击“删除选中的行”,第二个Transform字段中除了id 外的其他字段,右键点击“删除选中的行”(注意这里删除可以按住ctrl然后右键多选,删的可以快点ovo)

删除完后,点击“确认”,若删除错误,可重新获取连接字段再进行删除

2.8.3 字段选择配置

通过记录集连接后,我们可以发现,字段 produc_id 与字段 id 内容相同,所以只需要保留一个,因此,我们需要使用“移除产品ID_1字段”字段选择组件的移除选项移除字段 id,具体操作如下:

双击“移除产品ID_1字段”字段选择组件,点击“移除”,并点击“获取字段”

在获取的字段中选中除“id”字段以外的字段,右键点击“删除选中的行”

2.8.4 过滤记录配置

我们这里要设置过滤条件,我们是要把盈利订单亏损订单分开存储,两个订单可以使用字段利润来区分,所以我们过滤条件就设置为:profit≥0。

具体操作:

首先肯定满足条件输出至盈利订单,不满足则输出至亏损订单。设置好。

然后就设置过滤条件了:

前两个部分分别选择profit和>=。

最后一个如图修改value

2.8.5 Excel 输出配置

这个时候up主意识到自己最后一个配件选择错误了,应该是excel输入

大家也一点要注意,要选择好组件,up当时搜了没仔细看,导致了错误,打击要引以为戒哦!

修改错误后,我们将接收到的结果写入到Excel表中,双击“盈利订单”excel表输出组件,在配置弹窗中,文件名修改为“盈利订单”,选择文件拓展名“xlsx [Excel 2007 and above]”

然后在配置弹窗中点击“输出字段”,在空白表格处右键点击“获取字段”

另一个同理操作。

2.9 执行转换

终于,同志们我们快要成功了!

我们点击启动

继续确认启动

2.10 查看执行日志

执行完成后,查看日志与步骤度量,确认各组件运行状态。

2.11 查看结果

在文件库中右键根目录刷新,可下载生成的盈利订单.xlsx 和亏损订单.xlsx 文件。

三、实验结果

这次实验从头到尾跑通了数据接入 — 关联 — 清洗 — 分流 — 导出的完整流程,最终成功输出两个规范文件:盈利订单.xlsx亏损订单.xlsx

数据完整、格式统一,可以直接用于利润统计、亏损原因分析等后续工作,达到了实验要求。

可以看到盈利订单的profit都大于0,实验成功!!!

四、核心组件说明

这次用到的几个组件,都是 ETL 里最常用、最关键的,我也理清了它们各自的作用:

  1. 表输入:从数据库里把订单和产品数据读进来,是整个流程的起点。
  2. 记录集连接:把两张表按产品 ID 拼到一起,实现数据关联。
  3. 字段选择:删掉重复、没用的字段,让数据更干净。
  4. 过滤记录:按利润大小分流,把盈利和亏损订单分开。
  5. Excel 输出:把处理好的数据导出成文件,方便我们查看和使用。

五、问题与解决

做实验的时候up主是按照老师的指导文档做的,本来以为是不会遇到问题的。

结果呢,竟然在第二次做实验截图的时候,竟然找错了组件,这件事告诉了我们一定要认真,谨慎,不然本来会的内容,也可能做错哦!

当然大家遇到了问题,可以在评论区发出来 ,我会竭力为大家解决的!

六、实验总结

通过这次订单利润分流实验,我不光学会了助睿 ETL 平台的操作,更重要的是真正理解了数据加工的逻辑。从看懂业务需求,到设计流程、配置组件、排查错误,整套走下来,对企业真实的数据处理工作有了很直观的认识。跟手写 SQL、写代码相比,零代码可视化工具确实更友好,流程清晰、容易调试,特别适合我们刚入门的人快速建立思路。同时我也体会到,数据处理既要懂工具,也要懂业务,更要注意细节严谨,才能保证结果准确可靠。这次实验为我之后学习数据分析、数据治理打下了很扎实的基础。

#助睿数智 #商业数据分析 #ETL 数据加工 #数据实验

Logo

一站式 AI 云服务平台

更多推荐