一、实验背景

1.1实验目的

本次实验是我对助睿零代码数据集成平台(ETL平台)的首次完整实践,旨在通过具体的订单利润分流任务,熟悉平台的基本操作与常用组件配置。具体目标包括:

·掌握从新建转换、添加组件到执行转换的完整操作流程;

·学会配置表输入、记录集连接、字段选择、过滤记录、Excel输出等常用组件;

·理解多表关联、数据过滤与分流处理的典型ETL设计思路。

作为一名初学者,我希望通过本次入门实验,能够独立完成常见的数据加工任务,为后续更复杂的数据处理场景积累经验。

1.2 实验环境

本次入门实验所使用的环境如下:

·零代码在线实验平台:助睿数智(Uniplore)一站式数据科学平台。该平台覆盖数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能,适合数据分析教学与企业数据加工场景。本次实验的访问地址为 https://lab.guilian.cn/。

·数据库:MySQL,其中包含本次实验所需的两张数据表。

订单表:business_analysis.order_detail

产品表:business_analysis.product

·输出方式:Excel 文件,分别存储盈利订单与亏损订单。

1.3 业务场景

在企业经营分析中,经常需要将多张数据表进行关联,计算订单利润,并依据利润的正负对订单进行分类存储,以便分别分析盈利与亏损订单的特征。本次实验将以“订单利润分流”为业务场景,通过助睿平台的零代码拖拽式操作,完成从数据关联到分类输出的完整数据处理任务。这是一个非常典型的数据 ETL 入门任务,很适合初学者理解数据加工的基本逻辑。

1.4数据加工流程

本次实验的整体数据处理流程如下:

·将订单明细表与产品信息表进行左外连接,合并订单与产品信息;

·利用字段选择组件,移除关联后产生的重复字段,保证数据结构简洁;

·根据利润是否大于等于零作为判断条件,对数据进行分类分流;

·将盈利订单和亏损订单分别输出至两个独立的 Excel 文件,完成分类存储。

二、实验步骤

2.1登录实验平台

打开贵兰在线PC端,链接地址:https://www.guilan.cn/home

登录后点击右上角,选择“我的学习”

图片

找到左侧的“实训平台”,点击进入

图片

2.2创建实验项目

进入实训平台后,找到左侧的“数据集成”后,点击进入

图片

点击左上角的“新建项目”,输入项目名称后点击确定

图片

此时可以看到项目已经成功建立,接下来先点击项目右上角的“...”,再点击“打开项目”就能进入项目主页面

图片

2.3同步数据源

在我们进入项目主页面后,可以看到页面左上角有三个菜单选项,分别是“资源库”、“文件库”和“元数据管理”。

图片

通过初步了解,我在这里简单阐述一下它们各自的功能:

·资源库:用于管理工作流,包括新建、删除、修改、查看工作流信息,以及导入导出工作空间、配置调度管理等操作。

·文件库:用于保存工作流中需要用到的文件,以及工作流运行后产生的文件。

·元数据管理:作为数据集成的基础配置模块,可以为工作流定义运行配置、数据库连接、Flink 集群等参数。

由于本次实验属于入门性质,主要涉及工作流的创建与文件的输出,因此我主要使用了资源库和文件库两个模块,元数据管理暂未涉及。

在简单了解这三个选项后,我们继续进行本次实验。

为了获取本次实验的数据集,先点击选中“元数据”,再右键点击“关系数据库”后,然后选择“同步数据源”,最后会显示“同步成功”的字样

图片

此时我们先点击切换到“文件库”,再点击切换回“元数据”后,就能看到已经成功同步的数据库“线上公共数据源(Readonly)”

图片

2.4新建转换流

我将本次实验的转换流命名为“订单利润分流处理”,而本次核心任务是关联订单表与产品表,计算每条订单的利润,并按盈亏分流输出至两个Excel文件。

整体的处理逻辑如下:先读取订单明细表和产品信息表,以产品ID为关联字段进行左外连接;再剔除重复的ID字段;随后依据利润是否非负进行分流;最后将盈利订单与亏损订单分别写入独立的Excel文件中。

简单了解处理逻辑后,让我们正式开始这部分的实操。

首先点击选中“资源库”,然后右键点击“根目录”,最后点击选择“新建转换流”

图片

输入转换流的名字“订单利润分流处理”,然后点击确定

图片

创建成功后我们会自动进入转换流的设计页面,不过由于转换流的设计页面每次打开时是锁定状态,所以需要我们点击图中框出的图标进行解锁,解锁成功后会出现“解锁流成功!”的字样

图片

2.5添加组件

现在已经完成转换流的创建,接下来我们要开始向其中添加具体的操作组件。因为本次实验需要将订单表和产品表的数据进行关联计算,所以我们应先添加的是两个表输入组件,分别用于读取两张表中的原始数据。

在左侧的“组件库”中,由于组件数量较多,所以我们可以通过搜索功能快速定位,找到我们想要的组件。

·添加表输入组件

先点击切换到“组件库”,然后在下方搜索框中输入“表输入”,再点击右侧放大镜,即可查询到“表输入”组件。

长按“表输入”向右拖拽到画布中,重复两次后在画布中得到两个表输入。

图片

右键点击“表输入”,选择“编辑组件”进入属性页面,将对应的表输入组件命名为“订单_详细订单”,最后点击确定保存设置。

图片

同上,将另一个表输入组件命名为订单_产品信息

图片

综上,表输入组件的添加已经完成。接下来的任务是将订单数据与产品数据进行关联。为此,我需要添加一个记录集连接组件。

·添加记录集连接组件

同样在组件库的搜索框中输入“记录集连接”,找到该组件后,将其拖拽至画布中。后续步骤中,我会将两个表输入组件分别与这个记录集连接组件相连,并配置连接条件。

图片

接下来先点击其中一个“表输入”组件,长按将拖拽出连线,再控制连线到“记录集连接”组件处,就能顺利创建二者的连接线。同理,将另一个“表输入”组件也与“记录集连接”组件相连。

图片

此时添加“记录集连接”组件的任务已经完成,接下来继续其他组件的添加

·添加字段选择组件

在订单表和产品表通过产品ID关联后,两张表中都会包含该字段,这就导致数据中出现重复。所以为了让输出结果更加简洁,我们需要移除这个多余的字段。

因此,就要用到“字段选择”组件,后续配置时,我会利用该组件剔除重复的产品ID字段。

所以接下来在组件库中搜索“字段选择”,找到后将字段选择组件拖拽至画布中

图片

将该“字段选择”组件命名为“移除产品ID_1字段”,然后点击确定保存设置

图片

最后创建“记录集连接”组件和“字段选择”组件之间的连线,就完成了“字段选择”组件的添加

图片

·添加过滤记录组件

因为本次实验的核心分流依据是订单的利润正负,所以需要一个能够按条件对数据进行拆分的组件。这里我选择了“过滤记录”组件,它可以根据记录中某个字段的取值,将数据分流为满足条件和不满足条件两条路径。

后续配置时,我会设置过滤条件为“利润 >= 0”,使得盈利订单和亏损订单分别走向不同的分支。

在组件库中搜索“过滤记录”,找到后将其拖拽至画布中

图片

创建“字段选择”组件和“过滤记录”组件之间的连线,需要注意的是此时会弹出“系统提示”,这里我们应该选择“主输出步骤”

图片

·添加excel输出组件

经过过滤记录组件的分流处理后,数据被拆分成盈利订单和亏损订单两个独立的记录流。所以我们接下来需要将这两个记录流分别输出并保存。

根据本次实验的需求,我选择将结果输出到Excel文件中。后续配置时,我会将这两个组件分别连接到过滤记录的两个输出分支上,并为它们分别指定输出文件的名称和保存路径。

在组件库中搜索“excel”,选择“Microsoft excel输出”,依次拖拽两个Excel输出组件到画布中。

图片

两个Excel输出组件添加完成后,我们需要对它们进行重命名,分别改为“盈利订单”和“亏损订单”,以便在画布上清晰区分。

而接下来需要将过滤记录组件的两个输出分支分别连接到这两个Excel组件上。从过滤记录组件分别拉出连接线至两个Excel组件。在每次连接时,系统会弹窗要求选择连接线类型。

其中,“True输出”代表满足过滤条件(即利润 ≥ 0)的记录,我将这一端连接至“盈利订单”组件

图片

“False输出”代表不满足过滤条件(即利润 < 0)的记录,我将这一端连接至“亏损订单”组件,设置成功后会和下图一样,出现相应的绿色小勾和黄色小叉

图片

这样,盈利订单和亏损订单就会自动分流到各自的输出组件中。

现在从数据读取、表关联、字段去重、条件分流到最终输出的整个转换任务流程已全部构建完成。而完整的转换流如下图所示,我们可以看到各组件之间的逻辑关系和数据流向一目了然。

图片

2.6配置组件信息

现在我们已经将所有组件添加并连接完成,而接下来需要对每个组件进行具体配置,使其按照预期执行数据处理任务。

·配置表输入组件

首先双击“订单_详细订单”表输入组件,弹出配置页面。

在“数据库连接”下拉框中,选择已同步的“线上公共数据源(Readonly)”,因为该数据源已预先配置好与MySQL数据库的连接。

接着点击“获取SQL查询语句”,自动生成SQL查询语句

图片

然后点开“线上公共数据源”,紧接着点击线上公共数据源下的“表”

图片

在数据库连接选择完成后,我们需要指定具体读取哪张数据表。在配置页面的数据库浏览区域中,向下滚动找到“business_analysis.order_detail”表,选中后点击“确定”。此时系统会弹出确认提示框,再次点击“确认”完成选择。

图片

图片

选中数据表后,系统会自动生成完整的SQL查询语句(默认为 SELECT *)。我检查确认无误后,点击“确认”按钮完成该组件的配置。

图片

值得一提的是,如果自动生成的SQL语句无法满足实际业务需求(例如需要筛选特定字段或添加查询条件),也可以在文本框中输入自定义SQL语句。

不过由于本次实验需要读取订单表的全部字段,所以我们使用系统默认生成的语句即可。该组件的其他配置参数保持默认设置,无需额外调整。

参照上述操作步骤,我们要继续配置另一个表输入组件“订单_餐品信息”。不过这次要在数据库浏览区域中找到“business_analysis.product”并选中。系统同样会自动生成对应的SQL查询语句。确认无误后点击“确定”,完成该组件的配置。

图片

图片

至此,两个表输入组件均已配置完毕,可以分别读取订单表和产品表的全部数据。

·配置记录集连接组件

在两个表输入组件配置完成后,我们接下来需要配置记录集连接组件,以实现订单表与产品表的关联。

双击画布上的记录集连接组件,弹出配置页面。在“第一个Transform”下拉列表中,选择“读取订单表”作为左表;在“第二个Transform”下拉列表中,选择“读取产品表”作为右表;连接类型选择 LEFT OUTER

图片

这样可以保留订单表中的全部记录,即使某些订单对应的产品信息缺失也不会被丢弃。

在选择好两个Transform后,我们需要指定两表之间的连接字段。在配置页面的“连接条件”区域,先点击第一个Transform下方的“获得连接字段”按钮,系统会自动获取“读取订单表”组件所查询到的所有字段,并以列表形式展示出来供我们选择。接下来按同样的方式获得第二个Transform的连接字段。

图片

在系统自动加载字段列表后,我们需要筛选出用于建立连接的关键字段。

在第一个Transform(读取订单表)的字段列表中,我们只保留“product_id”,将其余字段全部选中并右键点击“删除选中的行”。同理,在第二个Transform(读取产品表)的字段列表中,我们只保留“id”,删除其他无关字段。

图片

而这样配置的含义是:使用订单表中“product_i”字段与产品表中的“id”字段进行关联匹配,实现订单信息和产品信息的左外连接。

·配置字段选择组件

在记录集连接组件将两表关联后,我们不难发现“product_id”和“id”这两个字段的内容是完全相同的,实际上只需要保留其中一个即可。所以我们需要通过字段选择组件移除多余的“id”字段。

双击画布上的字段选择组件,进入配置页面。首先点击上方的“移除”选项卡,然后点击“获取字段”按钮,系统会自动列出当前数据流中的所有字段。

图片

在字段列表加载出来后,我们需要指定哪些字段被移除。在获取到的字段中,我们要选中“id”字段之外的所有其他字段,然后右键点击并选择“删除选中的行”。

配置完成后点击“确认”,字段选择组件的设置即生效。后续输出数据中将不会再包含重复的“id”字段。

图片

·配置过滤记录组件

完成字段去重后,我们接下来需要配置过滤记录组件,以实现盈利订单与亏损订单的分流。而这正是本次实验的核心环节,其分流依据是订单的利润字段。

双击画布上的过滤记录组件,弹出配置窗口。首先按下图设置结果发送的不同分支。

 

图片

 

在配置过滤条件时,我们需要选择用于判断的字段。由于本次实验是根据利润正负进行分流,因此判断字段应当选择“profit(利润)”。在字段列表中,我们找到 profit(Number) 并选中,然后点击“确定”。

图片

在选择好判断字段“profit”后,我们需要设置具体的比较条件。点击“=”按钮,在弹出的函数列表中选择了“>=”,表示“大于或等于”。接着,在右侧的数值输入框中填入 0,点击“确定”完成条件配置。

这样,过滤条件就设置为 profit >= 0。满足该条件的记录(即盈利订单)将走 True 分支,不满足条件的记录(即亏损订单)将走 False 分支。

图片

在设置完比较运算符后,接下来我们需要指定比较的阈值。点击“value”区域,在弹出的配置中,将值类型选择为“Integer”(整数类型),然后在值输入框中填写 0,点击“确定”完成设置。

图片

至此,完整的过滤条件 profit >= 0 已配置完成。该组件将根据每条订单记录的利润是否大于或等于零,自动将数据分流至不同的输出分支。

图片

·配置excel输出组件

在分流完成后,本实验的最后一步是将两个分支的数据分别写入Excel文件。

首先配置“盈利订单”组件。双击该组件打开配置窗口,在“文件名”输入框中,我们要将文件名修改为“盈利订单”。在“文件拓展名”选项中,我们应选择“xlsx [Excel 2007 and above]”,以确保生成的Excel文件兼容当前主流的办公软件版本。

图片

现在文件名和格式设置完成,接下来我们需要指定Excel文件中包含哪些字段。点击配置弹窗中的“输出字段”选项卡,在空白表格区域右键单击,选择“获取字段”。系统会自动获取上游数据流中的所有字段,并填入表格中。

图片

在字段成功获取后,我们点击“确定”即可

图片

按照同样的操作步骤,我们需配置另一个Excel输出组件“亏损订单”。将文件名设置为“亏损订单”,文件拓展名同样选择“xlsx [Excel 2007 and above]”,并在“输出字段”选项卡中右键“获取字段”,完成字段映射。

图片

图片

至此,两个Excel输出组件均已配置完毕。

2.7执行转换

现在我们已经完成了所有组件的配置,接下来点击画布上方的启动按钮,开始执行该转换任务。

图片

在弹出的窗口中点击“启动”

图片

系统会按照设计好的流程依次读取数据、关联表、去重字段、按利润分流,并最终输出两个Excel文件。

2.8查看执行日志

执行过程中,我们可以查看下方的执行日志,确认每个组件是否运行成功。若出现错误,日志中会提示具体原因,便于排查问题。

图片

图片

三、实验结果

在转换执行成功后,我们切换到左侧菜单中的“文件库”模块,查看输出的文件。在根目录上右键单击并选择“刷新”,页面中便出现了本次转换任务生成的两个Excel文件:“盈利订单”和“亏损订单”。

如需进一步核对数据内容,可以右键点击文件并选择下载,在本地打开查看。经检查,两个文件中的订单数据均按照利润正负正确分类,与预期结果一致。

 

四、结语

以上就是本次助睿零代码ETL平台入门实验的完整记录。从新建转换、拖拽组件、配置参数到执行输出,整个流程跑下来还算顺利。中间遇到的两个问题——字段重复和Excel输出空白——也都在排查后找到了解决方法,记录在这里供大家参考。

零代码ETL工具的优势在于降低了数据处理的门槛,让初学者能把注意力集中在业务逻辑上,而不是被语法细节绊住。当然,理解底层原理仍然很重要,所以后续我打算再补一下SQL和数据处理的基础知识。

如果这篇文章对你有帮助,欢迎点赞收藏。有什么问题也可以在评论区交流。

感谢您的观看!

Logo

一站式 AI 云服务平台

更多推荐