一、实验背景1、实验目的

(1)掌握助睿实验平台资源库、文件库、元数据三大核心模块的功能与使用。

(2)学会在数据集成平台中搭建 ETL 转换流,完成数据读取、关联、清洗、分流、输出全流程操作。

(3)实现订单数据与产品信息的左外连接,按利润正负将数据分流为盈利订单与亏损订单,并输出至 Excel 文件。

(4)熟悉表输入、记录集连接、字段选择、过滤记录、Excel 输出等组件的配置与使用。

2、实验环境

(1)实验平台:本次实验使用助睿数智(Uniplore)平台。该平台覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能,地址为https://lab.guilian.cn/。

(2)数据来源:线上公共数据源 (Readonly)

(3)数据表:business_anaylsis.order_detail(订单明细表)、business_anaylsis.product(产品信息表)

(4)输出文件:盈利订单.xlsx、亏损订单.xlsx

3、实验原理

整体逻辑:订单明细表→左外连接产品信息表→移除重复ID字段→按利润≥0分流→盈利订单/亏损订单分别输出。

ETL(Extract-Transform-Load)即数据抽取、转换、加载。本实验通过 ETL 组件完成:

(1)抽取:从数据库读取订单与产品数据。

(2)转换:左外连接关联数据、移除重复字段、按利润条件过滤分流。

(3)加载:将分流后的数据输出到 Excel 文件。

二、实验步骤

1、平台基础模块认知

(1)资源库用于对工作流的管理,包括新建、删除、修改、查看工作流的信息;导出导入工作空间;调度管理等操作。

(2)文件库用于保存工作流中需要用到的文件和工作流产生的文件。

(3)元数据管理是数据集成的重要基石,可以为工作流定义“运行配置”、“数据库”、“flink集群”等配置。

2、创建实验项目点击“新建项目”并输入项目名称

 

获取实验数据集点击“元数据”,右键根“关系数据库”,点击”同步数据源”,切换"文件库”菜单再切换回到元数据,可以看到成功同步的数据库“线上公共数据源(Readonly)"

 

3、新建转换流

本次实验将创建“订单利润分流处理”转换流,实现订单数据与产品信息的关联,并根据利润正负将数据分流为盈利流程逻辑:订单明细表→左外连接产品信息表→移除重复 ID 字段→按利润≥0分流→分别输出盈利/亏损订单到Excel。

切换到资源库,右键根目录,点击“新建转换流”输入转换流名称,点击确认进入转换流设计页面,解锁后进行编辑

 

4、添加实验组件

在建立转换任务后,可添加相应操作组件到转换任务中。

(1)添加表输入组件本次实验需要将两类数据进行合并计算,所以需要添加2个表输入组件,读取2个不同表的数据。

点击“组件库”,通过关键字搜索快速获取在搜索输入框中输入“表输入”,即可查询到“表输入”组件并将组件拖入画布中修改步骤名称中为订单_详细订单,点击“确认”,此时画布中的对应表输入组件被命名为“订单_详细订单”

 

 

另一个表命名为“订单_产品信息”

 

(2)添加记录集连接组件

使用表输入组件读取数据后,需要通过记录集连接组件将表输入组件的数据进行关联。

在搜索输入框中输入“记录集连接”,将记录集连接组件拖拽至画布中

 

(3)添加字段选择组件两个表数据进行连接后,会出现重复的字段“产品ID"。我们可以通过“字段选择”组件移除这个多余字段。

在搜索输入框中输入“字段选择”,将字段选择组件拖拽至画布中,将字段选择组件名字修改为“移除产品ID_1字段”

 

(4)添加过滤记录组件

使用“过滤记录”组件可以根据记录中某个字段的值进行记录分流。

在搜索输入框中输入“过滤记录”,将过滤记录组件拖拽至画布中并建立连线在选择连接线的弹窗中点击“主输出步骤”。

 

(5)添加 excel 输出组件

记录经过“过滤记录”组件后会被分成2个记录流,我们将记录输出到Excel文件中。

在搜索输入框中输入"excel输出”,将2个表输出组件拖拽至画布

 

2个excel输出组件分别命名为“盈利订单”和“亏损订单”

 

创建过滤记录组件到两个excel输出组件的连接线,在选择连接线类型的弹窗中分别选择“True输出”和"False输出”“True输出”表示满足过滤条件的记录输出;“False输出”表示不满足过滤条件的记录输出。

 

 

完整的转换任务流程构建完毕,如下图所示:

 

5、配置组件信息组件

添加完成后需要对其进行相应配置。

(1)表输入组件配置双击订单_详细订单表输入组件,弹出组件配置页面。在数据库连接下拉框中选择已同步的“线上公共数据源(Readonly)“如下图所示:

 

点击”获取SQL查询语句”,自动生成SQL查询语句点开“线上公共数据源(Readonly)"-“表”目录,下滑找到“business_anaylsis.order_detail"并点击它,再点击”确定”

 

系统自动填写了完整的SQL查询语句,点击“确认”

 

订单_产品信息表输入配置:获取"business_anaylsis.product"的SQL查询语句

 

点击”获取SQL查询语句”,自动生成SQL查询语句

 

(2)记录集连接组件配置

双击记录集连接组件,在下拉列表中选择需要连接的数据来源第一个来源:订单_详细订单第二个来源:订单_产品信息连接类型:LEFT OUTER(左外连接)连接字段:product_id ↔ id。

 

点击第一个Transform的连接字段中的“获得连接字段”按钮,获取表输入组件在订单_详细订单的查询到的字段,

 

同样,获取第二个Transform的连接字段

第一个Transform字段中除了produc_id外的其他字段,右键点击“删除选中的行”,第一个Transform字段中除了id外的其他字段,右键点击”删除选中的行”

 

(3)字段选择组件配置

移除连接后重复的id字段,保留唯一产品标识。

双击“移除产品ID_1字段”字段选择组件,点击”移除”,并点击”获取字段”

 

 

在获取的字段中删除除"id"字段以外的字段”

 

(4)过滤记录组件配置

过滤条件:profit ≥ 0 True 输出→盈利订单;False 输出→亏损订单。

选择字段利润(profit)来作为判断字段,选中"profit(Number)"后点击”确定”

 

>=0作为判断条件,点击“=",在函数中选择">=",点击”确定”

 

点击"value",值类型选择"Integer",值输入"0’点击”确定”

 

(5)Excel 输出组件配置

盈利订单:文件名 = 盈利订单,格式 = xlsx亏损订单:文件名 = 亏损订单,格式 = xlsx将接收到的结果写入到Excel表中,双击“盈利订单"excel表输出组件,在配置弹窗中,文件名修改为“盈利订单”,选择文件拓展名"xlsx [Excel 2007 and above]"

 

在配置弹窗中点击“输出字段”,在空白表格处右键点击“获取字段”

 

双击“亏损订单"excel表输出组件,在配置弹窗中,文件名修改为“亏损订单”,选择文件拓展名"xlsx [Excel 2007 and above]"

 

在配置弹窗中点击“输出字段”,在空白表格处右键点击“获取字段”

 

6、执行转换任务

点击启动按钮运行转换流点击确认启动成功,查看执行日志查看结果

 

 

 

点击”文件库”,可以看到转换任务的输出结果:盈利订单和亏损订单,可以右键下载查看查看下载的表格

 

三、实验结果

(1)成功完成订单数据与产品信息的左外连接,无数据丢失。

(2)成功移除重复 ID 字段,数据结构整洁规范。

(3)按利润条件完成分流,生成盈利订单.xlsx与亏损订单.xlsx。

四、问题与解决

遇到的问题:在配置过滤记录组件时,由于过滤条件设置不当导致订单数据分流异常。主要表现为无法按照利润字段正确区分盈利与亏损订单,部分盈利订单被归入亏损文件、亏损订单被归入盈利文件,数据分类与预期结果不符,同时分流后的记录数量与实际统计不一致,无法满足订单利润分类输出的业务需求。

解决方法:先双击打开过滤记录组件,确认选择profit (Number) 数值型利润字段,避免字段类型不匹配导致判断失效;接着将比较运算符设置为≥(大于等于),阈值设置为整数0,明确过滤条件为profit≥ 0;最后核对输出链路,将满足条件的 True 输出连接至盈利订单 Excel 组件,不满足条件的 False 输出连接至亏损订单 Excel 组件,保存配置后重新运行任务。

五、实验分析与总结

1、实验分析

(1)左外连接保证订单数据完整,产品信息按需匹配,符合业务分析需求。(2)字段选择组件有效清理冗余字段,提升后续计算效率。

(3)过滤记录实现精准分流,输出文件可直接用于盈利/亏损订单的统计分析。

2、实验总结

通过本次实验,我掌握了ETL全流程开发,理解了各组件在数据抽取、转换与加载过程中的作用,同时掌握了助睿实验平台中元数据配置、组件拖拽、流程连线及各项参数配置的操作方法,并成功完成订单利润分流处理的实际业务场景,具备了基础的商业数据处理与分析实践能力。

#助睿数智#商业数据分析

 

Logo

一站式 AI 云服务平台

更多推荐