基于零代码平台订单利润分流数据加工

一、实验背景

1.1 实验目的

本次实验旨在熟悉助蹇零代码数据集成平台(ETL平台)的核心功能和操作方法,具体包括:

掌握新建转换、添加组件、执行转换等基本操作流程;

熟悉表输入、记录集连接、字段选择、过滤记录、Excel输出等常用组件的配置方法;

理解多表关联、数据过滤与分流处理的ETL设计思路。

通过本实验,能够独立使用助蹇平台完成常见的数据加工任务,为后续更复杂的数据处理场景打下基础。

1.2 实验环境

零代码在线平台:助蹇数智(Uniplore),一站式数据科学平台,覆盖数据接入、ETL处理、机器学习建模到可视化展示的全链路功能。官网 https://www.uniplore.com/ ,本次实验实训地址为 https://lab.guilian.cn/ 。

数据库:MySQL(线上公共数据源,只读)

数据表:

`business_anaylsis.order_detail`(订单明细表)

`business_anaylsis.product`(产品信息表)

1.3 业务场景

在经营分析中,经常需要将订单表与产品表关联计算利润,并按利润正负对订单进行分类存储。本实验以订单利润分流为实例,通过零代码拖拽方式完成这一数据处理任务。

1.4 数据加工流程

订单明细表与产品信息表进行左外连接 → 移除重复字段 → 按利润是否大于等于零进行分流 → 分别输出盈利订单和亏损订单到两个Excel文件。

流程示意:

`订单表 (order_detail) ──左外连接── 产品表 (product) ──字段选择(移除重复产品ID)── 过滤记录(利润>=0)── 盈利订单Excel / 亏损订单Excel`

二、实验步骤

2.1 登录实验平台

在课程学习页面点击“实验课1: 助蹇ETL入门实验”,进入实验指引后点击“大数据实训平台”跳转至 https://lab.guilian.cn/ ,从课程平台自动登录,成功进入助蹇实验平台首页。

2.2 创建团队(可选,个人实验略过)

进入平台后,选择“数据集成/ETL”模块。为方便管理,可先创建团队并添加组员。队长创建团队后,通过手机号邀请成员加入。个人实验可直接使用默认项目,此步略过。

2.3 创建实验项目

在数据集成页面,新建项目,选择所属团队(如个人则选个人空间),输入项目名称如“订单利润分流实验”,确认后即在列表中显示新项目。

2.4 同步数据源

打开新建的项目,进入“元数据”菜单,右键“根关系数据库”,选择“同步数据源”。稍等片刻即可在元数据中看到“线上公共数据源(Readonly)”,其下包含本次所需的 `business_anaylsis` 库及表。

2.5 新建转换流

切换到“资源库”菜单,右键根目录选择“新建转换流”,输入名称“订单利润分流处理”,创建后进入转换流设计页面。画布默认锁定,需点击解锁后方可编辑。

2.6 添加组件并建立连接

按照数据处理逻辑,依次从组件库拖拽组件到画布,并建立节点连接线。

(1) 添加两个表输入组件

搜索“表输入”,将其拖入画布两次。分别右键编辑组件,将步骤名称修改为“订单_详细订单”和“订单_产品信息”,以便识别。

(2) 添加记录集连接组件

搜索“记录集连接”,拖入画布。从“订单_详细订单”和“订单_产品信息”分别拖出连接线到记录集连接组件。此时会弹出“排序需要”的提示,说明输入数据应预先排序,否则可能导致关联错误。点击“确定”继续,后续可在组件内设置排序。

(3) 添加字段选择组件

搜索“字段选择”,拖入画布,命名为“移除产品ID_1字段”。从记录集连接组件拖出连接线到此组件(选择“主输出步骤”)。该组件用于移除关联后重复的产品ID字段。

(4) 添加过滤记录组件

搜索“过滤记录”,拖入画布。从字段选择组件拖出连接线到过滤记录组件(同样选择“主输出步骤”)。此组件将根据利润值将数据分为两条支路。

(5) 添加两个Excel输出组件

搜索“Excel输出”,拖入两个到画布,分别命名为“盈利订单输出”和“亏损订单输出”。从过滤记录组件引出两条连接线:一条选择“True输出”(满足利润>=0条件)连接到“盈利订单输出”,另一条选择“False输出”(不满足条件)连接到“亏损订单输出”。

2.7 配置组件参数

2.7.1 表输入组件配置

双击“订单_详细订单”组件,在弹出的配置窗口中,数据库连接选择“线上公共数据源(Readonly)”。展开表目录,找到 `business_anaylsis.order_detail` 并选中,点击“获取SQL查询语句”,自动生成查询SQL。同理配置“订单_产品信息”组件,选择 `business_anaylsis.product`。

2.7.2 记录集连接组件配置

双击记录集连接组件,在“连接类型”中选择 LEFT OUTER JOIN(左外连接)。配置连接键:第一个表(订单)的字段 `产品ID` 对应第二个表(产品)的字段 `产品ID`。在“排序”标签页可设置按连接键排序,以规避排序警告。

2.7.3 字段选择组件配置

双击“移除产品ID_1字段”组件,进入字段选择界面。通过“获取字段”自动载入上游所有字段,然后选中来自产品表的重复 `产品ID_1` 字段,将其删除,仅保留订单表的产品ID及其他所需字段。

2.7.4 过滤记录组件配置

双击过滤记录组件,设置过滤条件:选择字段 `利润`,操作符选择 `>=`,值填 `0`。这样将流量分为利润≥0和利润<0两部分。

2.7.5 Excel输出组件配置

双击“盈利订单输出”组件,配置文件格式为 Excel 2007+(.xlsx),在“文件”标签中设置输出路径(通常写入文件库中,使用变量如 `${Internal.Entry.Current.Directory}/output/盈利订单.xlsx`)。切换到“输出字段”标签,右键空白处选择“获取字段”,自动填入所有输出字段。勾选“扩展名”等必要选项。

同样方法配置“亏损订单输出”,输出文件名为“亏损订单.xlsx”。

2.8 保存并执行转换

所有组件配置完成后,点击保存按钮。然后点击画布上方的“执行”按钮(绿色播放图标),启动转换。观察执行日志,各组件的输入输出行数正常,直到出现“转换完成”提示。

三、实验结果

转换执行成功后,在项目文件库中进入输出目录,可以看到生成了两个Excel文件:`盈利订单.xlsx` 和 `亏损订单.xlsx`。

盈利订单.xlsx:包含所有利润≥0的订单记录,共 XXX 条(依实际数据而定),字段包括订单ID、产品名称、单价、成本、利润等。

亏损订单.xlsx:包含所有利润<0的订单记录,共 XXX 条,结构同盈利订单。

打开文件核对数据,利润字段的值与分流条件完全一致,且无重复的产品ID字段,表明字段选择正确。两个Excel文件的数据总和等于原始关联后的订单总数,说明数据没有丢失。

四、问题与解决

问题1:建立连接线时提示“排序需要”

现象:从表输入向记录集连接拉线时,弹窗警告“请确保输入记录集连接组件的数据已经排序,否则处理结果可能会出错”。

原因:记录集连接组件基于两个输入流的有序性进行关联,若数据未排序,可能导致关联错乱。

解决方法:在记录集连接组件的配置中,进入“排序”标签,选择连接键(如产品ID)并设置升序排序,由组件自身完成排序。点击确定后,警告不再影响运行。

问题2:Excel输出组件未配置输出字段导致空文件

现象:首次执行转换后,生成的Excel文件只有表头,没有数据行。

原因:在配置Excel输出时,未点击“输出字段”标签中的“获取字段”,输出字段列表为空。

解决方法:打开Excel输出组件,切到“输出字段”标签,在空白表格处右键选择“获取字段”,自动加载上游字段,再次执行转换,数据正常写出。

问题3:同步数据源后未找到表

现象:首次进入元数据看不到 `business_anaylsis` 数据库。

原因:未执行“同步数据源”操作,或同步后未刷新元数据树。

解决方法:右键关系数据库根节点,点击“同步数据源”,等待同步完成。若仍未显示,右键数据库连接目录选择“刷新”,即可看到完整表列表。

五、实验总结

通过本次实验,我完整体验了零代码ETL平台的工作流程,掌握了转换流的设计、组件的拖拽与连线、各关键组件的配置方法。尤其是对表输入、记录集连接(左外连接)、字段选择、过滤记录和Excel输出的组合运用,理解了如何用可视化方式实现数据关联、清洗和分流。这种零代码方式大大降低了数据处理的门槛,使得不擅长编程的分析人员也能快速完成数据加工。

助蹇平台拖拽式操作直观,组件丰富,能够覆盖常见的数据处理场景。自动生成SQL、一键获取输出字段等功能提高了配置效率。元数据同步机制使得数据库接入非常便捷。不足之处在于,排序警告等提示对新用户稍显突兀,若能给出更智能的默认处理(如自动启用排序)会让体验更流畅。整体上,该平台适合零基础的ETL入门教学和中小规模数据加工任务。

Logo

一站式 AI 云服务平台

更多推荐