【助睿实验作业1-订单利润分流数据加工,保姆级教程!(零代码+数据清洗,附完整步骤)】
睿抗实验作业1-订单利润分流数据加工
一、实验背景
1.1实验目的
本次实验依托助睿数智零代码ETL实验平台,开展订单利润分流数据加工实验,总体目的是掌握零代码数据处理的操作流程,理解商业数据ETL加工的业务逻辑。
(1)熟悉助睿数智平台操作界面,了解转换、组件、数据流等基础专业概念,掌握新建转换、组件配置、流程运行的基础操作;
(2)熟练使用表输入、记录集连接、字段选择、过滤记录、Excel输出等组件,掌握多表关联、字段优化、条件分流的数据处理方法;
(3)结合订单明细与产品数据表,完成利润计算,实现盈利订单与亏损订单的分类导出,完成标准化的数据加工流程。
通过本次实验,进一步加深对大数据ETL处理流程的理解,培养数据处理思维,提升商业数据分析实操能力,为后续复杂的数据处理实验奠定基础。
1.2实验环境
(1)硬件环境:搭载Windows操作系统的计算机,设备网络连接正常,保证实验平台网页稳定访问、数据正常加载;
(2)软件环境:主流网页浏览器,用于登录并进入助睿数智实训平台,无需安装额外编程软件;
(3)实验平台:助睿数智Uniplore一站式数据科学实验平台,实验访问地址:https://lab.guilan.cn/;
(4)数据资源:平台内置业务数据库,包含订单明细表、产品信息表,为本次利润分流实验提供原始数据源。
1.3业务场景
本次实验模拟电商企业经营分析场景。企业在日常运营中,需要结合订单明细与产品信息核算订单利润,为精准把控经营状况,需将盈利订单与亏损订单进行划分归类,方便后续开展经营复盘、亏损溯源以及优质订单分析。
1.4数据加工流程
本次实验通过零代码ETL组件完成数据加工,先后完成数据读取、表关联、字段优化、条件分流、文件导出。首先读取订单明细表与产品表,将两张数据表进行关联拼接,剔除冗余重复字段,依据利润正负条件完成数据分流,最后分别导出盈利订单与亏损订单文件。

二、实验步骤
2.1登录实验平台

2.2进入实验平台首页
1.鼠标放在右上角个人图表

2.在弹出的选项框选择【我的学习】

3.点击实训平台

4.点击后进入实验平台首页

2.3了解实验平台
助睿数智一站式大数据平台中的数据集成平台,通过可视化方式完成数据 ETL(抽取、转换、加载)处理,支持拖拽式配置组件、构建数据处理流程。
|
概念 |
说明 |
|
Pipeline(转换流) |
面向数据流的功能单元,处理数据的完整流程,由多个 Transform 步骤组成,实现数据的抽取、转换与加载。 |
|
Workflow(作业) |
面向任务的完整执行单元,由多个 Action 任务项组成,可包含多个转换流,必须包含开始项,用于调度和执行完整的数据处理任务。 |
|
Transform(步骤 / 组件) |
转换流内的最小执行单元,如 “表输入”“记录集连接”“过滤记录”“Excel 输出” 等,每个步骤独立线程运行,实现单一数据处理功能。 |
|
Action(任务项) |
作业的执行控制单元,如 “启动转换流”“调度执行”“发送邮件通知” 等,用于定义作业的执行逻辑和流程控制。 |
|
Hops(节点连接) |
数据传输通道,用于连接不同的步骤组件,定义数据的流向,实现数据在组件间的传递。 |

转换工作流

工作工作流
2.4团队管理
组长可以创建并管理团队。
1.点击数据集成

2.先点击团队管理再点击新增团队

3.在弹出窗口中,输入“团队名称”和“团队描述”后,点击“确认”

4.点击小组右上角”...”,然后点击添加成员

5.输入成员手机号查询,选定后点击右下角“添加”


2.5创建项目
1.选择“所属团队”,可以是个人团队也可以是创建的团队

2.选好“所属团队”后,点击新建项目

3.在弹出窗口中输入“项目名称”后,点击右下角“确定”

2.6同步数据源
1.在界面中找到刚刚创建的项目,点击右上角“...”,在弹出窗口找到并点击“打开项目”


2.点击“元数据”,右键根“关系数据库”,点击“同步数据源”来获取本次实验数据

3.切换“文件库”菜单再切换到回元数据,可以看到成功同步的数据库“线上公共数据源(Readonly)”

2.7新建转换流
本次实验将搭建 “订单利润分流数据处理” 转换流,完成订单数据与产品信息的关联匹配,自动计算订单利润,并基于利润的正负情况,将数据分流为盈利订单与亏损订单,最终导出两份独立的 Excel 文件,用于后续的经营分析与数据复盘。
整体逻辑:订单明细表与产品信息表读取 → 按产品 ID 进行关联拼接 → 清理重复字段并保留关键信息 → 基于利润条件进行分支处理 → 分别输出盈利订单数据与亏损订单数据
1.切换到“资源库”,右击“根目录”,弹出窗口中选择“新建转换流”

2.输入转换流名称,点击“确定”

进入转换流设计界面

3.转换流设计页面每次打开都是锁定状态,需要解锁后才可编辑转换流,点击图标进行解锁


2.8添加组件
1.切换组件库,在关键字搜索框里面搜索你想要的组件,这里搜索表输入

2.鼠标将组件“表输入”拖拽至画布中
表输入作用:读取原始数据。

同样的方法把另一个“表输入”拖至画布中

3.右击“表输入”组件,点击“编辑组件”

4.在弹出窗口中将“步骤名称”改为“订单_详细订单”后,点击右下角“确认”

另一个表输入同样操作,改为“订单_产品信息”

5.添加“记录集连接”组件
记录集连接的作用:按产品ID关联两表。

6.创建“表输入”和“记录集连接”
鼠标置于“表输入”上鼠标会变成一个黑色加号“+”,这时拖拽“+”会出现连接箭头,拖拽箭头靠近“记录连接集”时“记录连接集”四周出现黄色方框,这时点击“记录集连接”,即可连接“表输入”和“记录集连接”。



7.在建立连接线时,会出现“排序需要”的提示。这是由于记录集连接组件是按接收数据的顺序进行记录关联的,如果接收的数据是无序的,可能会造成记录连接结果出错。

8.以相同的方法添加1个“字段选择”,1个“过滤记录”和2个“excel输出”组件
字段选择的作用:移除重复的ID字段。
过滤记录的作用:根据利润正负分流。
excel输出的作用:分别输出盈利亏损订单。
右键“字段选择”组件,点击“编辑组件”

将字段选择的“步骤名称”修改为“移除产品ID_1字段”后点击右下角“确认”

同样的方法将2个“excel输出”分别命名为“盈利订单”和“亏损订单”


9.按照下图的方式进行连线

连接“移除产品ID_1字段”和“过滤记录”时,在弹出窗口中点击“主输出步骤”。
原因:由于在进行字段选择操作时,可能有记录不满足要求,导致记录被标记为错误。主输出步骤表示满足要求的记录通过该连接线传输数据。

在连接“过滤记录”和“盈利订单”时的弹出窗口中选择“True输出”,连接“亏损订单”时,选择“False输出”。

连接结束后的效果如下图所示:

2.9配置组件信息
2.9.1“输入表”配置
1.双击“订单_详细订单”表输入组件,在“数据库连接”的下拉框中点击“线上公共数据源(Readonly)”

2.点击获取SQL查询语言

在弹出的窗口中先点击“线上公共数据源(Redonly)”前的下拉标志,在点击“表”前的下拉标志

在表中找到business_analysis.order_detail,并点击它,点击选中后点击右下角“确定”

在弹出的“系统提示”中,选择“确认”

成功后将如下图所示:

另一个“订单_产品信息”也参考如上操作选择“business_analysis.product”,成功后将如下图所示:

2.9.2“记录集连接”配置
1.第一个Transform连接选择“订单_详细订单”,第二个Transform连接选择“订单_产品信息”,连接类型选择“LEFT_OUTER”

2.点击第一个Transform的“获得选择字段”,结果如下图所示

3.ctrl+鼠标左键选中第一个Tranform字段中除product_id以外的所有项,右键选择“删除选中的所有行”,同样的操作第二个Transform字段中删除除id以外的所有行

删完效果如下,点击“确认”

2.9.3“字段选择”配置
1.双击“字段选择”组件,点击“移除”选项

2.在“字段名称”的空白处右键,点击“获取字段”

3.ctrl+鼠标左键选中除“id”以外的所有项,右键点击“删除选中的行”

4.效果如下图,最后点击“确认”

2.9.4“过滤记录”配置
根据业务需求需要将盈利订单和亏损订单分开存储,两个订单可以使用字段利润来区分。
1.双击“过滤记录”组件,在弹窗中的下拉列表中分别选择“盈利订单”和“亏损订单”

2.“field”选择“profile”,“=”选择“>=”

3.双击“0”

类型选择Integer,值选择0

4.配置好后,选择右下角“确认”

2.9.5“excel输出”配置
1.双击“盈利订单”excel表输出组件,在配置弹窗中,文件名修改为“盈利订单”,选择文件拓展名“xlsx [Excel 2007 and above]”

2.切换至“输出字段”窗口,右键窗口空白处点击“获取字段”

3.字段获取后,点击“确认”

4.“亏损订单”组件也是同样的设置


2.10执行转换
1.点击启动按钮

在执行转换流窗口中,点击右下角“启动”

执行成功后如下图所示:

2.11查看执行日志
任务执行过程中,会将相关操作记录到日志中,任务执行完毕后,可查看执行结果及日志,如下所示:


2.12查看实验结果
1.切换至文件库,在根目录位置右键刷新,即可查看本次转换流程生成的“盈利订单”与“亏损订单”两份输出文件


2.右键文件便可下载并查看详细数据。

三、实验结果
|
输出文件 |
内容 |
说明 |
|
盈利订单.xlsx |
profit ≥ 0 的订单 |
可进一步分析高利润产品 |
|
亏损订单.xlsx |
profit < 0 的订单 |
可用于亏损原因追踪 |
四、核心组件的说明
|
组件 |
作用 |
本实验配置要点 |
|
表输入 |
读取数据库表 |
配置数据源和 SQL,自动获取字段 |
|
记录集连接 |
多表关联 |
选择连接类型和连接字段 |
|
字段选择 |
字段筛选与重命名 |
移除重复的 id 字段 |
|
过滤记录 |
按条件分流 |
设置 profit ≥ 0 |
|
Excel 输出 |
导出结果 |
配置文件名和输出字段 |
五、问题与解决
在实验过程中遇到了三个问题:
问题 1:表输入组件读取不到数据解决方法:配置表输入组件时,无法从数据库中读取订单表和产品表的数据。排查后发现,是数据库连接配置中的 IP 地址和端口号填写错误,导致平台无法连接 MySQL 数据库。修改为正确的数据库连接信息,并测试连接成功后,数据读取恢复正常。
问题 2:记录集连接后数据量异常变少解决方法:将订单表与产品表进行左外连接后,发现订单数据量大幅减少。检查发现连接字段 “产品 ID” 存在拼写错误,与数据库表中的字段名不一致,导致匹配失败。修正字段名称后,连接逻辑恢复正常,数据完整关联成功。
问题 3:字段选择组件无法批量选择字段解决方法:在配置 “字段选择” 组件时,无法同时选中多个需要保留的字段,导致每次只能单独勾选一个字段,效率很低。一开始不知道批量选择的操作方法,后询问同学得知,需要按住Ctrl键,再用鼠标逐个点击需要保留的字段,即可实现多选。掌握该操作后,快速完成了重复字段的移除和关键字段的筛选,配置效率大幅提升。
六、实验总结
总的来说,这次基于助睿平台的初体验让我对 ETL 数据处理有了直观的认知。我不仅独立跑通了从 “创建项目 → 数据源同步 → 转换流搭建 → 组件精调 → 任务执行及结果查看” 的全数据加工流程,还有以下几点深刻体会:
1.核心技能的掌握:熟练运用了 “表输入”“记录集连接”“字段选择”“过滤记录” 以及 “Excel 输出” 这几个关键组件的参数配置方法。尤其是通过本次案例,我真正懂得了如何在企业级业务场景中(例如按利润正负分流)落地多表关联和条件判断的操作,也掌握了批量选择字段、修正输出连接类型等实用技巧。
2.工具视角的转变:以往我认为处理海量或复杂数据必须依赖敲击大段的 SQL 代码或是编写复杂的脚本,但这次 “零代码” 的拖拽玩法确实打破了我的固有印象。可视化平台将抽象的数据处理逻辑具象化,让我更关注业务需求本身,而非语法细节。
3.效率上的显著提升:这种可视化设计界面最大的优势就是 “透明直观”。数据从哪里输入、中间经历了哪些清洗和转换、最终输出到哪里,整条数据链路在画布上一目了然。这对于像我这样的初学者而言,不仅极大地降低了数据处理的学习门槛,还能帮助我在遇到报错时快速定位问题节点,非常适合用来快速响应常见的数据加工需求。
更多推荐




所有评论(0)