订单利润分流数据加工实验报告
在企业经营分析的实际场景中,订单业务数据与产品基础数据通常分散存储于不同的数据表中,为实现订单利润的精准核算与分类管理,需要将多源数据进行关联整合,并基于利润的正负情况对订单进行分流处理,为后续的经营决策、业务复盘提供结构化的数据支撑。本次实验熟悉了助睿零代码ETL平台的基础操作,掌握了表输入、记录集连接、过滤记录等核心组件的配置方法,完成了订单数据的多表关联、字段去重与条件分流,最终导出盈利与亏
订单利润分流数据加工实验报告
(助睿零代码 ETL 平台实践)
一、实验背景
在企业订单业务场景中,订单数据与产品信息分散存储于不同数据表中,且原始数据往往存在字段冗余、格式不规范、数据质量参差不齐等问题,无法直接用于利润分析与业务决策。本实验通过零代码ETL工具完成订单数据的整合、清洗、过滤与分流,为后续的订单利润统计与分析提供高质量的结构化数据。
1.1实验目的
本次实验以助睿零代码数据集成平台(Uniplore)为工具,旨在帮助学习者掌握ETL数据加工的完整流程与核心方法,具体目标如下:
(1) 掌握助睿平台中新建数据转换、添加处理组件、执行转换任务的全流程操作规范;
(2) 熟练配置表输入、记录集连接、字段筛选、数据过滤、文件输出等常用ETL组件,理解各组件的功能与适用场景;
(3) 理解多表关联、数据过滤、条件分流的设计逻辑,能够基于业务需求设计合理的数据加工流程;
(4) 能够独立完成订单数据的清洗、整合与分流处理,形成符合分析需求的结构化数据,为后续的数据分析与业务建模奠定基础。
1.2实验环境
(1) 实验平台:助睿数智(Uniplore)一站式数据科学平台,该平台提供从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能,适配数据分析教学与企业级数据加工场景。本次实验的访问地址为https://lab.guilian.cn/,产品官网为https://www.uniplore.com/。
(2) 数据存储环境:MySQL数据库,包含订单业务数据表与产品信息基础数据表,为本次实验提供原始业务数据支撑。
1.3 业务场景
在企业经营分析的实际场景中,订单业务数据与产品基础数据通常分散存储于不同的数据表中,为实现订单利润的精准核算与分类管理,需要将多源数据进行关联整合,并基于利润的正负情况对订单进行分流处理,为后续的经营决策、业务复盘提供结构化的数据支撑。本实验以订单利润分流任务为载体,依托助睿零代码ETL平台,通过可视化拖拽的方式完成数据关联、清洗、过滤与分流的全流程数据加工。
1.4 数据加工流程
本次实验的数据加工流程如下:
(1) 数据读取:从MySQL数据库中读取订单明细(business_anaylsis.order_detail)与产品信息表(business_anaylsis.product);
(2) 数据关联:以产品ID为关联键,对两张表进行左外连接,实现订单数据与产品信息的整合;
(3) 数据清洗:移除关联过程中产生的重复ID字段,保证数据结构的规范性;
(4) 条件分流:基于订单利润字段,按“利润≥0”的条件对数据进行分流,将订单划分为盈利订单与亏损订单两类;
(5) 结果输出:将分流后的盈利订单与亏损订单数据,分别导出为独立的Excel文件,完成数据加工任务。
二、实验步骤
2.1登录实验平台
打开贵兰在线课程学习平台首页,点击右上角的用户,如果没有登录的话先进行登录,可账户密码登录,也可贵兰小程序扫码登录,选自己喜欢的方式即可,登录过后点击“我的学习”:
进入如下页面,点击实训平台
等待实验平台加载,加载过程中可能会出现如下错误提示:
需要找老师重置密码,之后在对应地址重新登录,地址:https://lab.guilan.cn/
实验平台加载如下:
2.2 平台核心概念理解
助睿数智(Uniplore)数据集成平台,是一款面向数据ETL(抽取、转换、加载)的零代码可视化工具,用户可通过拖拽组件的方式快速构建数据处理流程。在实验开始前,需先明确平台的核心概念,为后续流程搭建奠定基础:
Pipeline(转换):面向数据流的处理单元,是数据加工的核心载体,由多个数据处理步骤(Transform)串联而成,负责完成数据的读取、转换、输出等核心逻辑。
Workflow(作业):面向完整业务任务的执行流程,由多个任务项(Action)组成,必须包含起始节点,支持按顺序或条件执行多步骤任务,适用于自动化、周期性的数据处理场景。
Transform(步骤):转换(Pipeline)内的最小处理单元,如“表输入”“字段选择”“数据过滤”“Excel输出”等,每个步骤独立线程运行,可并行处理数据。
Action(任务项):作业(Workflow)的执行单位,如“启动转换”“发送邮件通知”“文件传输”等,用于定义流程的控制逻辑与辅助操作。
Hops(节点连接):流程中节点间的数据传输通道,用于连接不同的步骤或任务项,定义数据的流向与传递关系。
平台的流程分为两类:转换工作流(专注于数据处理逻辑)与作业工作流(专注于任务调度与流程控制),本次实验主要使用转换工作流完成订单利润数据的加工。
2.3 团队管理配置
为了适配课程实验中的小组协作场景,助睿数智(Uniplore)平台提供了完善的团队管理功能。用户可以创建专属的实验团队,邀请组员加入后,所有成员都能共享项目、数据流程与处理资源,实现多人协同编辑、统一权限管理,避免了重复搭建流程、文件传输混乱的问题,让小组合作完成ETL数据加工任务更高效、更规范接下来演示如何创建团队和添加成员,可点击左侧的数据集成,也可点击右边的ETL
进入下面页面之后,选择团队管理,点击新增团队进行创建(系统创建的默认为个人团队,个人团队不可添加成员)
填写相关信息后点击确认,
点击创建好的团队的右上角的三个点,可进行相应的团队管理操作
添加成员通过输入手机号添加,输入之后点击查询,勾选后点击添加
平台自带默认项目可直接用,但为了课程实验的分类管理,我建议给每门课或每个实验单独建一个专属项目,避免不同课程的流程和数据混在一起。操作时记得要选好所属团队(可以选择自己创建的协作团队,也可以选个人团队),再点击左侧的「新建项目」按钮,就能快速创建课程专属的实验项目,后续的ETL流程都在这里搭建,管理起来会清爽很多。
选择好之后点击新建项目,输入项目名称后点击确定:
(友情提示:项目名称确定之后不能更改,为了方便之后寻找,还是建议起有标志性的名称)
想对项目进行操作的话,一样点击右上角的三个点
2.4 新建转换流
进入创建好的实验项目后,左侧菜单栏有三个关键模块:资源库、文件库、元数据,它们各司其职,是后续搭建ETL流程的基础。
本次订单利润分流实验,我们主要用到资源库搭建流程、文件库存储输出结果,元数据的配置在进阶实验中会更常用。
进入实验项目页面,点击左侧菜单栏中的「元数据」选项,右键点击「系统数据库」节点,选择「同步数据源」功能,即可完成本次实验所需订单数据表与产品信息表的同步。数据同步完成后,后续ETL流程中可直接通过「表输入」组件读取对应数据表,无需手动配置数据库连接信息。
之后可以点击文件库再切换回元数据,就可以刷新出来刚刚同步的数据
同步好数据集后,我们就可以开始搭建本次实验的核心——「订单利润分流处理」转换流了,它能帮我们把订单和产品数据关联起来,还能自动按利润正负分成盈利/亏损订单,分别导出Excel文件。
新建转换流操作如下:
进入项目的「资源库」模块,右键点击根目录,选择「新建转换流」,输入名称后点击确定,就能创建本次实验的流程画布,后续的组件拖拽、配置都在这里完成。
创建完之后进入转换流设计页面,别管每次打开默认是锁定状态,需要解锁后才能编辑,点击锁就可以解锁
2.5 添加组件
创建好转换流后,下一步就是添加组件搭建数据处理流程了。以本次订单利润分流实验为例,我们先从「表输入」组件开始,它是读取原始数据的第一步。
由于本次实验需要同时读取订单明细表(business_anaylsis.order_detail)和产品信息表(business_anaylsis.product)两张数据表,所以需要添加2个「表输入」组件,分别读取不同的数据表,为后续的关联操作做准备。
平台的组件库里面有很多组件,一个个找会很麻烦,所以推荐直接搜索的方法:
点击左侧的「组件库」选项卡,在顶部的搜索框中输入“表输入”,就能很快找到想要的组件,直接拖拽到画布上就可以使用。
右键第一个输入组件,编辑组件属性,修改名称为订单_详细订单,点击确认,另外应该修改为订单_产品信息。
在助睿数智平台中,完成订单明细表与产品信息表的读取后,需通过「记录集连接」组件实现两张表的数据关联,在组件库中输入该名称拖入画布中
创建连线,将鼠标移动到表输入组件边缘处,鼠标成白色或者黑色的+,就可以长按左键连接,连接如下:
在给表输入组件和记录集连接组件建立连接线时,平台会弹出“排序需要”的提示,这是平台的安全提醒:记录集连接组件是按数据接收顺序来匹配记录的,如果输入的数据没有按关联键排序,就可能导致关联结果错乱。
订单明细表与产品信息表完成关联后,结果数据中会出现重复的「产品 ID」字段,需通过「字段选择」组件进行数据清洗,也是一样的添加组件和拖进画布
将该组件改名为“移除产品ID_1字段”,并和记录集连接连接。
添加过滤记录组件,用于按利润条件对订单数据进行分流,将数据分为盈利订单和亏损订单两路输出。还是一样的操作添加组件
添加Excel输出组件:过滤记录组件将订单分为盈利、亏损两路数据后,分别用2个Excel输出组件,将两路结果导出为独立的Excel文件。
将两个Excel输出组件分别命名为“盈利订单”和“亏损订单”,并与过滤记录组件建立连接:满足条件(利润≥0)的记录走True输出,对应“盈利订单”;不满足条件的记录走False输出,对应“亏损订单”
转换流任务构建成功:
2.6 配置组件信息
2.6.1表输入组件配置
双击第一个表输入组件,进入配置页面,在「数据库连接」下拉框中选择已同步的 “线上公共数据源”。同时点击下面的按钮获取SQL语句,在展开的页面选择“线上公共数据源”-“表”-“business_anaylsis.order_detail”,选中后点击确定
订单_详细订单表配置完成后,产品信息也是一样的操作,不过产品信息选择的是business_anaylsis.product
2.6.2记录集连接组件配置
双击打开配置页面,下拉选择数据源,选择如下:
然后分别点击下面的两个获取字段
配置记录集连接:设置订单表produc_id与产品表id的左外连接,删除两表中除关联字段外的其他字段,左键选中需要移除的字段之后,可按住CTRL键,能实现选中多个字段,同时可拖动右侧的滚动条,使下面没有选中的字段呈现出来,操作如下:
选完需要删除的字段之后,右键出现功能选择,选择删除选中的行,会出现一个系统提示,选择确认即可。
误删的话可重新获取字段再进行删除。
第二个也是一样的操作,保留id,操作完成后页面如下,无误之后点击确认:
2.6.3字段选择组件配置
配置字段选择组件:移除两表关联后重复的id字段,仅保留produc_id字段,完成数据去重。
2.6.4过滤记录组件配置
配置过滤记录组件:按利润条件分流订单,将盈利订单和亏损订单分别发送至两个Excel输出组件。具体操作如下:
判断字段选择profit,判断条件选择>=0,点击即可进行修改
同时点击value,类型选择Integer,值输入为0,设置如下
配置好之后点击确认即可
2.6.5两个Excel输出组件配置
先配置盈利订单,双击进入配置页面,修改文件名和格式便于下次查看
之后点击输出字段,右键选择获取字段,获取字段之后就配置好了,点击确认即可
亏损订单也是一样的操作
2.7 执行转换
配置无误之后点击启动按钮
执行成功
在文件库中,可右键根目录刷新,也可点击资源库等再点击文件库,也可以完成刷新
右键对应的文件选择对应功能
选择下载之后会出现如下窗口,我的建议是选择另存
点击即可打开
2.8 实验总结
本次实验熟悉了助睿零代码ETL平台的基础操作,掌握了表输入、记录集连接、过滤记录等核心组件的配置方法,完成了订单数据的多表关联、字段去重与条件分流,最终导出盈利与亏损订单数据。零代码拖拽式的操作直观易懂,降低了数据处理的学习门槛,加深了对ETL流程的理解,助睿平台的拖拽式组件操作直观易懂,数据流清晰可追溯,调试和排错都很方便。相比传统SQL方式,它大幅降低了数据处理的门槛,新手可快速入门。
#助睿数智 #商业数据分析 #ETL数据加工 #数据实验
更多推荐


所有评论(0)