零代码平台订单利润分流数据加工
这个实验模拟了一个企业经营的常见分析场景:我们需要把订单表和产品表关联起来,计算每个订单的利润,然后根据利润是正还是负,把订单分成两类来存储。完成这个实验后,我应该能独立用助睿平台处理一些常见的数据加工任务,为以后更复杂的场景打个底。从贵兰在线的课程页面,直接点击进入实验,平台会自动登录,省去了手动输账号的麻烦。这样,后续如果需要分析高利润产品或追踪亏损原因,就有了规范的数据基础。项目建好后,需要
助睿实验作业1-订单利润分流数据加工
一、实验背景
1.1 实验目的
本次实验的主要目的是熟悉助睿零代码数据集成平台(ETL平台)的一些基础操作。我希望能通过实际操作掌握以下几点:
-
新建转换、添加组件、执行转换的基本流程。
-
几个常用组件的配置方法,包括:表输入、记录集连接、字段选择、过滤记录和Excel输出。
-
理解一个简单的ETL设计思路:如何实现多表关联、数据过滤与分流处理。
完成这个实验后,我应该能独立用助睿平台处理一些常见的数据加工任务,为以后更复杂的场景打个底。
1.2 实验环境
-
实验平台:助睿零代码在线实验平台,地址是 https://lab.guilian.cn/。本次实验全程在该平台上完成。
-
关于平台:我们使用的助睿数智(Uniplore)是一个AI驱动的一站式数据科学平台,覆盖了从数据接入、ETL处理到可视化展示的零代码功能。产品官网是 https://www.uniplore.com/。
-
数据库:MySQL,里面准备好了我们需要的两张表:business_anaylsis.order_detail(订单表)和 business_anaylsis.product(产品表)。
1.3 业务场景
这个实验模拟了一个企业经营的常见分析场景:我们需要把订单表和产品表关联起来,计算每个订单的利润,然后根据利润是正还是负,把订单分成两类来存储。
1.4 数据加工流程
我设计的处理流程大致是这样的:
订单明细表 与 产品信息表 做左外连接 → 去掉重复的字段 → 按利润是否大于等于0分成两路 → 分别输出“盈利订单”和“亏损订单”到两个Excel文件。
二、实验步骤
2.1 登录实验平台
从贵兰在线的课程页面,直接点击进入实验,平台会自动登录,省去了手动输账号的麻烦。
-
在课程页面找到“实验课1:助睿ETL入门实验”,点击进入。
-
接着点击页面里的“大数据实训平台”按钮,就跳转到了实验地址 https://lab.guilian.cn/,并且是已登录状态。
2.2 了解几个基本概念
在动手之前,我先大概看了一下平台里几个术语的含义,避免后面搞混:
概念
说明
Pipeline (转换)
面向数据流的处理单元,由多个步骤(Transform)组成。本次实验做的就是转换。
Workflow (作业)
面向任务的单元,由多个动作(Action)组成,可以调度转换。
Transform (步骤)
转换里的最小单元,比如“表输入”、“字段选择”这些组件。
Hops (节点连接)
步骤或任务之间的数据传输通道。
2.3 团队管理(小组作业准备)
这一步是为小组协作准备的。作为组长,我可以创建一个团队,方便管理组员。
-
进入“数据集成/ETL”页面,点击左侧菜单的 “团队管理”。
-
点击 “新增团队”,填写团队名称和描述,比如“商业数据分析小组1”。
-
创建好后,点团队卡片右上角的“更多” → “添加成员”,输入组员的手机号就能添加。
2.4 创建实验项目
平台有个默认项目可以直接用,但我还是为这门课单独创建了一个项目,方便整理。
-
在“数据集成”页面,点击 “新建项目”。
-
选择刚才创建的团队,输入项目名称,确认后就创建好了。
2.5 同步数据源
项目建好后,需要先把数据库里的表同步进来,才能读取数据。
-
点击项目卡片上的“打开项目”。
-
在左侧菜单,先了解一下:“资源库” 管工作流,“文件库” 存文件,“元数据” 管理数据库连接等配置。
-
点击 “元数据”,右键点击 “关系数据库”,选择 “同步数据源”。
-
完成后,切换到“文件库”再切回“元数据”,就能看到成功同步的数据库 “线上公共数据源(Readonly)”。
2.6 新建转换流
我要做的这个转换叫“订单利润分流处理”。
-
切换到 “资源库”,右键根目录 → “新建转换流”,命名为“订单利润分流处理”。
-
进入设计页面后,需要先点击 锁的图标 解锁,才能编辑。
2.7 添加组件
按照流程,我开始往画布里拖组件。整体的顺序是:表输入(两个) → 记录集连接 → 字段选择 → 过滤记录 → Excel输出(两个)。
操作记录如下:
-
添加“表输入”:拖了两个“表输入”组件到画布,分别重命名为“订单_详细订单”和“订单_产品信息”。
-
添加“记录集连接”:拖入一个“记录集连接”组件,然后把两个表输入组件分别连接到它上面。连接时弹出了“排序需要”的提示,这是因为记录集连接依赖输入数据的顺序。
-
添加“字段选择”:拖入“字段选择”组件,重命名为“移除产品ID_1字段”,并把记录集连接组件连接到它。
-
添加“过滤记录”:拖入“过滤记录”组件,连接字段选择组件。选择连接类型时,我选了 “主输出步骤”,意思是只传递正常的数据。
-
添加“Excel输出”:拖了两个“Excel输出”组件,分别命名为“盈利订单”和“亏损订单”。然后把过滤记录组件连接到它们俩,连接类型分别选 “True输出”(满足条件)和 “False输出”(不满足条件)。
2.8 配置组件
组件连好后,开始一个一个配置。
-
表输入配置:
-
双击“订单_详细订单”组件,数据库连接选“线上公共数据源(Readonly)”。
-
点击 “获取SQL查询语句”,在表目录里找到 business_anaylsis.order_detail 并选择,系统自动生成了SQL。同样的操作配置另一个组件,选择 business_anaylsis.product 表。
-
-
记录集连接配置:
-
第一个Transform选“订单_详细订单”,第二个选“订单_产品信息”,连接类型选 LEFT OUTER。
-
分别点击两个“获得连接字段”按钮,获取字段列表。
-
我保留了第一个表的 product_id 字段,以及第二个表的 id 字段,把其他不需要的关联字段都删除了。这样就实现了用 product_id 和 id 进行左外连接。
-
-
字段选择配置:
-
双击“移除产品ID_1字段”组件,点 “移除” 选项卡,再点 “获取字段”。
-
在获取到的字段列表中,我保留了除了 id 以外的所有字段,把 id 字段删掉了,这样就移除了重复的产品ID。
-
-
过滤记录配置:
-
选择按条件发送到不同步骤。
-
判断字段选择 profit (Number)。
-
条件设为 >=,值设为整数 0。这样 profit >= 0 的订单就会走“True输出”支路。
-
-
Excel输出配置:
-
双击“盈利订单”组件,文件名写“盈利订单”,扩展名选 .xlsx。
-
点击 “输出字段”,在空白处右键 “获取字段”,自动导入了所有字段。同样的方法配置“亏损订单”。
-
2.9 执行转换
所有配置都完成后,我点了一下工具栏的 启动按钮,在弹窗里再点“启动”,转换就开始运行了。最后看到执行成功的提示。
2.10 & 2.11 查看日志与结果
-
执行后,可以在日志窗口看到每一步的详细信息,方便排查问题。
-
切换到 “文件库”,右键根目录刷新,就能看到新生成的 “盈利订单.xlsx” 和 “亏损订单.xlsx”,可以右键下载下来查看。
三、实验结果
实验成功跑通了。我得到了两个文件:
-
盈利订单.xlsx:里面是 profit ≥ 0 的订单。
-
亏损订单.xlsx:里面是 profit < 0 的订单。
这样,后续如果需要分析高利润产品或追踪亏损原因,就有了规范的数据基础。
四、核心组件配置小结
我把这次用到的几个核心组件和关键配置点记录了一下:
组件
作用
本实验的关键配置
表输入
读取数据库表
配置正确的数据源,用“获取SQL查询语句”自动生成查询。
记录集连接
实现多表关联
选择连接类型(LEFT OUTER),并指定两个表的连接字段。
字段选择
筛选或重命名字段
在“移除”选项卡中,把关联后重复的 id 字段去掉。
过滤记录
按条件分流数据
设置条件 profit >= 0,并注意选择正确的输出分支(True/False)。
Excel输出
将数据导出为Excel文件
设置好文件名,并在“输出字段”中“获取字段”来定义表头。
更多推荐


所有评论(0)