(学校要求发的，请自行忽略)

这次实验让我直观感受到了零代码平台做数据集成的便利。以前要在代码里写一堆SQL和连接逻辑，现在只需要拖拖拽拽、点点选选，就能快速搭建出一个逻辑清晰的数据处理流水线。我对ETL中“抽取、转换、加载”的理解不再是抽象概念，而是变成了一个个看得见的组件和连线。

TchaoSheaYu

145人浏览 · 2026-05-02 12:19:39

TchaoSheaYu · 2026-05-02 12:19:39 发布

保姆级教程！基于零代码平台实现订单利润分流数据加工

一、实验背景

1.1 实验目的

本次实验，我的主要目标是上手体验助睿数智（Uniplore）一站式数据科学实验平台的数据集成模块。在真实业务中，经常需要将分散在不同数据表中的信息关联起来，按照某个条件进行分流，最终生成我们需要的文件。因此，我打算通过“订单利润分流处理”这个小任务，掌握以下技能：

如何创建和管理一个ETL转换任务。
学会使用几个最核心的组件：“表输入”、“记录集连接”、“字段选择”、“过滤记录”、“Excel输出”。
把一张订单表和一张产品表关联起来，根据利润正负，将数据分流成“盈利订单”和“亏损订单”，并分别输出到Excel文件里。

1.2 实验环境

实验平台：助睿数智（Uniplore）数据科学实验平台（地址：https://lab.guilian.cn/）。该平台覆盖了从数据接入、ETL处理到机器学习建模、可视化的全链路，主打零代码与Agentic智能。
数据环境：平台提供的MySQL数据库，里面有两个现成的数据表：business_anaylsis.order_detail（订单明细）和business_anaylsis.product（产品信息），同步后即可使用。

1.3 处理流程简述

整个ETL任务的逻辑非常清晰：

抽取：从数据库分别读取订单和产品数据。
转换：
- 用“记录集连接”对两表执行左外连接，关联字段是产品ID。
- 用“字段选择”移除连接后重复的ID字段。
- 用“过滤记录”设定条件利润 >= 0，把数据分成两条支流。
加载：将盈利和亏损的数据流分别写入两个Excel文件。

二、实验步骤

2.1 环境准备：团队与项目创建

进入ETL页面后，我先是点击“团队管理”新建了一个团队，方便管理实验。之后回到主页面，点击“新建项目”，输入项目名称，一个专属的实验空间就建好了。

2.2 同步数据源

进入项目后，左侧菜单切到“元数据”，右键“关系数据库”选择“同步数据源”。几秒后，“线上公共数据源(Readonly)”就出现了，我们需要的订单表和产品表都在里面。

2.3 新建转换流

接下来就是动手搭建数据处理流程了。我切回“资源库”菜单，右键根目录，选择“新建转换流”，并为它取名“订单利润分流处理”。双击打开后，记得点击锁图标解锁画布，这样才能拖拽组件。

2.4 搭建工作流并配置组件

下面就是一步步拖拽组件、连线、配置参数的过程，也是整个实验最核心的部分。

第一步：表输入组件

从组件库里搜索“表输入”，把两个组件拖到画布上。我给它们分别改名为“订单_详细订单”和“订单_产品信息”。
双击“订单_详细订单”进入配置：数据库连接选“线上公共数据源”，点击“获取SQL查询语句”，在弹出的表列表中找到business_anaylsis.order_detail，点击确定，SQL语句就自动填好了。另一个“订单_产品信息”组件如法炮制，选择business_anaylsis.product表。

第二步：记录集连接组件

拖入“记录集连接”组件，并从两个表输入组件拉出连接线指向它。双击组件开始配置：

第一个Transform选“订单_详细订单”，第二个选“订单_产品信息”。
连接类型选择 LEFT OUTER。
分别点击两个Transform的“获得连接字段”，指定用订单表的produc_id和产品表的id进行关联。多余字段右键删除，只保留关联用的字段。

第三步：字段选择组件

连接之后会产生两个重复含义的字段：produc_id 和 id。我拖入“字段选择”组件，命名为“移除产品ID_1字段”，并把它连到记录集连接组件后面。在配置界面的“移除”选项卡里，先“获取字段”，然后选中id字段删除即可，这样就不会有冗余列了。

第四步：过滤记录组件

分流就靠它了。拖入“过滤记录”组件，接收来自“字段选择”组件的主输出步骤。双击配置，条件设置如下：

字段：profit(Number)
条件：>=
值：Integer类型的 0

这样一来，数据就被分成了 “True（利润≥0）”和“False（利润<0）”两条路。

第五步：Excel输出组件

最后，拖入两个“Excel输出”组件到画布，分别命名为“盈利订单”和“亏损订单”。将过滤记录组件的“True输出”连到“盈利订单”，“False输出”连到“亏损订单”。
分别双击配置这两个组件：

文件名分别写 盈利订单 和 亏损订单，扩展名选 xlsx。
在“输出字段”选项卡下，右键空白处点击“获取字段”，所有字段就会自动列出来，点击确认保存。

2.5 执行任务并查看结果

一切就绪，点击画布左上角的“启动”按钮，在弹出的确认窗口中再次点击“启动”。很快，流程就跑完了，所有组件都显示绿色对勾，状态栏提示“执行成功”。

这时我切到“文件库”菜单，右键刷新，盈利订单.xlsx 和 亏损订单.xlsx 已经安安静静地躺在那里了，可以右键下载下来查看。

三、实验结果

下载并打开 盈利订单.xlsx，可以看到表格列包含了订单和产品的综合信息，并且 profit 列的所有值确实都大于等于0，符合我的过滤条件。另一个 亏损订单.xlsx 也同理，只包含利润小于0的记录。数据分流正确，整个零代码流程成功达成了目标。

四、问题与解决

实验中我碰到一个小插曲：

问题现象：在把“表输入”连向“记录集连接”时，系统弹出一个“排序需要”的提示框。
问题原因：我查找了资料，原来“记录集连接”组件依赖已排序的数据流进行关联，如果数据未排序可能导致结果不准确，所以它给出了强制提示。
解决方法：考虑到实验数据量较小，且我预览发现即使不单独排序也能得到正确结果，就直接关闭了提示继续执行。不过，如果是处理海量数据，最好还是听从提示，在中间插入一个“排序”组件，以保证数据的准确性和性能。