一、实验背景

1.1 实验目的

本次实验围绕“订单利润分流数据加工”任务展开,主要目的是熟悉助睿数智平台中数据集成模块的基本操作方法,掌握可视化 ETL 流程的搭建思路。通过本次实验,我需要完成新建转换流、添加组件、配置步骤、执行数据处理等基本操作,并在实际操作过程中理解多表关联、字段清洗、条件分流和结果输出的实现方法。

结合实验任务要求,本实验重点训练以下几个方面的能力:一是掌握转换流的创建与基本配置方法;二是熟悉表输入、记录集连接、字段选择、过滤记录、Excel 输出等常用组件的使用方式;三是理解如何将订单表与产品表进行关联,并根据利润值完成盈利订单与亏损订单的分流处理;四是初步建立基于零代码平台完成 ETL 数据加工任务的实践认识。

从平台定位来看,Uniplore iDIS 被官方定义为 AI 驱动的一站式零代码大数据智能服务平台,覆盖数据集成、治理、分析与 AI 等能力,因此本实验将其数据集成能力作为主要的可视化 ETL 实训环境。

1.2 实验环境

本次实验使用助睿数智(Uniplore)作为零代码在线实验平台。该平台是一站式数据科学平台,覆盖从数据接入、ETL 处理、机器学习建模到可视化展示的全链路零代码功能,既适用于数据分析教学场景,也适用于企业数据加工与处理场景。

本实验相关环境信息如下:

  • 实验平台:助睿数智(Uniplore)
  • 产品官网https://www.uniplore.com/
  • 实验访问地址https://lab.guilian.cn/
  • 数据库类型:MySQL
  • 实验数据内容:订单数据与产品信息数据
  • 数据准备
    订单表 business_analysis.order_detail
    产品表 business_analysis.product

本次实验依托平台提供的数据集成功能完成订单利润分流数据加工任务,主要通过可视化拖拽与组件配置的方式,实现订单表与产品表的关联、字段清理、条件分流以及结果导出。

1.3 业务场景

在企业经营分析中,订单数据往往不能直接反映利润情况,通常需要结合产品信息、成本信息或其他业务字段进行进一步计算与分类。订单利润分析属于常见的数据处理场景,其目标不仅是统计订单数量,还包括识别哪些订单为盈利订单,哪些订单为亏损订单,从而为后续的经营分析、产品优化和业务决策提供依据。

本实验以订单利润分流为例,通过将订单明细表与产品表进行关联,形成统一的数据处理流,在此基础上移除冗余字段,再按照利润是否大于等于 0 的条件对订单进行分流,最终分别输出盈利订单与亏损订单数据。整个过程体现了 ETL 中“读取数据—关联整合—字段整理—条件分流—结果输出”的基本处理逻辑。

1.4 数据加工流程

本实验的数据加工流程较为清晰,整体逻辑可以概括为:首先读取订单明细表与产品信息表;然后按照产品 ID 对两张表进行左外连接;接着移除连接后产生的重复 ID 字段;随后依据利润值是否大于等于 0 将订单分为盈利订单和亏损订单两类;最后分别输出到不同结果文件中。

这一流程与平台文档中展示的典型数据集成思路基本一致,即通过“表输入—记录集连接—字段选择—过滤记录—输出”这样的链式结构实现可视化 ETL 处理;同时,官方文档也明确提到,记录集连接这类组件在使用时通常需要先对输入数据进行排序,以保证后续关联处理的正确性。


图1-1 订单利润分流处理整体流程

二、实验步骤

2.1 登录实验平台

首先,在对应课程学习页面中进入“助睿 ETL 入门实验”相关内容。根据课程页面提示,点击实验说明中的实验平台入口,进入本次实验所使用的在线数据实训平台。进入平台后,系统会跳转到登录页面;登录成功后,即可进入平台首页,看到数据接入、数据集成、可视化探索、制作仪表盘、机器学习、数据治理等功能模块。

这一部分操作的重点不在复杂配置,而在于明确实验入口、确认平台能够正常访问,并熟悉后续实验将主要使用的数据集成功能模块。

图2-1 实验平台首页

2.2 基本概念了解

进入平台后,我先对数据集成模块中的几个基础概念进行了了解,以便后续能够正确理解整个转换流程的结构关系。实验页面中给出的几个核心概念包括 Pipeline、Workflow、Transform、Action 和 Hops,它们共同构成了平台的数据处理组织方式。

其中,Pipeline 可以理解为面向数据流处理的转换流程,由多个 Transform 组成;Workflow 则面向任务级组织,由多个 Action 组成,并需要包含开始项;Transform 是转换中的最小处理单元,例如表输入、字段选择等步骤;Action 是作业中的执行单元,例如启动、发送邮件等;Hops 则表示不同步骤或任务项之间的数据传输连接关系。

为了便于正文呈现,这一部分建议整理成表格放入报告中。

表2-1 数据集成平台基本概念说明

概念

说明

Pipeline(转换)

面向数据流处理的一个功能单元,由多个 Transform 组成

Workflow(作业)

面向任务组织的完整流程,由多个 Action 组成,必须包含开始项

Transform(步骤)

转换中的最小处理单元,如表输入、字段选择等

Action(任务项)

作业中的执行单位,如启动、发送邮件等

Hops(节点连接)

用于连接步骤或任务项的数据传输通道

这一概念划分与官方文档中的 UDI Studio 设计逻辑相一致,平台的常见实践也是围绕“组件拖拽—步骤连接—流程执行”展开。

图2-2 转换工作流结构示意


图2-3 作业工作流结构示意

2.3 团队管理

在实验平台中,为了便于实验过程中的项目管理与成员协作,需要先完成团队管理相关操作。进入数据集成页面后,可以在左侧菜单中找到“团队管理”模块。点击“新增团队”后,系统会弹出新建团队窗口,此时需要填写团队名称和团队描述,确认后即可完成团队创建。

团队创建完成后,还可以在团队卡片右上角通过“更多”菜单执行添加成员操作。添加成员时,只需输入对应成员的手机号进行查询,勾选需要加入团队的成员后点击“添加”即可。通过这一过程,可以将实验参与者统一纳入同一团队中,便于后续项目归属和资源管理。

图2-4 团队管理页面

图2-5 团队成员添加界面

2.4 创建实验项目

完成团队创建后,为了使本次实验流程与其他任务相互独立,我继续在数据集成模块中创建了专门的实验项目。虽然平台提供默认项目可直接使用,但为了便于分类管理、资源保存和后续查找,将本次实验单独建立项目更为规范。

创建项目时,需要先选择项目所属团队,然后点击“新建项目”,在弹出的属性窗口中填写项目名称并确认。项目创建成功后,会在项目列表中显示新建项目卡片。通过这一操作,可以为后续的转换流、文件和元数据管理提供清晰的归属环境,也有利于实验过程的规范化组织。

图2-6 新建实验项目界面

2.5 同步数据源

项目创建完成后,我打开新建项目进入项目内部页面。进入项目后,可以看到左侧主要包含“资源库”“文件库”“元数据”三类功能入口。其中,资源库主要用于管理转换流等处理资源,文件库用于保存流程运行过程中生成的文件,元数据则用于维护数据库、运行配置等实验所依赖的基础信息。

本实验需要首先获取系统预置的数据源,因此我先切换到“元数据”页面,在关系数据库节点上执行“同步数据源”操作,以获取本次实验需要使用的订单数据和产品数据。完成同步后,再切换回文件库或元数据页面,即可看到系统提供的公共数据源内容,为后续表输入组件配置提供数据基础。

官方文档中的典型案例同样表明,在 UDI Studio 中,表输入通常作为读取数据库表数据的起点,随后再通过记录集连接、字段选择和过滤记录等组件完成后续处理。

图2-7 同步关系数据库数据源

2.6 新建转换流

在完成数据源准备之后,我开始创建本次实验的核心处理流程,即“订单利润分流处理”转换流。该转换流的目标是实现订单数据与产品信息的关联,依据利润值进行订单分流,并为后续结果输出做好准备。

创建转换流时,我在资源库中右键目录,选择“新建转换流”,然后输入转换流名称并确认。创建成功后,系统会进入转换流设计页面。初始状态下,设计页面通常处于锁定状态,需要先点击锁图标进行解锁,之后才能对画布上的组件和连接关系进行编辑。

这一环节完成后,说明实验已经从项目准备阶段进入了真正的数据处理设计阶段。

图2-8 新建转换流操

2.7 添加组件

2.7.1 添加表输入组件

由于本实验需要同时读取订单明细表和产品信息表两类数据,因此在转换流中首先需要添加两个“表输入”组件。具体操作为:在组件库中搜索“表输入”,然后将组件拖拽到画布中,重复两次,从而形成两个独立的数据读取入口。

随后,我分别对这两个表输入组件进行重命名,使其含义更加清晰。根据截图中的操作,一个组件用于读取订单明细数据,另一个组件用于读取产品信息数据。通过这种方式,可以在后续连接和配置过程中更直观地区分不同数据源,降低流程混淆的可能性。

官方文档中的多个数据集成案例也都采用了“先拖入多个表输入组件,再分别命名和配置”的方式,作为多表关联处理的起点。

2.7.2 添加记录集连接组件

在两个表输入组件添加完成之后,下一步是通过“记录集连接”组件将两张表的数据进行关联。具体操作为:在组件库中搜索“记录集连接”,将其拖拽至画布中央,再分别把两个表输入组件连接到该组件上,从而构成两表汇合的处理节点。

从实验任务逻辑来看,此处的记录集连接主要承担按产品 ID 进行左外连接的作用,为后续利润分析提供完整字段。需要注意的是,在建立连接的过程中,系统会提示“排序需要”。这是因为记录集连接这类组件在处理数据时,对输入数据顺序有一定要求;官方文档中的案例也明确说明,在表输入前常通过排序语句保证数据顺序,以利于后续记录集连接的正确处理。

因此,这一步不仅是简单地拖拽组件,更体现了数据关联处理中“先准备输入,再执行连接”的基本 ETL 思维。

2.7.3 添加字段选择组件

在两表关联完成后,数据流中会出现重复字段,尤其是两张表中共有的产品 ID 字段。为保证后续流程字段结构清晰,需要通过“字段选择”组件对连接后的字段进行整理,移除多余或重复字段。

具体操作为:在组件库中搜索“字段选择”,将其拖拽到画布中,并连接到记录集连接组件之后。随后对该组件进行重命名,使其功能表达更加明确。根据实验页面逻辑,这一步的核心目的是去除连接后重复出现的产品 ID 字段,避免字段冗余影响后续条件判断与结果输出。

从平台文档来看,字段选择组件通常用于保留需要字段、移除不需要字段,或进行字段名调整,是数据清洗阶段非常常见的基础组件。

2.7.4 添加过滤记录组件并设置主输出连线

在完成字段整理之后,需要依据订单利润情况对记录进行分流,因此继续在组件库中搜索“过滤记录”组件,并将其拖拽到画布中。随后,将字段选择组件与过滤记录组件建立连接。在建立连接关系时,系统会弹出连接类型选择窗口,此时应选择“主输出步骤”,因为字段选择组件可能同时存在正常输出与错误输出两类分支,而后续利润分流应接收的是字段处理完成后的正常记录流。

通过这一操作,订单数据经过两表关联和重复字段清理后,即可进入条件判断阶段,为后续盈利订单与亏损订单的拆分输出做好准备。

2.7.5 添加 Excel 输出组件

记录经过过滤记录组件后,将会被划分为两类输出结果,因此需要继续添加两个 Excel 输出组件,分别用于保存盈利订单和亏损订单数据。具体操作为:在组件库中搜索“excel 输出”,然后将两个 Microsoft Excel 输出组件拖拽到画布中。

为了便于后续识别与管理,需要将两个 Excel 输出组件分别命名为“盈利订单”和“亏损订单”。接着,从过滤记录组件向两个 Excel 输出组件分别建立连接。在连接类型选择窗口中,一个输出分支选择“True 输出”,表示满足过滤条件的记录;另一个输出分支选择“False 输出”,表示不满足过滤条件的记录。根据本实验的业务规则,满足利润条件的记录流输出到“盈利订单”,不满足利润条件的记录流输出到“亏损订单”。

至此,订单利润分流处理转换流的整体结构已经搭建完成,形成了“表输入—记录集连接—字段选择—过滤记录—Excel 输出”的完整处理链路。

图2-9 添加组件结果示例图

2.8 配置组件信息

组件添加完成后,还需要对各组件进行具体配置,确保转换流能够正确读取数据、完成关联、进行过滤,并将结果输出到指定文件中。

2.8.1 表输入组件配置

首先配置“订单_详细订单”表输入组件。双击组件后,弹出表输入配置窗口。在数据库连接下拉框中选择已经同步好的“线上公共数据源(Readonly)”。之后点击“获取 SQL 查询语句”,系统会自动进入数据源选择窗口。

在数据源浏览窗口中,展开“线上公共数据源(Readonly)”下的“表”目录,找到并选择 business_analysis.order_detail 表,确认后系统会自动生成对应的 SQL 查询语句。生成完成后,点击“确认”,即可完成订单明细表输入组件的配置。其余参数保持默认即可。

另一个“订单_产品信息”表输入组件的配置方式与上述相同,只是所选择的数据表改为 business_analysis.product,系统会自动生成对应的数据查询语句。完成后点击“确认”,即可完成第二个表输入组件的配置。

这一部分操作的实质,是为后续处理流程分别指定两类原始输入数据:一类是订单明细数据,另一类是产品信息数据。

2.8.2 记录集连接组件配置

完成两张表的读取配置后,需要进一步配置记录集连接组件。双击记录集连接组件后,在弹出的配置窗口中,分别设置第一个 Transform 和第二个 Transform。第一个 Transform 选择“订单_详细订单”,第二个 Transform 选择“订单_产品信息”。

连接类型选择 LEFT OUTER,表示以订单明细数据为主表,将产品信息按关联字段进行左外连接。随后点击两个连接字段区域中的“获取连接字段”按钮,分别获取两个输入组件中的字段列表。根据实验数据结构设置连接字段:第一个 Transform 中保留 product_id 作为连接字段,第二个 Transform 中保留 id 作为连接字段。这样即可实现订单明细表中的产品 ID 与产品信息表中的主键 ID 的对应关联。

设置完成后点击“确认”,即可完成两张表的关联配置。

2.8.3 字段选择组件配置

记录集连接完成之后,输出结果中会同时保留 product_id 和 id 两个含义相同的字段。由于后续分析只需要保留一个产品标识字段,因此需要在字段选择组件中移除冗余字段。

双击字段选择组件,在“移除”选项卡中点击“获取字段”,系统会将连接后的字段列表加载出来。此时只需选中重复字段中的 id,右键点击“删除选中的行”,将其从保留字段列表中移除。由于 product_id 已经能够反映产品标识,因此删除 id 后并不会影响后续处理逻辑,反而可以使数据结构更加清晰。

配置完成后,点击“确认”,即可完成字段清理。

2.8.4 过滤记录组件配置

为了实现盈利订单与亏损订单的自动分流,需要配置过滤记录组件中的条件表达式。双击过滤记录组件后,在弹出的配置窗口中设置过滤条件。

首先,在左侧字段选择框中选择 profit 字段,并确认其类型为 Number。然后设置比较运算符为 >=。最后,在右侧值输入区域中选择 value,将值类型设置为 Integer,输入数值 0。这样就构成了过滤条件“profit >= 0”。

该条件表示利润大于等于 0 的订单将作为满足条件的数据流输出,也就是盈利订单;利润小于 0 的订单将作为不满足条件的数据流输出,也就是亏损订单。配置完成后点击“确认”,即可完成利润分流规则设置。

2.8.5 Excel 输出组件配置

在利润分流规则设置完成后,最后需要配置两个 Excel 输出组件,用于保存处理结果。

首先配置“盈利订单”输出组件。双击组件后,在配置窗口中将文件名修改为“盈利订单”,文件扩展名选择 xlsx [Excel 2007 and above]。随后切换到“输出字段”选项卡,在空白表格处右键点击“获取字段”,让系统自动读取当前输入数据流中的字段结构。字段加载完成后点击“确认”,即可完成盈利订单输出组件的配置。

“亏损订单”输出组件的配置方式与之相同,只需将文件名修改为“亏损订单”,并同样选择 xlsx [Excel 2007 and above] 作为扩展名,再获取输出字段并确认即可。

完成这一步后,整个转换任务所需的输入、处理与输出组件就全部配置完毕。

图2-10 盈利订单文件输出配置

图2-11 亏损订单文件输出配置

2.9 执行转换

当所有组件及其参数配置完成后,即可执行转换任务。点击画布上方的启动按钮,系统会弹出执行转换窗口。在默认执行配置下,点击“启动”,平台便会开始执行整个订单利润分流流程。

执行过程中,系统会依次完成订单明细表读取、产品信息表读取、记录集连接、字段整理、条件过滤以及 Excel 文件写出等操作。执行成功后,画布中的各组件状态会更新,表示流程已经正常运行完毕。

2.10 查看执行日志

任务执行过程中,系统会自动将各步骤的运行情况记录到日志区域中。任务执行完成后,可以通过下方日志面板查看各组件的读取、写入、输出、错误数及耗时等信息,从而判断本次实验流程是否正确执行。

查看日志不仅可以验证任务运行状态,还可以帮助定位潜在问题。例如,如果某个组件没有读取到数据、某个输出组件没有写出结果,或者某个步骤存在报错,都可以在执行日志中直接看到。因此,日志查看是实验结果核验的重要环节。

图2-12 启动转换任务与结果展示

2.11 查看结果

转换执行成功后,点击“文件库”,并在目录区域右键刷新,即可看到本次转换任务生成的两个结果文件,分别为“盈利订单.xlsx”和“亏损订单.xlsx”。如果需要进一步查看内容,可以对相应文件执行下载操作,在本地使用 Excel 打开进行核验。

这一结果说明平台已经按照预期完成了订单利润分流数据加工任务,实现了订单数据关联、利润判断及分类输出的目标。

图2-13 输出结果文件

三、实验结果

本次实验成功完成了订单利润分流数据加工任务,最终生成了两个 Excel 结果文件,分别对应盈利订单和亏损订单数据。输出结果如下表所示:

表3-1 实验输出结果说明

输出文件

内容

说明

盈利订单.xlsx

profit ≥ 0 的订单

可用于进一步分析高利润产品或订单

亏损订单.xlsx

profit < 0 的订单

可用于亏损原因追踪与经营分析

从实验结果来看,本次任务已经正确实现了订单数据的关联、字段清理、利润判断和分类输出,为后续开展订单盈利能力分析、异常订单识别和经营优化研究提供了规范的数据基础。

四、核心组件说明

本实验使用的数据集成流程虽然整体结构较为清晰,但不同组件在流程中的职责各不相同。为了便于总结本实验所使用的关键处理节点,现将核心组件及其作用说明如下:

表4-1 核心组件说明表

组件

作用

本实验配置要点

表输入

读取数据库表

配置数据源和 SQL,自动获取字段

记录集连接

多表关联

选择连接类型和连接字段

字段选择

字段筛选与重命名

移除重复的 id 字段

过滤记录

按条件分流

设置 profit >= 0

Excel 输出

导出结果

配置文件名和输出字段

通过这些组件的组合使用,可以较为完整地实现一个典型的数据加工任务,也体现了零代码 ETL 平台在多表处理、字段清洗和条件分流方面的可视化优势。

五、问题与解决

在实验过程中,我主要遇到了以下两个较为典型的问题,并分别进行了排查和处理。

问题1:Excel 输出组件获取不到字段

在第一次配置 Excel 输出组件时,点击“获取字段”后没有正确返回输出字段列表,导致无法完成导出配置。经过检查发现,问题并不是 Excel 输出组件本身异常,而是前面过滤记录组件与输出组件之间的连接类型设置错误。盈利订单应连接“True 输出”,亏损订单应连接“False 输出”,如果连接关系选错,后续输出组件接收到的就不是预期数据流,进而影响字段读取。

重新删除原有错误连线,并按照正确的 True/False 分支关系重新建立连接后,Excel 输出组件即可正常获取字段信息,问题得到解决。

问题2:Excel 输出组件文件名相同导致执行报错

在最初执行转换时,虽然两个 Excel 输出组件都已添加完成,但执行过程中系统出现错误。排查后发现,两个输出组件默认文件名都为 file,如果不手动修改,平台在写出文件时会产生文件命名冲突,导致结果无法正确区分和保存。

为解决这一问题,我分别将两个输出组件的文件名改为“盈利订单”和“亏损订单”,并保持扩展名为 xlsx。重新执行后,两个文件能够被正常写出,问题顺利解决。

六、实验总结

通过本次“订单利润分流数据加工”实验,我较为系统地熟悉了助睿平台中数据集成模块的基本操作流程,掌握了从项目创建、数据源同步、转换流新建、组件添加、参数配置,到任务执行、日志查看和结果输出的完整实验步骤。

在操作过程中,我重点掌握了表输入、记录集连接、字段选择、过滤记录和 Excel 输出等组件的使用方式,理解了如何通过可视化拖拽方式实现多表关联、字段去重、条件判断和分类输出。与传统依靠 SQL 脚本或编程代码完成 ETL 任务相比,零代码平台在流程表达上更加直观,能够清晰展示数据从输入到输出的完整流向,有助于初学者理解数据加工逻辑。

同时,本实验也让我进一步认识到,在可视化数据处理流程中,组件之间的连接类型、字段配置和输出命名都属于非常关键的细节。如果这些细节配置不当,即使整体流程结构正确,也可能导致运行失败或输出异常。因此,在后续使用平台完成更复杂的数据处理任务时,不仅要关注流程搭建本身,也要重视每个组件配置项的准确性。

总体来看,本次实验成功实现了订单利润数据的分流加工目标,加深了我对 ETL 基本思想和零代码数据集成平台应用方式的理解,也为后续更复杂的数据清洗、整合与分析实验打下了良好基础。

Logo

一站式 AI 云服务平台

更多推荐