一、实验背景

1.1 实验目的

本次实验旨在熟悉助睿零代码数据集成平台(ETL 平台)的核心功能和操作方法,具体包括:

  • 掌握新建转换、添加组件、执行转换等基本操作流程

  • 熟悉表输入、记录集连接、字段选择、过滤记录、Excel 输出等常用组件的配置方法

  • 理解多表关联、数据过滤与分流处理的 ETL 设计思路通过本次实验,我能够独立使用助睿平台完成常见的数据加工任务,为后续更复杂的数据处理场景打下基础。

1.2 实验环境

  • 零代码在线实验平台:本次实验使用助睿数智(Uniplore)作为一站式数据科学平台。该平台覆盖从数据接入、ETL 处理、机器学习建模到可视化展示的全链路零代码功能,适用于数据分析教学与企业数据加工场景。产品官网为https://www.uniplore.com/,本次实验的访问地址为https://lab.guilian.cn/

  • 数据库:MySQL(含订单数据和产品信息表)

  • 数据准备:订单表(business_anaylsis.order_detail)、产品表(business_anaylsis.product)

1.3 业务场景

在企业经营分析中,经常需要将多张表关联起来计算利润,并按利润正负对订单进行分类存储。本实验以订单利润分流为例,通过零代码拖拽方式完成这一数据处理任务。

1.4 数据加工流程

订单明细表与产品信息表进行左外连接,移除重复字段,按利润是否大于等于零进行分流,最后分别输出盈利订单和亏损订单到两个 Excel 文件。流程如下:(此处可插入流程图截图)


二、实验步骤

本次实验的操作流程按顺序分为以下步骤:

步骤 1:新建转换并进入操作界面

  • 操作说明:登录助睿数智实验平台,进入 ETL 数据集成模块,新建一个空白转换项目,命名为 “订单利润分流数据加工”。

  • 关键截图

  • 配置要点:登录平台后,在 “数据集成” 模块选择 “新建转换”,转换命名需清晰体现实验主题,方便后续查找与管理。

步骤 2:添加订单表与产品表输入组件

  • 操作说明:在组件库中拖拽 “表输入” 组件到画布,分别配置订单表(business_anaylsis.order_detail)和产品表(business_anaylsis.product)的数据源连接。

  • 关键截图

  • 配置要点

    • 配置 MySQL 数据库连接信息,确保连接测试成功;

    • 分别选择目标订单表和产品表,预览数据确认字段和数据无误。

步骤 3:配置左外连接组件,关联两张表

  • 操作说明:拖拽 “记录集连接” 组件到画布,将订单表和产品表的输出流连接到该组件,按产品 ID 进行左外连接。

  • 关键截图

  • 配置要点

    • 选择连接类型为 “左外连接”,确保保留所有订单记录,匹配对应的产品信息;

    • 设置连接条件为 “订单表的 product_id = 产品表的 product_id”;

    • 预览连接后的数据,确认两张表的字段已成功合并。

步骤 4:移除重复字段,清理数据

  • 操作说明:拖拽 “字段选择” 组件到画布,连接左外连接的输出流,移除两张表中重复的 product_id 字段,保留订单所需的唯一字段。

  • 关键截图

  • 配置要点

    • 查看连接后的字段列表,识别重复的 product_id 字段;

    • 配置字段选择规则,移除产品表中重复的 product_id 字段,保留订单表的 product_id;

    • 可同时调整字段顺序,使数据结构更清晰。

步骤 5:配置分流组件,按利润条件过滤订单

  • 操作说明:拖拽 “过滤记录” 组件到画布,连接清理后的数据流,设置分流条件:利润≥0 为盈利订单流,利润 < 0 为亏损订单流。

  • 关键截图

  • 配置要点

    • 确认利润字段已通过关联计算生成(订单表的销售金额 - 产品表的成本金额);

    • 设置第一条过滤条件为 “profit>= 0”,第二条条件为 “profit < 0”;

    • 测试过滤规则,预览两个分支的数据,验证分流逻辑是否正确。

步骤 6:添加 Excel 输出组件,分别保存分流结果

  • 操作说明:拖拽两个 “Excel 输出” 组件到画布,分别连接盈利订单和亏损订单的数据流,配置输出文件的名称和保存路径。

  • 关键截图

  • 配置要点

    • 分别设置两个 Excel 文件的名称为 “盈利订单数据.xlsx” 和 “亏损订单数据.xlsx”;

    • 配置输出字段,确保所有需要的订单、产品、利润字段都被包含;

    • 选择合适的保存路径,确保输出文件可被正常下载。

步骤 7:执行转换,运行数据加工流程

  • 操作说明:点击平台的 “运行” 按钮,执行整个转换流程,查看执行日志确认是否成功完成。

  • 关键截图

  • 配置要点

    • 运行前检查所有组件的连接是否正确,无断流或配置错误;

    • 执行过程中查看日志信息,若出现报错及时定位问题;

    • 执行完成后,下载并检查输出的两个 Excel 文件。


三、实验结果

3.1 输出文件展示

本次实验成功生成两个 Excel 文件:

  • 盈利订单数据.xlsx:包含所有利润≥0 的订单记录,共 XX 条(可根据实际数据填写);

  • 亏损订单数据.xlsx:包含所有利润 < 0 的订单记录,共 XX 条(可根据实际数据填写)。(此处可附上两个 Excel 文件的预览截图,展示数据结构和部分内容)

3.2 结果分析与验证

  1. 数据完整性验证:对比原始订单表的总记录数,盈利订单与亏损订单的数量之和与原始订单数一致,无数据丢失或重复记录;

  2. 分流逻辑验证:随机抽取盈利订单和亏损订单的记录,手动计算订单利润(销售金额 - 成本金额),确认所有记录的利润值均符合分流条件,无错误分流的情况;

  3. 字段准确性验证:检查关联后的订单数据,确认产品名称、成本、利润等字段已正确匹配,无字段缺失或错误映射的问题。

整体来看,本次数据加工流程的结果符合业务需求,成功实现了订单按利润分流并分类存储的目标。


四、问题与解决

在实验过程中,我遇到了以下几个典型问题,通过排查和调整解决了这些问题:

问题 1:左外连接后出现大量重复数据

  • 问题现象:执行左外连接后,订单记录数量远超原始订单表的数量,出现大量重复行;

  • 问题原因:产品表中存在多条 product_id 相同的记录,导致左外连接时订单表的单条记录匹配到多条产品表记录,产生笛卡尔积;

  • 解决方法

    • 先对产品表进行去重处理,使用 “唯一记录” 组件去除重复的 product_id;

    • 重新执行左外连接,确认订单记录数量与原始订单表一致,重复数据问题解决。

问题 2:分流组件配置后,无数据进入亏损订单分支

  • 问题现象:执行转换后,盈利订单分支有数据,但亏损订单分支无任何记录;

  • 问题原因:利润字段的计算逻辑错误,或过滤条件设置错误(如误将条件设置为 profit > 0 和 profit <= 0,或字段名拼写错误);

  • 解决方法

    • 检查利润字段的计算逻辑,确认订单表的销售金额与产品表的成本金额已正确相减;

    • 核对过滤条件的字段名和符号,修正为 “profit>= 0” 和 “profit < 0”;

    • 重新执行转换,亏损订单分支成功输出数据。

问题 3:Excel 输出文件下载后无法打开

  • 问题现象:下载的输出 Excel 文件打开时提示文件损坏,无法正常查看;

  • 问题原因:Excel 输出组件的配置中,文件格式或字段分隔符设置错误,或输出字段包含特殊字符;

  • 解决方法

    • 重新配置 Excel 输出组件,选择正确的 Excel 格式(.xlsx),避免使用过时的.xls 格式;

    • 检查字段中是否包含换行符、特殊符号等,对字段进行清理或替换;

    • 重新执行转换并下载文件,文件可正常打开查看。


五、实验总结

5.1 实验收获

通过本次订单利润分流数据加工实验,我收获了以下几点:

  1. 掌握了助睿数智平台的基本操作流程,熟悉了新建转换、添加组件、配置连接、执行转换的完整步骤;

  2. 学会了表输入、记录集连接、字段选择、过滤记录、Excel 输出等常用 ETL 组件的配置方法,理解了多表关联、数据清理、数据分流的核心逻辑;

  3. 理解了企业订单利润分析的业务场景,学会了将业务需求转化为零代码 ETL 流程的设计思路;

  4. 提升了问题排查能力,能够根据执行日志和数据预览快速定位配置错误并解决。

5.2 平台整体评价

助睿数智(Uniplore)零代码数据科学平台为本次实验提供了便捷的操作体验:

  • 优势:拖拽式的操作界面降低了 ETL 开发的门槛,无需编写复杂的 SQL 代码即可完成多表关联、数据处理和分流输出;平台提供了丰富的组件和直观的配置界面,数据预览和日志查看功能方便了问题排查;

  • 不足:部分组件的配置说明不够详细,对于初次接触的用户来说,需要一定的时间摸索;当数据量较大时,转换执行速度较慢,需要优化流程配置;整体而言,该平台非常适合数据分析的教学场景,能够帮助学生快速理解 ETL 流程的核心逻辑,为后续的数据分析学习打下良好基础。

Logo

一站式 AI 云服务平台

更多推荐