【实战教程】零代码玩转商业数据分析:订单利润分流数据加工全流程解析!

标签: #助睿数智 #商业数据分析 #数据集成 #订单分析

摘要

本实验报告详细介绍了如何使用助睿零代码数据集成平台(ETL平台)实现订单利润分流的数据加工。通过一个具体的业务场景,我们将演示如何进行多表关联、数据过滤与分流处理,最终生成盈利订单和亏损订单的Excel文件。本文都将为您提供清晰、实用的操作指南和避坑经验。

一、实验背景

1.1 实验目的

本教程旨在零基础熟悉并掌握助睿零代码数据集成平台(ETL平台)的核心功能和操作方法,通过一个实战案例——订单利润分流数据加工,搞懂数据集成,本次实验旨在:

  • 掌握新建转换、添加组件、执行转换等基本操作流程。
  • 熟悉表输入、记录集连接、字段选择、过滤记录、Excel输出等常用组件的配置方法。
  • 理解多表关联、数据过滤与分流处理的ETL设计思路。

通过本次实验,可掌握助睿平台的基本操作,更能深入理解数据集成与分流的实战技巧,为未来处理更复杂的数据挑战奠定坚实基础。

1.2 实验环境

  • 实验平台: 助睿零代码在线实验平台 (https://lab.guilian.cn/)
    • 本次实验使用助睿数智(Uniplore)作为一站式数据科学平台。该平台覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能,适用于数据分析教学与企业数据加工场景。产品官网为 https://www.uniplore.com/
  • 数据库: MySQL(含订单数据和产品信息表)
  • 数据准备: 订单表(business_anaylsis.order_detail)、产品表(business_anaylsis.product

1.3 业务场景

在企业经营分析中,经常需要将多张表关联起来计算利润,并按利润正负对订单进行分类存储。本实验以订单利润分流为例,通过零代码拖拽方式完成这一数据处理任务。

1.4 数据加工流程

订单明细表与产品信息表进行左外连接,移除重复字段,按利润是否大于等于零进行分流,最后分别输出盈利订单和亏损订单到两个Excel文件。

二、实验步骤

2.1 登录实验平台

操作说明: 在贵兰在线对应的课程学习页面,点击右上角登录账号,点击“实验课1:助睿ETL入门实验”进入实验平台。进入后按照常规流程进行登录或注册,再点击此处右上角进入“我的学习”

进入该实训平台,如果提示可自行输入网址进行注册

进入实训平台如下,然后点击ETL进入数据集成工具,当然这个地方如果有兴趣可以进入上方新手指引中查看新手教程

进入如下界面

配置要点: 确保使用正确的账号登录。

2.2 基本概念了解

在正式开始进行实验前首先需要了解一些关于数据流的基本概念,以至于在实验过程中不知道自己在干什么。

概念 说明
Pipeline(转换) 面向数据流,处理数据的一个功能单元,由多个 Transform 组成
Workflow(作业) 面向任务,完成一件完整的事,由多个 Action 组成,必须包含开始项
Transform(步骤) 转换内的最小单元,如 “Excel 输入”、“字段选择”,每个步骤独立线程运行
Action(任务项) 作业的执行单位,如 “启动”、“发送邮件”
Hops(节点连接) 数据传输通道,连接步骤或任务项


转换工作流 作业工作流

2.3 团队管理

操作说明: 如果需要,创建或加入团队,方便团队协作管理。

点击此处新建团队

输入团队名称和描述后可成功添加团队


添加团队后可添加成员,查看成员和编辑信息

由此可搜索手机号或姓名添加成员

配置要点: 无。

2.4 创建实验项目

操作说明: 回到我的项目在实验平台中创建一个新的项目,用于本次实验。

点击新建项目可配置项目初始信息

打开项目

资源库:用于管理工作流,包括新建、删除、修改、查看工作流的信息;导出和导入工作空间;调度管理等操作。

文件库:用于保存工作流中需要用到的文件和工作流中产生的文件。

元数据:元数据管理是数据集成的重要基石,为工作流定义“运行配置”、“数据库”、“flink集群”等配置。

2.5 同步数据源

操作说明: 将MySQL数据库中的订单表(business_anaylsis.order_detail)和产品表(business_anaylsis.product)同步到实验平台。

首先我们需要获取本次实验的数据集:选择菜单【元数据】→ 右键【关系数据库】→ 点击【同步数据源】

通过点击文件库再点击元数据进行刷新可看到关系数据库同步成功

本次实验将创建 “订单利润分流处理” 转换流,实现订单数据与产品信息的关联,并根据利润正负将数据分流为盈利订单和亏损订单,分别输出到两个 Excel 文件。

整体逻辑:订单明细表 → 左外连接产品信息表 → 移除重复 ID 字段 → 按利润≥0 分流 → 盈利订单 / 亏损订单分别输出

各组件作用:

组件 作用
表输入(订单 / 产品) 读取原始数据
记录集连接 按产品 ID 关联两表
字段选择 移除重复的 ID 字段
过滤记录 根据利润正负分流
Excel 输出 分别输出盈利 / 亏损订单

配置要点: 确保数据库连接信息正确,并选择正确的表进行同步。

2.6 新建转换流

操作说明: 在项目中新建一个转换流,用于构建数据加工逻辑。

建立转换流后需要解锁画布,当然需要保存的时候就需要点击它将画布锁定,防止丢失

配置要点: 转换流名称可设置为“订单利润分流”。

2.7 添加组件

操作说明: 根据数据加工流程图,依次添加“表输入”、“记录集连接”、“字段选择”、“过滤记录”、“Excel输出”等组件。进行拖拽到画布上

组件 作用
表输入 读取原始数据
记录集连接 根据产品 ID 关联两张表
字段选择 移除重复的 ID 字段
过滤记录 根据利润正负分流
Excel 输出 分别输出盈利订单 / 亏损订单

1)添加表输入

右键进行编辑

修改步骤名称

另一组也是同样的操作

2)继续添加记录集连接组件

注意,在建立连接线时,会出现“排序需要”的提示。

这是由于记录集连接组件是按接收数据的顺序进行记录关联的,如果接受的数据是无序的,可能会造成记录连接结果出错。

  1. 继续添加字段选择并连接

修改组件名为“移除产品ID字段”

  1. 添加过滤记录

连线并且选择主输出步骤

5)添加Excel输出组件(2个)

—— 记录经过“过滤记录”组件后会根据条件被分成2个记录流。我们可以根据业务需求将2个记录输出到指定位置。在本次实验中,我们选择将记录分别输出到2个 Excel 文件中。

右键点击编辑组件,将两个组件的 “步骤名称” 分别改为:盈利订单、亏损订单。

创建过滤记录组件到 Excel输出 组件的连线,并选择连接线类型为:True输出 → 盈利订单、False输出 → 亏损订单


2.8 配置组件信息

2.8.1 表输入组件配置

操作说明: 配置两个“表输入”组件,分别读取订单表和产品表的数据。

双击详细订单组件,弹出组件配置页面。在 “数据库连接” 的下拉框中选择已同步的 “线上公共数据源(Readonly)”

点击【获取SQL查询语句】,自动生成SQL语句。

点开 “线上公共数据源” - “表” 目录,下滑找到 “business_anaylsis.order_detail” 并点击它,点击【确定】。(或直接在搜索栏输入关键词查找)

这里点击确定

另一表输入组件(产品信息)的配置,也参照上述步骤,获取 “business_anaylsis.product”的SQL查询语句。

配置要点:

  • 第一个表输入组件选择business_anaylsis.order_detail表。
  • 第二个表输入组件选择business_anaylsis.product表。

2.8.2 记录集连接组件配置

操作说明: 配置“记录集连接”组件,将订单表和产品表通过产品ID进行左外连接。

双击记录集连接组件,在下拉列表中选择需要连接的数据来源:“第一个Transform” 选择详细订单;“第二个Transform” 选择产品信息, “连接类型” 选择:LEFT OUTER。分别点击两个字段的获得连接字段的按钮结果如下

接下来,我们仅保留第一个Transform的连接字段 product_id 与第二个Transform的连接字段id,进行左外连接。删除其余字段。其中可按住ctrl进行多选

对第二个字段进行同样的操作

配置要点:

  • 连接类型选择“左外连接”。
  • 连接字段为“产品ID”。

2.8.3 字段选择组件配置

操作说明: 配置“字段选择”组件,移除重复字段,并选择需要的字段。

数据经记录集连接后,我们发现,字段 product_id 与字段 id 内容相同,只需要保留一个。因此,我们接下来使用字段选择组件(“移除产品ID字段”)的移除选项,来移除字段 id 。

双击字段选择(“移除产品ID字段”)组件,点击【移除】,并右键点击【获取字段】。

配置要点: 移除连接后产生的重复产品ID字段。

2.8.4 过滤记录组件配置

操作说明: 配置“过滤记录”组件,根据利润是否大于等于零进行分流。

根据业务要求,我们需要将盈利订单和亏损订单分开存储,两个订单表可以使用利润字段(profit)来区分。

双击过滤记录组件,在弹窗的下拉列表中选择将结果发送给不同的后续处理步骤。

选择 profit(Number)字段作为判断字段,点击【确定】。

选择 >= 作为判断条件,点击【确定】

点击【Value】,类型选择:Integer,值输入:0,点击【确定】

配置要点:

  • 设置过滤条件:利润 >= 0
  • 将符合条件的记录发送到“盈利订单”分支,不符合条件的记录发送到“亏损订单”分支。

2.8.5 Excel 输出组件配置

操作说明: 配置两个“Excel输出”组件,分别将盈利订单和亏损订单输出到不同的Excel文件。

为了将接收到的结果正确地写入到Excel表中,我们需要对 excel 输出组件进行配置。

双击盈利订单 excel 表输出组件,在配置弹窗中,将 “文件名” 设置为:盈利订单,选择文件 “拓展名” 为:xlsx [Excel 2007 and above]。

点击【输出字段】,右键点击【获取字段】,字段成功获取后,点击【确认】。

对亏损订单进行同样的操作

配置要点:

  • 第一个Excel输出组件文件名设置为“盈利订单.xlsx”。
  • 第二个Excel输出组件文件名设置为“亏损订单.xlsx”。

2.9 执行转换

操作说明: 运行转换流,执行数据加工任务。

将组件都配置完成后,我们就可以点击启动按钮,执行转换任务了。

配置要点: 确保所有组件配置无误,无报错信息。

2.10 查看执行日志

操作说明: 查看转换流的执行日志,确认任务是否成功完成。


配置要点: 检查日志中是否有错误或警告信息。

2.11 查看结果

操作说明: 在文件库中查看生成的“盈利订单.xlsx”和“亏损订单.xlsx”文件。

刷新文件库即可

配置要点: 下载并打开Excel文件,验证数据是否正确分流。

三、实验结果

本次实验成功将订单明细表与产品信息表进行关联,并根据利润正负将订单数据分流,最终生成了包含盈利订单和亏损订单的两个Excel文件。这验证了助睿零代码数据集成平台在处理复杂数据加工任务方面的有效性。

对其进行下载可查看

盈利订单

亏损订单

四、核心组件说明

本次实验主要使用了以下核心组件:

  • 表输入 (Table Input): 用于从数据库中读取数据表。
  • 记录集连接 (Join Rows): 用于将两个或多个数据流根据指定条件进行连接。
  • 字段选择 (Select Values): 用于选择、重命名字段或改变字段类型。
  • 过滤记录 (Filter Rows): 用于根据条件过滤数据,并将数据分流到不同的输出路径。
  • Excel 输出 (Microsoft Excel Output): 用于将数据输出到Excel文件。

五、问题与解决

在实验过程中,可能会遇到以下问题及解决方案:

  • 问题: 转换流输出的文件在【文件库】没出现。
    • 解决方案: 由【数据集成】界面切换其他界面,再切回即可。
  • 问题: 之前配置好、能运行的【转换流】无法运行了,甚至最基础的【CSV文件输入】也无法预览。
    • 解决方案: 可能是后续组件配置不正确引起的,【预览】会执行整个工作流。尝试删除后续添加的组件再运行。
  • 问题: 项目的名称无法修改。
    • 解决方案: 项目创建好后无法修改名称,在新建项目的时候不要随意命名。

六、实验总结

本次“订单利润分流数据加工”实验深入助睿零代码数据集成平台的功能和操作流程。通过实践,可掌握数据导入、多表关联、数据清洗、数据过滤和数据输出等关键技能。零代码平台极大地简化了数据处理的复杂性,提高工作效率。

如有更好建议或方法,欢迎讨论,如文章有不足之处,恳请大家指出。

Logo

一站式 AI 云服务平台

更多推荐