助睿实验作业1-订单利润分流数据加工

一、实验背景

1.1 实验目的

本次实验的主要目的是熟悉助睿零代码数据集成平台(ETL平台)的一些基础操作。我希望能通过实际操作掌握以下几点:

  • 新建转换、添加组件、执行转换的基本流程。

  • 几个常用组件的配置方法,包括:表输入记录集连接字段选择过滤记录Excel输出

  • 理解一个简单的ETL设计思路:如何实现多表关联、数据过滤与分流处理。

完成这个实验后,我应该能独立用助睿平台处理一些常见的数据加工任务,为以后更复杂的场景打个底。

1.2 实验环境

  • 实验平台:助睿零代码在线实验平台,地址是 https://lab.guilian.cn/。本次实验全程在该平台上完成。

  • 关于平台:我们使用的助睿数智(Uniplore)是一个AI驱动的一站式数据科学平台,覆盖了从数据接入、ETL处理到可视化展示的零代码功能。产品官网是 https://www.uniplore.com/

  • 数据库MySQL,里面准备好了我们需要的两张表:business_anaylsis.order_detail(订单表)和 business_anaylsis.product(产品表)。

1.3 业务场景

这个实验模拟了一个企业经营的常见分析场景:我们需要把订单表和产品表关联起来,计算每个订单的利润,然后根据利润是正还是负,把订单分成两类来存储。

1.4 数据加工流程

我设计的处理流程大致是这样的:

订单明细表产品信息表 做左外连接去掉重复的字段按利润是否大于等于0分成两路分别输出盈利订单亏损订单到两个Excel文件。

二、实验步骤

2.1 登录实验平台

从贵兰在线的课程页面,直接点击进入实验,平台会自动登录,省去了手动输账号的麻烦。

  1. 在课程页面找到实验课1:助睿ETL入门实验,点击进入。

  2. 接着点击页面里的大数据实训平台按钮,就跳转到了实验地址 https://lab.guilian.cn/,并且是已登录状态。

2.2 了解几个基本概念

在动手之前,我先大概看了一下平台里几个术语的含义,避免后面搞混:

概念

说明

Pipeline (转换)

面向数据流的处理单元,由多个步骤(Transform)组成。本次实验做的就是转换。

Workflow (作业)

面向任务的单元,由多个动作(Action)组成,可以调度转换。

Transform (步骤)

转换里的最小单元,比如表输入字段选择这些组件。

Hops (节点连接)

步骤或任务之间的数据传输通道。

2.3 团队管理(小组作业准备)

这一步是为小组协作准备的。作为组长,我可以创建一个团队,方便管理组员。

  1. 进入数据集成/ETL”页面,点击左侧菜单的 团队管理

  2. 点击 新增团队,填写团队名称和描述,比如商业数据分析小组1”

  3. 创建好后,点团队卡片右上角的更多” → 添加成员,输入组员的手机号就能添加。

2.4 创建实验项目

平台有个默认项目可以直接用,但我还是为这门课单独创建了一个项目,方便整理。

  1. 数据集成页面,点击 新建项目

  2. 选择刚才创建的团队,输入项目名称,确认后就创建好了。

2.5 同步数据源

项目建好后,需要先把数据库里的表同步进来,才能读取数据。

  1. 点击项目卡片上的打开项目

  2. 在左侧菜单,先了解一下:资源库 管工作流,文件库 存文件,元数据 管理数据库连接等配置。

  3. 点击 元数据,右键点击 关系数据库,选择 同步数据源

  4. 完成后,切换到文件库再切回元数据,就能看到成功同步的数据库 线上公共数据源(Readonly)”

2.6 新建转换流

我要做的这个转换叫订单利润分流处理

  1. 切换到 资源库,右键根目录新建转换流,命名为订单利润分流处理

  2. 进入设计页面后,需要先点击 锁的图标 解锁,才能编辑。

2.7 添加组件

按照流程,我开始往画布里拖组件。整体的顺序是:表输入(两个) → 记录集连接字段选择过滤记录 → Excel输出(两个)

操作记录如下:

  • 添加表输入:拖了两个表输入组件到画布,分别重命名为订单_详细订单订单_产品信息

  • 添加记录集连接:拖入一个记录集连接组件,然后把两个表输入组件分别连接到它上面。连接时弹出了排序需要的提示,这是因为记录集连接依赖输入数据的顺序。

  • 添加字段选择:拖入字段选择组件,重命名为移除产品ID_1字段,并把记录集连接组件连接到它。

  • 添加过滤记录:拖入过滤记录组件,连接字段选择组件。选择连接类型时,我选了 主输出步骤,意思是只传递正常的数据。

  • 添加“Excel输出:拖了两个“Excel输出组件,分别命名为盈利订单亏损订单。然后把过滤记录组件连接到它们俩,连接类型分别选 “True输出(满足条件)和 “False输出(不满足条件)。

2.8 配置组件

组件连好后,开始一个一个配置。

  • 表输入配置

    • 双击订单_详细订单组件,数据库连接选线上公共数据源(Readonly)”

    • 点击 获取SQL查询语句,在表目录里找到 business_anaylsis.order_detail 并选择,系统自动生成了SQL。同样的操作配置另一个组件,选择 business_anaylsis.product 表。

  • 记录集连接配置

    • 第一个Transform订单_详细订单,第二个选订单_产品信息,连接类型选 LEFT OUTER

    • 分别点击两个获得连接字段按钮,获取字段列表。

    • 我保留了第一个表的 product_id 字段,以及第二个表的 id 字段,把其他不需要的关联字段都删除了。这样就实现了用 product_id id 进行左外连接。

  • 字段选择配置

    • 双击移除产品ID_1字段组件,点 移除 选项卡,再点 获取字段

    • 在获取到的字段列表中,我保留了除了 id 以外的所有字段,把 id 字段删掉了,这样就移除了重复的产品ID

  • 过滤记录配置

    • 选择按条件发送到不同步骤。

    • 判断字段选择 profit (Number)

    • 条件设为 >=,值设为整数 0。这样 profit >= 0 的订单就会走“True输出支路。

  • Excel输出配置

    • 双击盈利订单组件,文件名写盈利订单,扩展名选 .xlsx

    • 点击 输出字段,在空白处右键 获取字段,自动导入了所有字段。同样的方法配置亏损订单

2.9 执行转换

所有配置都完成后,我点了一下工具栏的 启动按钮,在弹窗里再点启动,转换就开始运行了。最后看到执行成功的提示。

2.10 & 2.11 查看日志与结果

  • 执行后,可以在日志窗口看到每一步的详细信息,方便排查问题。

  • 切换到 文件库,右键根目录刷新,就能看到新生成的 盈利订单.xlsx” 亏损订单.xlsx”,可以右键下载下来查看。

三、实验结果

实验成功跑通了。我得到了两个文件:

  • 盈利订单.xlsx:里面是 profit ≥ 0 的订单。

  • 亏损订单.xlsx:里面是 profit < 0 的订单。

这样,后续如果需要分析高利润产品或追踪亏损原因,就有了规范的数据基础。

四、核心组件配置小结

我把这次用到的几个核心组件和关键配置点记录了一下:

组件

作用

本实验的关键配置

表输入

读取数据库表

配置正确的数据源,用获取SQL查询语句自动生成查询。

记录集连接

实现多表关联

选择连接类型(LEFT OUTER),并指定两个表的连接字段。

字段选择

筛选或重命名字段

移除选项卡中,把关联后重复的 id 字段去掉。

过滤记录

按条件分流数据

设置条件 profit >= 0,并注意选择正确的输出分支(True/False)。

Excel输出

将数据导出为Excel文件

设置好文件名,并在输出字段获取字段来定义表头。

Logo

一站式 AI 云服务平台

更多推荐