大家好,在企业经营分析中,我们经常会遇到这样的业务痛点:业务数据散落在不同的数据库表中(比如订单明细表和产品信息表分离),我们需要将它们关联起来,计算利润,还要根据利润的正负将数据分流给不同的业务部门。

如果是传统的数据处理,这往往需要编写复杂的SQL语句或者Python脚本。但今天,我将带大家体验一种更高效的“外挂”玩法——全程零代码拖拽完成数据ETL(抽取、转换、加载)全流程!

无论你是数据小白还是想要提高效率的数据分析师,这篇详尽到每一个点击动作的图文“保姆级”教程都能帮你快速上手。

一、 实验背景与业务场景

1.1 实验目的

本次实验的终极目标是:熟悉零代码数据集成平台(ETL平台)的核心功能,掌握新建转换、添加组件、执行转换等基本操作流程;熟悉常用组件的配置方法;并独立完成多表关联、数据过滤与分流处理等常见的数据加工任务,为后续更复杂的数据处理场景打下基础。

1.2 实验环境与工具

  • 零代码在线实验平台:本次实验我使用的是助睿数智(Uniplore)作为一站式数据科学平台。该平台覆盖从数据接入、ETL处理、机器学习建模到可视化分析的全链路Agentic零代码功能,非常适合数据分析教学与企业数据加工场景。

  • 数据库:平台内置的MySQL数据库。

  • 数据准备:订单表(business_anaylsis.order_detail)、产品表(business_anaylsis.product)。

1.3 业务场景与核心处理流程

在企业经营分析中,经常需要将多张表关联起来计算利润,并按利润正负对订单进行分类存储。本实验的整体逻辑如下: 订单明细表与产品信息表进行左外连接 → 移除重复的ID字段 → 按利润是否大于等于零进行分流 → 最后分别输出盈利订单亏损订单到两个Excel文件。

为了让大家直观地理解,我画了一个业务流程图:

1.4 零代码ETL核心概念大扫盲(必看)

在正式动手之前,我们先来了解一下助睿一站式大数据平台数据集成模块中的几个核心基本概念,这对于我们理解整个数据流转非常有帮助:

概念名称

英文对应

核心说明

转换

Pipeline

面向数据流,处理数据的一个功能单元,由多个步骤(Transform)组成。(我们今天主要就是建这个!

作业

Workflow

面向任务,完成一件完整的事,由多个任务项(Action)组成,必须包含开始项。

步骤

Transform

转换内的最小单元,比如“Excel输入”、“字段选择”,每个步骤都是独立线程运行的。

任务项

Action

作业的执行单位,比如“启动”、“发送邮件”等。

节点连接

Hops

数据传输的通道,也就是我们在画布上把各个步骤连起来的那根线。

二、 保姆级实验步骤:从零搭建ETL流

下面进入激动人心的实操环节,我将手把手带大家还原十一个细分操作过程。

2.1 登录平台与团队组建

  1. 点击前往实验地址 贵兰在线。进行登录

  2. 进入平台后,选择“我的学习”

  3. 然后点击“实训平台”,跳转到实验平台首页

  4. 选择“数据集成/ETL”,进入数据集成页面。

  5. 点击“团队管理”菜单,点击“新增团队”,输入团队名称(例如:商业数据分析小组1)和描述后确认。

  6. 创建成功后,在团队卡片右上角点击“更多” -> “添加成员”,找到组员勾选后点击“添加”即可。

2.2 创建专属实验项目

平台虽有默认项目,但为了方便管理,强烈建议为课程创建专属项目。

  1. 在项目列表中,选择所属团队为刚才创建的“商业数据分析小组1”。

  2. 点击“新建项目”,输入项目名称后点击“确定”。

  3. 创建成功后,点击该项目右上角的“...”,选择“打开项目”。

2.3 同步数据源

进入项目后,左侧会有三大菜单:资源库(管理工作流)、文件(保存过程和输出文件)、元数据(管理运行配置、数据库等)。本次实验主要用到资源库和文件库。

  1. 点击“元数据”,右键根目录的“关系数据库”,点击“同步数据源”。

  2. 切换到“文件库”菜单再切回“元数据”,看到成功同步的数据库“线上公共数据源(Readonly)”出现,就说明我们的底层数据已经挂载好了!

2.4 新建转换流(解锁画布)

  1. 切换回左侧的“资源库”,右键根目录,点击“新建转换流”。

  2. 命名为“订单利润分流处理”,点击确定。创建成功后自动进入设计页面。

  3. 【注意】 转换流设计页面每次打开默认都是锁定状态,需要点击上方工具栏的 🔒小锁图标 进行解锁,才能编辑转换流。

2.5 拖拽构建:添加业务组件

在建立转换任务后,我们需要向画布中添加相应的操作组件。以下是组件的布局过程:

  1. 添加表输入:点击“组件库”,搜索“表输入”,拖拽2个表输入组件至画布。右键点击“编辑组件”,分别将其重命名为 订单_详细订单订单_产品信息修改完毕:

  2. 添加记录集连接:搜索“记录集连接”拖入画布。将两个表输入组件分别连线到该组件。(注:建立连接线时出现“排序需要”提示是正常的,因为记录集关联需要有序数据)。

  3. 添加字段选择:搜索“字段选择”拖入重命名为 移除产品ID_1字段将“记录集连接”连线至此组件。

  4. 添加过滤记录:搜索“过滤记录”拖入画布。从“字段选择”连线过来时,在弹窗中选择“主输出步骤”。

  5. 添加Excel输出:搜索拖入2个“Excel 输出”组件分别命名为 盈利订单亏损订单

  6. 灵魂分流连线:从过滤组件连线到“盈利订单”时,在弹窗选择“True输出连线到“亏损订单”时,选择“False输出”。

2.6 核心实战:配置组件信息

组件搭好框架后,我们需要对其注入“灵魂”(配置参数)。

(1)表输入组件配置
  1. 双击 订单_详细订单 组件数据库连接下拉选择“线上公共数据源(Readonly)”。

  2. 点击“获取SQL查询语句”,点开表目录,下滑找到 business_anaylsis.order_detail 并点击,确认。

  3. 系统会自动填好SQL语句。另一个 订单_产品信息 组件也参考此步骤,获取 business_anaylsis.product 的SQL。

(2)记录集连接组件配置
  1. 双击“记录集连接”组件第一个Transform选择 订单_详细订单,第二个Transform选择 订单_产品信息

  2. 连接类型选择 LEFT OUTER(左外连接)。

  3. 分别点击两边的“获得连接字段”按钮。

  4. 精简字段:第一个Transform字段仅保留 produc_id,选中其余字段右键点击“删除选中的行”第二个Transform字段仅保留 id,其余同理删除。点击确认。

(3)字段选择组件配置

多表连接后会出现重复的商品ID字段(produc_id 和 id 内容相同),需要移除。

  1. 双击 移除产品ID_1字段 组件点击“移除”页签。

  2. 右键点击“获取字段”在列表中选中除 id 以外的所有字段,右键“删除选中的行”。

  3. 列表中仅保留 id 字段(表示要移除它),点击确认。

(4)过滤记录组件配置
  1. 双击“过滤记录”组件

  2. 选择判断字段 profit(Number)

  3. 点击 = 号,在函数下拉中选择 >=

  4. 点击 value,值类型选择 Integer,输入 0。配置完成后点击确认。

(5)Excel输出组件配置
  1. 双击 盈利订单 组件在配置弹窗中文件名修改为 盈利订单,拓展名选择 xlsx [Excel 2007 and above]

  2. 点击“输出字段”页签,在空白处右键点击“获取字段”,字段获取后点击确认。

  3. 亏损订单 组件进行同样的设置。

2.7 执行转换与查看执行日志

  1. 组件全部配置完成后,点击画布上方的“启动”按钮(播放键)。

  2. 在弹出的确认窗口中再次点击“启动”。

  3. 任务执行过程中,相关操作会实时记录在下方的日志框中。执行完毕后,画布组件右上角会出现绿色对勾,日志底部会提示执行成功。​​​​​​​

三、 实验结果与验证

数据跑通后,我们需要检验最终的输出成果。点击左侧的“文件库”,右键根目录刷新可以看到转换任务成功输出了两份Excel文件,右键即可下载查看:

输出文件

文件内容

业务说明

盈利订单.xlsx

筛选出 profit ≥ 0 的所有订单明细

规范的优质数据底座,可供进一步分析高利润产品特征或爆款画像

亏损订单.xlsx

筛选出 profit < 0 的所有订单明细

可直接分发给供应链或财务部门,用于追踪亏损原因并及时止损

盈利订单:

亏损订单:

本次实验成功实现了订单数据的自动化关联与智能分流处理,为后续的深度商业盈利分析提供了规范的数据基础。

四、 核心组件原理与实战速查手册

为了方便大家复习,我将本次实验用到的助睿ETL核心组件的作用和配置要点做了一个速查总结表,建议收藏备用:

核心组件

业务作用

本次实验配置要点(避坑必看)

表输入

从数据库中读取源始表数据

需准确配置数据源,一键获取自动生成的SQL查询语句

记录集连接

实现多张数据表的横向关联

务必选对连接类型(LEFT OUTER),并精简连接字段避免冗余

字段选择

数据列的筛选、瘦身与重命名

在“移除”页签中,精准定位并移除重复的 id 字段

过滤记录

数据的条件判断与业务分流

正确设置 profit >= 0 条件,并注意区分真假输出流向

Excel输出

将加工好的结果导出为本地文件

务必手动修改默认的文件名,并点击“获取字段”生成表头

五、 踩坑与避坑指南

真实操作中总会遇到意外,尤其对于像我这样的新手。这里记录了我在实验中亲自踩过的两个“大坑”,供大家避雷:

💣 踩坑1:组件死活拖不进画布?

  • 问题现象:在左侧组件库明明找到了“表输入”组件,但是用鼠标怎么拖拽到右侧空白画布上都没反应,光标甚至会变成一个禁止符号(🚫)。

  • 问题原因:这是新手极易踩的UI交互坑!平台为了防止你误触修改辛辛苦苦搭好的数据流,转换流的设计画布每次打开默认都是锁定状态(只读模式)。

  • 解决方法:别傻傻地使劲拖了,目光往上看!在画布正上方的工具栏里,找到一个小锁图标(🔒)。点击它解锁画布,之后所有的组件就能丝滑地拖拽进来了。

💣 踩坑2:觉得“字段选择”组件没用就跳过?结果翻车!

  • 问题现象:在做组件连线时,我觉得“字段选择”那一步看起来很多余,就直接把“记录集连接”跳过去连到了“过滤记录”。结果虽然任务跑完了,但下载出来的Excel表格里竟然有两列长得一模一样的产品ID(分别是produc_idid),整个表格显得非常杂乱,后续做数据透视表的时候也容易选错列。

  • 问题原因:在做左外连接(LEFT OUTER JOIN)时,订单明细表(自带produc_id)和产品信息表(自带id)合并在了一起。两个代表同一含义的字段同时被保留了下来,这就造成了数据冗余和字段冲突。

  • 解决方法:不要偷懒!严格按照标准ETL流程,在“记录集连接”后必须加上“字段选择”组件。在配置的“移除”页签里,把多余的那个 id 字段无情地删掉,给数据流“瘦身”之后再进行分流输出。

六、 实验总结与感受

我的实战收获

通过本次实验,我全面熟悉了助睿零代码ETL平台的基本操作方法,从创建项目、同步数据源,到新建转换流、添加/配置组件、执行与查看结果,全流程跑通。不仅掌握了表输入、记录集连接、字段选择、过滤记录、Excel输出这五大核心组件的配置,更深刻理解了多表关联条件分流在实际数据处理中的应用价值。

实验平台评价

相比于传统编写SQL和Python脚本的数据处理方式,助睿平台的优势极其显著:

  1. 零代码拖拽式操作:极其直观,组件之间的数据流向清晰可见,极大地降低了数据分析的学习门槛。

  2. 调试极其便利:图形化的界面让哪里出错一目了然,对于初学者来说,能够快速上手并独立完成常见的数据加工任务。

  3. 功能深度强悍:作为一个全链路一站式数据科学平台,除了基础的ETL,它后续强大的可视化和机器学习能力更让我充满期待。

如果这篇超详细的保姆级教程对你有帮助,别忘了点赞、收藏、转发哦!我们在数据分析的进阶之路上继续同行~ 👋

Logo

一站式 AI 云服务平台

更多推荐