• 实验背景
    1. 实验目的

本次实验的目的是熟悉助睿零代码数据集成平台(ETL平台)的核心功能和操作方法,主要包括:

  1. 掌握新建转换、添加组件、执行转换等基本操作流程
  2. 熟悉表输入、记录集连接、字段选择、过滤记录、Excel输出等常用组件的配置方法
  3. 理解多表关联、数据过滤与分流处理的ETL设计思路

通过这次实验,我可以独立使用助睿平台完成常见的数据加工任务,为以后更复杂的数据处理打下基础。

1.2 实验环境

  1. 零代码在线实验平台:本次实验使用助睿数智(Uniplore)作为一站式数据科学平台。该平台覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能,适用于数据分析教学与企业数据加工场景。产品官网为 https://www.uniplore.com/,本次实验的访问地址为 https://lab.guilian.cn/
  2. 数据库:MySQL(含订单数据和产品信息表)
  3. 数据准备:订单表(business_anaylsis.order_detail)、产品表(business_anaylsis.product)

  • 实验步骤

2.1 团队管理

我通过贵兰在线的课程页面进入实验平台。点击“实验课1:助睿ETL入门实验”链接后,系统自动跳转到助睿数智(Uniplore)实验平台首页,无需再次输入用户名和密码。

我点击了“团队管理”菜单,然后点击“新增团队”按钮,开始创建我的团队。

2.2 添加组件

(1) 添加表输入组件

我将第一个表输入组件的名称修改为“订单_详细订单”,点击“确认”。接着,将第二个表输入组件的名称修改为“订单_产品信息”。这样在工作区中更容易识别每个数据源。

  1. 添加记录集连接组件

使用表输入组件读取数据后,需要将两个表的数据进行关联。为此,我使用了记录集连接组件。我在搜索框中输入“记录集连接”,将组件拖拽到画布中,并连接到两个表输入组件。

然后,创建两个表输入组件到记录集连接组件的连接线,如下图:

出现“排序需要”的提示。

  1. 添加字段选择组件

连接两个表后,我发现“产品ID”字段出现了重复。为了解决这个问题,我搜索了“字段选择”组件并拖入画布。这个组件帮我删除了重复的字段。

将字段选择组件名字修改为“移除产品ID_1字段”。

我将记录集连接组件连接到字段选择组件,如下图所示:

  1. 添加过滤记录组件

这次实验需要根据订单是否有利润来分流订单。我用了“过滤记录”组件,它可以按某个字段的值来拆分数据。我在搜索框输入“过滤记录”,把组件拖进了画布。

创建字段选择组件到过滤记录组件的连接线,如下图,在选择连接线的弹窗中点击“主输出步骤”。由于在进行字段选择操作时,可能有记录不满足要求,导致记录被标记为错误。主输出步骤表示满足要求的记录通过该连接线传输数据。

记录经过“过滤记录”组件后会被分成2个记录流。我们可以根据业务需求将2个记录流输出到指定位置(文件、数据库表)。在本次实验中,我们选择将记录输出到Excel文件中。在搜索输入框中输入"excel输出”,将2个表输出组件拖拽至画布中。

将两个Excel输出组件分别命名为“盈利订单”和“亏损订单”。

创建过滤记录组件到两个Excel输出组件的连接线,连接类型分别选择“True输出”(满足条件)和“False输出”(不满足条件)。

到这里,整个转换任务就搭建完了,长这样:

 2.3 表输入组件配置

双击订单_详细订单表输入组件,弹出组件配置页面。在数据库连接下拉框中选择已同步的“线上公共数据源(Readonly)”,如下图所示。然后点击“获取SQL查询语句”,自动生成SQL查询语句。

我打开“线上公共数据源(Readonly)”-“表”目录,往下找到“business_anaylsis.order_detail”并选中它,然后点击“确定”。

第二个表输入组件我也做了同样的配置,把“business_anaylsis.product”的SQL语句取出来。

2.4 记录集连接组件配置

我双击打开记录集连接组件,在下拉列表里选了要连接的两个数据源:第一个选“订单_详细订单”,第二个选“订单_产品信息”,连接类型用“LEFT OUTER”。

我点进第一个Transform的“获得连接字段”,把“订单_详细订单”的字段都调出来,只保留了 produc_id,其他字段右键“删除选中的行”删掉。同样操作,在第二个Transform里只保留 id,其他都删掉。

连接类型选 LEFT OUTER,意思是按订单_详细订单的 produc_id 和订单_产品信息的 id 做左外连接。

两边删完点“确认”,万一删错了就重新获取字段再来一遍。

2.5 字段选择组件配置

连完表发现 produc_id 和 id 其实是一回事,留一个就够了。我直接用“移除产品ID_1字段”把 id 删掉。双击组件 → 点“移除” → 点“获取字段”,把除了 id 以外的字段全选中删掉,点确认后 id 就没了。

2.5设置过滤记录组件

要分开存放盈利和亏损的订单,我用“利润”这个字段来区分。双击“过滤记录”组件,在下拉框里选了“把结果送到不同的后续步骤”,如下图:

我选“profit(Number)”这个利润字段来做判断,点一下“确定”就行。

条件设成利润 >=0,点“=”,在函数里找到“>=”

我点“value”,值类型选“Integer”,输了个“0”点确认,条件就设好了。

2.6 Excel输出组件配置

我双击“盈利订单”组件,把文件名改成“盈利订单”,文件格式选“xlsx[Excel 2007 and above]”。

我点开“输出字段”,在表格空白处右键选“获取字段”,字段出来之后点“确认”。

2.7 执行转换

组件都配好后,我点“启动”,在弹出的窗口再点一下“启动”,就执行成功了。

 2.8 查看运行记录

跑任务的时候系统会记日志,跑完了可以回头看看执行结果和日志,大概长下面这样:

2.9 查看结果

三、实验结果

折腾完这一套流程,最后生成了两个Excel文件:

盈利订单.xlsx – 里面是 profit ≥ 0 的订单,后面想分析哪些产品利润高就用它。

亏损订单.xlsx – 里面是 profit < 0 的订单,以后追查为什么会亏钱就靠它了。

总的来说,这次实验把订单数据和产品信息关联起来,再按利润正负分成两个文件,数据整得清清楚楚,给后续分析打了个好底子。

四、核心组件说明

组件

作用

本实验配置要点

表输入

读取数据库表

配置数据源和SQL,自动获取字段

记录集连接

多表关联

选择连接类型(LEFT OUTER)和连接字段

字段选择

字段筛选与重命名

移除重复的 id 字段

过滤记录

按条件分流

设置 profit ≥ 0

Excel输出

导出结果

配置文件名和输出字段

五、问题与解决

在实验过程中我遇到了一个问题:

 我在连接订单表和产品表的时候,系统弹出了“排序需要”的提示。一开始我没太在意,直接关掉了。后来想起老师说过,这个提示是因为组件是按数据接收的顺序来关联记录的,如果数据没排好序,连接结果可能会出错。于是我又重新检查了两个表输入组件,确认数据来源没有问题之后,重新连了一次。提示还是出现了,但我知道这只是提醒数据要有顺序。只要数据源本身是排好序的,点确定继续就行。最后执行下来,连接结果是对的,没有出错。

六、实验总结

我学会了用助睿平台完成一个完整的ETL流程:从创建项目、添加组件(表输入、连接、过滤、Excel输出)、连接配置,到执行任务和查看结果。过程中遇到了一些问题,比如做连接时出现“排序需要”的提示,还有Excel文件因为名字一样没生成出来,不过后来都解决了。我觉得这种拖拽组件的可视化方式比写SQL代码更清楚,数据的每一步流向都能直观看到。现在我对做类似的数据处理任务更有信心了。

Logo

一站式 AI 云服务平台

更多推荐