一、 实验背景

  • 实验目的:本次实验我将通过助睿 ETL 平台完成订单利润分流流程,重点掌握数据关联、字段清洗及条件分流等核心技能,实现从原始数据库到分类报表的自动化加工。

  • 实验环境

    • 平台全称:助睿数智(Uniplore)一站式数据科学实验平台

    • 登录地址:www.guilan.cn

    • 底层引擎:覆盖数据接入、ETL处理、机器学习建模到可视化分析的全链路 Agentic 零代码数据智能。

  • 处理流程:整体逻辑为订单明细表->左外连接产品信息表->移除重复ID字段->按利润>=0分流->盈利订单/亏损订单分别输出


二、 实验步骤

第一部分:环境准备与项目创建

首先,我登录了助睿平台,并在个人空间中新建了实验项目。

  1. 创建项目:新建名为“订单利润分流分析”的项目。

第二部分:元数据同步

在正式加工前,我需要将数据库中的表同步到平台元数据中。

  1. 同步操作:在“元数据”模块右键点击“关系数据库”,选择“同步数据源”。

  2. 确认:切换"文件库"菜单在切换到元数据,可以看到同步的数据库"线上公共数据源(Readonly)"

第三部分:新建转换流

  • 切换到资源库,右键根目录,点击"新建转换流"

  • 输入转换流名称,点击"确定",即可完成。

  • 进入转换流设计页面,每次打开都是锁定状态,需要解锁后才可编辑转换流,如图所示,进行解锁

第三部分:搭建转换流组件

我从左侧组件库中通过关键字搜索,将所需组件拖拽至画布,并建立了数据流向连接。

  • 组件构成:2个表输入、1个记录集连接、1个字段选择、1个过滤记录、2个Excel输出。如图所示

  • (1)添加表输入组件

    点击"组件库",可使用关键字快速搜索,在搜索输入框中输入"表输入"

    将表输入组件拖拽进画布中,如图所示

    双击组件修改步骤名称为订单_详细订单

    另一组件修改步骤名称为订单产品信息

  • (2)添加记录集连接组件

    搜索框输入"记录集连接",将组件拖拽至画布

    创建表输入组件到记录集连接组件的连接线

  • (3)添加字段选择组件

    两个表连接后,会出现重复的字段"产品ID",选择该组件移除这个多余字段。

  • 将组件名字改为"移除产品ID_1字段",并创建纪录集连接组件到字段选择组件的连接线,如图

  • (4)添加过滤记录组件

    添加组件,创建字段选择组件到过滤组件的连接线,如图

  • 连线时出现的窗口选择"主输出步骤"

  • (5)添加excel输出组件

    添加两个表输出组件,拖拽之画布中,分别命名为"盈利订单"和"亏损订单",如图

    连接过滤记录组件到"盈利订单"的连接线,弹出窗口选择Ture输出,表示满足过滤条件输出

    连接过滤记录组件到"亏损订单"的连接线,弹出窗口选择False输出,表示不满足过滤条件输出

第四部分:核心组件配置(重点)

4.1 表输入配置

我分别配置了两个表输入组件:

  • 配置要点:在组件内选择对应的数据源,点击"获取 SQL 查询语句"自动生成读取指令,确保能正确读取订单和产品数据。

  • 双击订单_详细订单表输入组件,在数据库连接下拉框中选择"线上公共数据源(Readonly)"

  • 点击“获取SQL查询语句”,自动生成SQL查询语句。

  • 搜索找到"business_anaylsis.order_detail",选择它,点击“确定”

  • 订单_产品信息表输入参照以上方法,获取"business_anaylsis.product"的SQL查询语句

  • 效果如图

4.2 记录集连接(多表关联)

这是本次实验最关键的一步。

  • 配置要点:设置连接类型为'LEFT OUTER';在连接字段中,我将订单表的'product_ID'与产品表的'ID'进行匹配。

  • 双击记录集组件,在第一个Transform选择订单_详细订单,第二个 Transform选择订单_产品信息,连接类型为'LEFT OUTER'

  • 分别点击'获得连接字段'后,如图

  • 将第一个Transform的连接字段除product_id外的其他字段删除

  • 将第二个Transform的连接字段除id外的其他字段删除(选中删除字段右键点击'删除选择的行',即可)

4.3 字段选择(数据清洗)

由于关联后会出现重复的 ID 列,我使用了字段选择组件。

  • 配置要点:使用“移除”功能,将冗余的 id 字段删除,保证输出数据的简洁性。

  • 双击组件进行配置,点击'移除',再'获取字段',删除字段,只保留'id'字段

4.4 过滤记录(业务分流)

我根据业务需求设置了分流逻辑:

  • 条件设置: profit(利润)>=0

  • 分流路由:满足条件的连接至“盈利订单”,不满足的连接至“亏损订单”。

  • 双击组件进行配置,如图

4.5 Excel 输出配置
  • 配置要点:我手动修改了两个输出组件的文件名,分别为“盈利订单”和“亏损订单”,并在“输出字段”中点击“获取字段”。

  • 双击组件,将文件名修改为盈利订单,扩展名选择xlsx[Excel 2007 and above]

  • 点击输出字段,右键获取字段

  • 另一组件相同操作,将文件名修改为'亏损订单'


三、 实验结果

1. 任务执行状态

配置完成后,我点击“运行”启动转换。观察到所有组件图标均显示绿色对勾,日志面板显示“转换已完成”。

2. 输出结果验证

点击'文件库',选中右键即可下载处理后生成的文件


四、 问题与解决

在实验过程中,我记录了两个遇到的真实问题及其解决方法:

  1. 问题现象:连接线没有分流效果

    • 原因:过滤记录组件后的连接线未指定 True/False 属性。

    • 解决:右键点击连接线,在弹窗中重新选择'True 输出'或'False 输出'。

  2. 问题现象:关联后数据字段缺失

    • 原因:在记录集连接中未正确获取连接字段。

    • 解决:重新点击“获取连接字段”,确保关联键'product_id'正确映射。


五、 实验总结

  • 收获:通过本次实操,我掌握了零代码 ETL 的全流程。助睿平台的可视化设计让我能直观地理解数据流向,特别是过滤记录组件的应用,极大简化了业务分类的逻辑实现。

  • 评价:助睿数智平台界面简洁、响应迅速,其 Agentic 零代码特性非常适合需要快速交付的数据加工场景,是一套高效且易上手的专业工具。


#助睿数智 #商业数据分析 #数据集成 #机器分析 #订单分析

Logo

一站式 AI 云服务平台

更多推荐