助睿实验作业1-订单利润分流数据加工
本次实验完整走通了一个典型 ETL 任务:读取数据、关联数据、清理字段、按条件分流、导出结果。通过助睿平台的零代码组件,可以比较直观地理解数据加工流水线中每个环节的作用。对初学者来说,这个实验最值得注意的地方有三个:一是记录集连接字段必须选对,二是过滤记录的 True/False 输出要连接到正确目标,三是 Excel 输出前要先获取字段。ETL数据集成MySQL助睿零代码。
助睿 ETL 入门实验:订单利润分流数据加工完整记录
本文记录“实验一:订单利润分流数据加工”的完整过程。实验目标是在助睿数智/Uniplore 数据集成平台中,通过零代码拖拽方式读取订单表和产品表,完成左外连接、字段清理、利润分流,并最终导出盈利订单和亏损订单两个 Excel 文件。
一、实验目标
本次实验主要练习助睿数据集成平台中的基础 ETL 操作,包括:
- 新建转换流
- 添加并配置表输入组件
- 使用记录集连接组件完成多表关联
- 使用字段选择组件移除重复字段
- 使用过滤记录组件按条件分流
- 使用 Excel 输出组件导出结果
- 执行转换并查看日志
二、实验环境与数据
实验平台:助睿数智/Uniplore 数据集成平台
实验入口:https://lab.guilan.cn/
数据库:MySQL
数据源:线上公共数据源(Readonly)
本次实验用到两张表:
| 表名 | 说明 |
|---|---|
business_anaylsis.order_detail |
订单明细表 |
business_anaylsis.product |
产品信息表 |
实验要实现的业务逻辑是:将订单明细表和产品信息表按产品 ID 左外连接,再根据利润字段 profit 判断订单属于盈利还是亏损。
三、整体处理流程
business_anaylsis.order_detail
|
| LEFT OUTER JOIN,按产品 ID 关联
v
business_anaylsis.product
|
v
移除重复 ID 字段
|
v
profit >= 0 ?
| True | False
v v
盈利订单.xlsx 亏损订单.xlsx
四、创建项目与同步数据源
进入实验平台后,选择“数据集成/ETL”模块。为了方便管理,可以先在“团队管理”中创建团队,然后进入“我的项目”新建实验项目。
项目创建完成后,点击“打开项目”进入工作区。工作区左侧主要包含资源库、文件库和元数据三个部分:
- 资源库:用于管理转换流和工作流
- 文件库:用于保存输出文件
- 元数据:用于管理数据库连接和运行配置
接着进入“元数据”,右键“关系数据库”,选择“同步数据源”。刷新后应能看到“线上公共数据源(Readonly)”。
五、新建转换流
切换到“资源库”,右键根目录,选择“新建转换流”,名称填写:
订单利润分流处理
创建成功后进入转换流设计页面。如果画布处于锁定状态,需要先点击解锁图标。
六、添加组件
本实验需要在画布中添加以下组件:
| 组件 | 数量 | 命名 |
|---|---|---|
| 表输入 | 2 | 订单-详细订单、订单-产品信息 |
| 记录集连接 | 1 | 记录集连接 |
| 字段选择 | 1 | 移除产品 ID-1 字段 |
| 过滤记录 | 1 | 过滤记录 |
| Excel 输出 | 2 | 盈利订单、亏损订单 |
连接关系如下:
订单-详细订单 ----\
记录集连接 -> 移除产品 ID-1 字段 -> 过滤记录 -> 盈利订单
订单-产品信息 ----/ \-> 亏损订单
其中过滤记录到两个 Excel 输出组件的连接类型分别为:
- 盈利订单:True 输出
- 亏损订单:False 输出
七、配置组件
1. 表输入组件
双击“订单-详细订单”组件:
- 数据库连接选择“线上公共数据源(Readonly)”。
- 点击“获取 SQL 查询语句”。
- 选择表
business_anaylsis.order_detail。 - 系统自动生成 SQL 后点击确认。
另一个表输入组件“订单-产品信息”同样配置,选择表:
business_anaylsis.product
2. 记录集连接组件
双击“记录集连接”组件:
- 第一个 Transform 选择“订单-详细订单”。
- 第二个 Transform 选择“订单-产品信息”。
- 连接类型选择
LEFT OUTER。 - 获取两个 Transform 的连接字段。
- 第一个 Transform 保留订单明细表中的产品 ID 字段。
- 第二个 Transform 保留产品表中的
id字段。 - 删除多余字段并保存。
这里的含义是:以订单明细表为主表,将产品信息表中的产品维度信息关联进来。
3. 字段选择组件
双击“移除产品 ID-1 字段”组件,进入“移除”选项,点击“获取字段”。由于连接后产品 ID 会重复,这里只保留要移除的 id 字段,删除其他字段,最后点击确认。
4. 过滤记录组件
双击“过滤记录”组件,配置条件:
profit >= 0
字段选择 profit(Number),函数选择 >=,值类型选择 Integer,值填写 0。
配置完成后:
- True 输出:盈利订单
- False 输出:亏损订单
5. Excel 输出组件
双击“盈利订单”Excel 输出组件:
- 文件名:盈利订单
- 文件扩展名:
xlsx [Excel 2007 and above] - 在“输出字段”中右键选择“获取字段”
“亏损订单”组件同理,文件名改为“亏损订单”。
八、执行转换与查看结果
配置完成后,点击启动按钮,在弹窗中选择“启动”。执行完成后可以在运行日志中查看各组件是否执行成功。
然后进入“文件库”,右键根目录刷新,可以看到两个输出文件:
| 文件 | 内容 |
|---|---|
盈利订单.xlsx |
profit >= 0 的订单 |
亏损订单.xlsx |
profit < 0 的订单 |
九、遇到的问题
问题 1:Excel 输出获取不到字段
原因通常是上游组件没有保存、连线类型不正确,或者 Excel 输出组件没有从正确的数据流接收字段。
解决办法:
- 检查过滤记录到 Excel 输出组件的连线类型
- 盈利订单选择 True 输出
- 亏损订单选择 False 输出
- 保存上游组件后重新点击“获取字段”
问题 2:记录集连接结果不正确
记录集连接时,如果连接字段选择错误,可能导致关联结果为空或重复。
解决办法:
- 第一个 Transform 使用订单表中的产品 ID 字段
- 第二个 Transform 使用产品表中的
id字段 - 连接类型使用
LEFT OUTER - 删除多余连接字段后重新执行
十、总结
本次实验完整走通了一个典型 ETL 任务:读取数据、关联数据、清理字段、按条件分流、导出结果。通过助睿平台的零代码组件,可以比较直观地理解数据加工流水线中每个环节的作用。
对初学者来说,这个实验最值得注意的地方有三个:一是记录集连接字段必须选对,二是过滤记录的 True/False 输出要连接到正确目标,三是 Excel 输出前要先获取字段。
建议标签:ETL、数据集成、MySQL、助睿、零代码
更多推荐




所有评论(0)