基于助睿平台的订单利润分流数据加工
通过本次实验,我助睿数智(Uniplore)一站式数据科学实验平台的基本操作方法,包括创建项目、同步数据源、新建转换流、添加和配置组件、执行转换以及查看结果,掌握了表输入、记录集连接、字段选择、过滤记录、Excel输出等常用组件的配置方法,理解了多表关联和条件分流在数据处理中的应用。相比传统编写SQL和脚本的数据处理方式,助睿平台的零代码拖拽式操作更加直观,组件之间的数据流向清晰可见,便于理解和调
基于助睿平台的订单利润分流数据加工
实验背景
1.1 实验目的
本次实验旨在掌握以下技能并完成对应任务:
-
掌握技能:熟练使用助睿数智(Uniplore)一站式数据科学实验平台进行零代码数据加工,重点掌握助睿ETL软件的基本操作,包括新建转换、添加组件、执行转换;理解ETL(抽取、转换、加载)的基本流程,掌握核心组件的使用,包括表输入、记录集连接、字段选择、过滤记录、表输出;能够实现多表关联、数据过滤与分流处理,综合运用数据分流、字段计算、聚合汇总等算子对业务数据进行加工。
-
完成任务:基于给定的销售订单原始数据,完成“订单利润分流”数据加工。具体包括筛选出高利润订单、对订单进行区域分流、计算各区域的核心利润指标,最终输出可供业务分析使用的汇总表。
1.2 实验环境
-
实验平台:助睿数智(Uniplore)一站式数据科学实验平台
-
登录地址:https://lab.guilian.cn/
-
平台官网:https://www.uniplore.com/
-
数据库:MySQL
-
实验数据:订单表(business_analysis.order_detail)、产品表(business_analysis.product)
1.3 处理流程简述
-
数据读取。将订单表(business_analysis.order_detail)与产品表(business_analysis.product)接入平台。
-
多表关联。对两张表按产品ID进行左外连接,将产品信息补充到订单明细中。
-
字段整理。移除连接后产生的重复字段,保留关键业务字段,并计算订单利润。
-
数据分流。按利润是否大于等于零进行条件判断,将数据分流为两条分支。
-
结果输出。分别将盈利订单和亏损订单输出到两个独立的Excel文件中。
实验步骤
2.1创建实验项目
新建空白实验项目:选择所属团队为个人团队,点击“+新建项目”。
修改项目名称:在项目名称一栏输入“订单利润分流数据加工”后点击“确定”。
2.2同步数据源
打开项目:点击该项目右上角“...”,点击“打开项目”。
获取本次实验的数据集:点击“元数据”,右键“关系数据库”,点击“同步数据源”。
2.3创建转换流
新建转换流:点击“资源库”,右键根目录,点击“新建转换流”。
修改转换流名称:输入“订单利润分流处理”后点击“确定”。
2.4添加组件
解除转换流设计界面的锁定:点击锁形图标进行解锁
添加表输入组件:点击“组件库”,在搜索框中输入“表输入”,拖拽两个表输入组件至画布。
修改表输入组件名称:右键画布中的表输入组件,点击“编辑组件”。修改步骤名称为“订单_详细订单”,点击“确认”。同样的将另一个表输入组件修改为“订单_产品信息”。
添加记录集连接组件:在左侧搜索框中输入“记录集连接”,将其拖拽至画布中。
创建连接线:分别将两个表输入组件与记录集连接组件进行连接。
添加字段选择组件:在左侧搜索框中输入“字段选择”,将其拖拽至画布中。
修改字段选择组件名称:右键画布中的字段选择组件,点击“编辑组件”。修改步骤名称为“移除产品ID_1字段”,点击“确认”。
创建连接线:将记录集连接组件与字段选择组件进行连接。
添加过滤记录组件:在左侧搜索框中输入“过滤记录”,将其拖拽至画布中。
创建连接线:将字段选择组件与过滤记录组件进行连接。在弹出的窗口点击“主输入步骤”。
添加excel输出组件:在左侧搜索框中输入“excel 输出”,拖拽两个Microsoft excel 输出组件至画布中。
修改excel输出组件名称:右键画布中的Microsoft excel 输出组件,点击“编辑组件”。修改步骤名称为“盈利订单”,点击“确认”。同样的将另一个表输入组件修改为“亏损订单”。
创建连接线:将过滤记录组件分别与两个excel输出组件进行连接。在弹出的窗口中分别选择“True输出”和“False输出”。
2.5配置组件信息
表输入组件配置:双击“订单_详细订单表”输入组件,在数据库连接下拉框中选择“线上公共数据源(Readonly)”。点击“获取SQL查询语句”。点开“线上公共数据源(Readonly)”-“表”目录。下滑找到“business_analysis.order_detail”并点击它,然后点击“确定”。在弹出的窗口中点击“确认”。最后在配置界面点击“确认”。另一个“订单_产品信息表”输入组件也按上述同样配置,获取“business_analysis.product”的SQL查询语句。
记录集连接组件配置:双击记录集连接组件。第一个Transform选择“订单_详细订单”,第二个Transform选择“订单_产品信息”,连接信息类型选择“LEFT OUTER”。点击两个“获取连接字段”。按住Ctrl,左键选中多余的字段,点击“删除选中的行”,左边只留下“prodeuct_id”字段,右边只留下“id”字段,最后点击“确认”。
字段选择组件配置:双击字段选择组件。点击“移除”,右键“字段名称”,点击“获取字段”。按上述方法删除多余字段,只留下“id”字段,最后点击“确认“。
过滤记录组件配置:双击过滤记录组件。选择发送匹配的结果给“盈利订单”,选择发送不匹配的结果给“亏损订单”。点击第一个框选择“profit(Number)”。点击“确认”。点击中间的框选择“>=”。点击框,类型选择“Integer”,值选择“0”,点击“确认”。
excel输出组件配置:双击“盈利订单”excel表输出组件,文件名修改为“盈利订单”,文件拓展名选择“xlxs [Excel 2007 and above]”。点击“输出字段”,在空白表格处右键点击“获取字段”,点击“确认”。“亏损订单”的excel组件也进行相同配置。
2.6执行转换
执行转换任务:点击三角形启动按钮。在弹出的窗口中点击“启动”,成功执行。
2.7查看执行日志
任务执行完毕后点击“日志”,可以查看执行日志。
点击“步骤度量”可以查看步骤度量。
2.8查看结果
点击左侧“文件库”,看到输出结果的文件,可以右键下载进行查看。
实验结果
3.1输出数据展示
盈利订单部分展示
亏损订单部分展示
3.2结果分析与验证
实验成功实现了订单数据的关联和分流处理,为后续的盈利分析提供了规范的数据基础。可以看到盈利订单部分展示中的“profit”列的值都是大于或等于零的,亏损订单部分展示中的“profit”列的值都是小于零的。
问题与解决
由于本次实验总体较为简单,在实验过程中,我遇到并成功解决了以下一个问题:
问题一:无法选中多行连接字段
解决方法:在配置记录集连接组件的过程中,在获得连接字段后需要删除多余的连接字段,我无法选中多行连接字段,只能一行一行地进行删除。最后通过询问其他同学,学会了选中多行的方法,即按住“Ctrl”再用鼠标左键进行选中。
实验总结
通过本次实验,我助睿数智(Uniplore)一站式数据科学实验平台的基本操作方法,包括创建项目、同步数据源、新建转换流、添加和配置组件、执行转换以及查看结果,掌握了表输入、记录集连接、字段选择、过滤记录、Excel输出等常用组件的配置方法,理解了多表关联和条件分流在数据处理中的应用。
相比传统编写SQL和脚本的数据处理方式,助睿平台的零代码拖拽式操作更加直观,组件之间的数据流向清晰可见,便于理解和调试。对于初学者来说,这种方式降低了学习门槛,能够快速上手完成常见的数据加工任务。
更多推荐




所有评论(0)