第一部分:实验背景

1.1实验目的

1.掌握新建转换、添加组件、执行转换等基本此操作流程

2.熟悉表输入、记录集连接、字段选择、过滤记录、Excel输出等常用组件的配置方法

3.理解多表关联、数据过滤与分流处理的ETL设计思路

通过本次实验,可以借助助睿平台完成订单利润分流数据加工任务从而了解基本操作,为以后的更复杂的实验打下基础。

1.2实验环境

助睿数智平台,登录地址为https://lab.guilan.cn/

数据库:MySQL

数据:订单表(business_anaylsis.order_detail),产品表(business_anaylsis.product)

1.3处理流程

将订单表和产品表进行左外连接,然后移除重复字段,再按利润跟零比较进行分流,大于等于零为盈利,小于零为亏损,最后分别输出为两个Excel文件。

第二部分:实验步骤

2.1通过贵兰平台加入班级查看实验并通过实训平台登入助睿实验平台

2.2在助睿平台首页点击ETL进入数据集成页面

2.3点击团队管理创建新的团队

2.4新建项目:助睿ETL入门实验

创建项目成功后点击项目右上角…打开项目

打开项目后即可看到左边的资源库、文件库、元数据

本次实验主要用到资源库和文件库。

首先点击元数据右键进行同步数据源

同步后可看到同步的数据库“线上公共数据源(Readonly)”

2.5新建转换流

点击资源库的根目录右键选择新建转换流

输入数据流名称:订单利润分流处理

进入转换流设计页面后先点击红色的锁进行解锁

2.6添加组件

点击组件库,在搜索框输入“表输入“查询”表输入“组件,将组件拖入画布两次,分别命名为订单_详细订单、订单_产品信息。

然后在搜索框输入“记录集连接“,将记录集拖入画布中,连接两个表输入和连接组件。

添加字段选择组件,拖入画布中

添加过滤记录组件,拖入画布中

添加两个excel输出组件,分别命名为盈利订单和亏损订单,再与连接组件进行连接,连线类型“True输出“表示满足过滤条件的记录输出,”False输出“表示不满足过滤条件的记录输出。

将所有组件连接后得到一个完整的转换任务流程

2.7配置组件信息

双击表输入组件数据连接选择线上公共数据源,获取SQL查询语句,订单_详细订单数据库选择business_anaylsis.order_detail,订单_产品信息选择business_anaylsis.product

记录集连接组件配置,双击记录集连接,第一个Transform选择订单_详细订单,第二个Transform选择订单_产品信息,连接类型选择LEFT OUTER,获取连接字段,第一个只保留“product_id” 第二个只保留“id”

字段选择组件配置,双击字段选择组件,点击移除,移除其他字段,只留下id

过滤记录组件配置

Excel输出组件配置,双击组件修改文件名,选择扩展名,再点击输出字段,获取字段

2.8 执行转换,点击顶上的启动按钮,在弹出的窗口中选择启动

执行成功

第三部分:实验结果

3.1查看执行日志

3.2查看结果

此时点击左侧文件库可看到生成两个excel文件

可右键下载查看

盈利订单(profit>=0)

亏损订单(profit<0)

通过excel文件可知,盈利订单的所有profit>=0,亏损订单的profit<0,从而可得本次数据分流实验成功分流,满足任务的要求。

第四部分:问题与解决

实验过程中遇到的问题:在连接组件配置时,第二个Transform字段找不到id

原因:输入组件配置时数据集选择错误

解决方法:回到输入组件配置,选择正确的数据集进行获取SQL语句,然后再配置连接组件,从而获得需要的字段。

第五部分:实验总结

通过本次实验,我了解熟悉了助睿ETL平台的基本操作方法,包括创建团队,创建项目,同步数据源,新建转换流,添加组件,配置组件,执行转换以及查看结果。掌握了常用组件的添加和配置方法,学会了如何进行数据分流这项基本的数据处理功能。

助睿平台拖拽式零代码操作清晰直观的展示了数据分流的原理,操作简单且零代码,适合初学者,易于学习且能迅速上手完成常见的数据加工任务。

Logo

一站式 AI 云服务平台

更多推荐