前言

本次实验围绕 ETL 流程中的“数据抽取”环节展开,主要记录如何在助睿 ETL 数据集成平台中读取和处理三类常见文件数据:CSV 文件、文本文件和 Excel 文件。

在实际业务中,数据不一定都存放在数据库中。很多时候,数据会以 CSV、TXT、Excel 等文件形式进行传递,例如供应商提供的数据、业务系统导出的报表、客户交换文件等。因此,掌握文件类数据源的读取、字段解析、字段筛选和基础加工,是学习 ETL 的基础内容之一。

本次实验主要完成三项任务:

1. 从 CSV 文件中读取项目数据,并计算项目执行天数和绩效等级;
2. 从文本文件中读取足球比赛数据,并完成字段筛选;
3. 从 Excel 文件中读取购房者信息数据,并筛选目标字段。

整体流程如下:

在这里插入图片描述


第一部分:实验背景

1.1 实验目的

本次实验使用 助睿数智(Uniplore)一站式数据科学实验平台 完成文件类数据源的读取和基础处理。

通过本次实验,我主要掌握以下内容:

1. 理解 ETL 数据抽取环节的基本作用;
2. 掌握 CSV 文件输入组件的使用方法;
3. 掌握文本文件按指定分隔符解析的方法;
4. 掌握 Excel 输入组件读取工作表数据的方法;
5. 掌握字段选择组件的字段保留与字段移除方法;
6. 掌握计算器组件中日期差计算的配置方法;
7. 掌握数值范围组件根据区间生成分类字段的方法;
8. 掌握文本文件输出组件生成结果文件的方法;
9. 学会通过预览输出验证 ETL 流程是否正确。

本次实验重点不在复杂算法或建模,而是熟悉助睿 ETL 平台中文件读取和基础转换的完整流程。


1.2 实验环境

本次实验基于助睿平台完成。

平台信息如下:

平台全称:助睿数智(Uniplore)一站式数据科学实验平台
平台定位:覆盖数据接入、ETL处理、机器学习建模到可视化分析的全链路 Agentic 零代码数据智能产品
产品官网:https://www.uniplore.com/
实验平台地址:https://lab.guilian.cn/

本次使用的子平台为:

助睿 ETL 数据集成平台

助睿 ETL 平台支持通过组件拖拽和参数配置完成数据接入、字段处理、数据计算、文件输出等操作,适合用于数据集成和数据预处理实验。


1.3 实验数据

本次实验使用的数据文件均来自助睿 ETL 平台的“公共空间”。

文件名称 文件类型 实验用途
project.csv / porject.csv CSV 文件 读取项目数据,计算项目执行天数和绩效等级
usa_201209.txt 文本文件 读取足球比赛数据,移除指定字段并验证结果
custinfo.xlsx Excel 文件 读取购房者信息数据,筛选建模分析所需字段

说明:实验界面中部分文件名显示为 porject.csv,与常见拼写 project.csv 不一致。实际配置时以平台文件库中显示的文件名为准。


1.4 整体处理流程

本次实验分为三个处理流程。

第一个流程是 CSV 文件读取与加工。通过“CSV 文件输入”组件读取项目数据,使用“字段选择”组件接收字段,再通过“计算器”组件计算项目开始日期和结束日期之间的天数差,最后通过“数值范围”组件生成项目绩效等级,并使用“文本文件输出”组件生成结果文件。

第二个流程是文本文件读取与验证。通过“CSV 文件输入”组件读取分号分隔的文本数据,使用“字段选择”组件移除不需要的 Venue 字段,最后通过“空操作(什么也不做)”组件验证数据是否正常传递。

第三个流程是 Excel 文件读取与字段筛选。通过“Excel 输入”组件读取购房者信息数据,选择指定工作表 Sheet1,自动获取表头字段,再使用“字段选择”组件只保留 educationemployment 字段,最后通过预览输出验证结果。


第二部分:实验步骤

2.1 准备实验数据文件

实验步骤

登录助睿 ETL 平台后,进入“数据集成”模块,在“我的项目”中打开目标项目。

进入项目页面后,在右侧找到“公共空间”,切换到“数据资源”标签页。这里可以看到平台提供的公共数据文件。
在这里插入图片描述

本次实验需要使用三个文件:project.csvusa_201209.txtcustinfo.xlsx。将这些文件从公共空间导出到当前项目空间中。

文件导出完成后,进入左侧“文件库”,刷新文件列表,确认实验文件已经出现在项目空间中。

在这里插入图片描述

配置要点

数据来源:公共空间
目标位置:当前项目空间文件库
CSV 文件:project.csv 
文本文件:usa_201209.txt
Excel 文件:custinfo.xlsx
文件路径:以文件库中实际路径为准
文件名:以平台实际显示名称为准

2.2 读取 CSV 项目数据

实验步骤

新建一个转换流,在组件库中找到“CSV 文件输入”组件,并将该组件添加到画布中。
在这里插入图片描述

打开“CSV 文件输入”组件配置窗口,在文件选择区域选择项目文件库中的 project.csvporject.csv 文件。文件选择完成后,组件会自动回填文件路径。
在这里插入图片描述

随后在字段区域获取字段,平台会根据 CSV 文件的表头和分隔符自动解析字段信息。
在这里插入图片描述

字段解析完成后,对 CSV 文件输入组件进行数据预览,检查项目数据是否能够正常读取。
在这里插入图片描述

配置要点

组件名称:CSV 文件输入
输入文件:project.csv / porject.csv
文件来源:项目空间文件库
字段来源:CSV 文件头部字段
字段解析方式:自动获取字段
核心日期字段:start_date、end_date
数据验证方式:预览输出

2.3 配置字段选择组件接收 CSV 字段

实验步骤

在 CSV 文件输入组件后添加“字段选择”组件,并建立从“CSV 文件输入”到“字段选择”的连接。
在这里插入图片描述

打开“字段选择”组件配置窗口,在“选择和修改”标签页中获取上游字段。由于本次 CSV 流程中暂时不需要修改字段名称、字段类型、长度和精度,因此字段信息保持默认。
在这里插入图片描述

字段选择组件配置完成后,该组件会把 CSV 输入组件读取到的数据继续传递给后续组件。

配置要点

组件名称:字段选择
上游组件:CSV 文件输入
连接类型:主输出步骤
字段处理方式:保留默认字段信息
字段名称:保持原字段名称
字段类型:保持自动识别结果
输出数据:传递给计算器组件

2.4 计算项目执行天数

实验步骤

在“字段选择”组件后添加“计算器”组件,并建立从“字段选择”到“计算器”的连接。连接类型选择“主输出步骤”。
在这里插入图片描述

打开“计算器”组件配置窗口,新增一个计算字段 diff_date。该字段用于计算项目结束日期 end_date 与项目开始日期 start_date 之间的天数差。
在这里插入图片描述

配置完成后,计算器组件会在原有数据基础上新增 diff_date 字段,并将结果传递给后续的数值范围组件。

配置要点

配置项 配置内容
组件名称 计算器
上游组件 字段选择
连接类型 主输出步骤
新字段 diff_date
计算公式 Date A - Date B (in days)
字段 A end_date
字段 B start_date
值类型 Integer
字段含义 项目执行天数

计算逻辑为:

diff_date = end_date - start_date

2.5 根据执行天数生成绩效等级

实验步骤

在“计算器”组件后添加“数值范围”组件,并建立从“计算器”到“数值范围”的连接。
在这里插入图片描述

打开“数值范围”组件配置窗口,将输入字段设置为 diff_date,输出字段设置为 performance。然后根据项目执行天数设置不同的绩效等级。
在这里插入图片描述

配置完成后,数值范围组件会根据 diff_date 的数值区间自动生成 performance 字段。

配置要点

组件名称:数值范围
上游组件:计算器
输入字段:diff_date
输出字段:performance
范围规则:最小值 ≤ x < 最大值

绩效等级配置如下:

下界 上界 performance
0 30 excellent
30 180 very good
180 360 good
360 poor

字段含义:

diff_date:项目执行天数
performance:项目绩效等级

2.6 输出 CSV 项目加工结果

实验步骤

在“数值范围”组件后添加“文本文件输出”组件,并建立从“数值范围”到“文本文件输出”的连接。
在这里插入图片描述

打开“文本文件输出”组件配置窗口,设置输出文件名称和扩展名。随后配置文件内容格式,将字段分隔符设置为英文逗号。
在这里插入图片描述
在这里插入图片描述

在字段配置页面获取上游字段,使输出文件包含原始字段以及新增的 diff_dateperformance 字段。

配置完成后,该流程运行时会在文件库中生成新的 CSV 输出文件。

配置要点

组件名称:文本文件输出
上游组件:数值范围
输出文件名称:porject_output
输出扩展名:csv
字段分隔符:英文逗号 ,
输出字段来源:上游全部字段
新增输出字段:diff_date、performance
输出文件:porject_output.csv

2.7 运行 CSV 项目绩效加工流程

实验步骤

完成所有组件配置后,运行转换流程。运行结束后查看执行日志和组件状态,确认各组件执行成功。
在这里插入图片描述

随后进入文件库,查看是否生成 project_output.csv 文件。打开输出文件,检查是否包含 diff_dateperformance 字段。
在这里插入图片描述
在这里插入图片描述


2.8 读取文本文件足球比赛数据

实验步骤

新建一个转换流,在画布中添加“CSV 文件输入”组件。

虽然 usa_201209.txt 是文本文件,但该文件内部是按分隔符组织的结构化数据,因此可以使用“CSV 文件输入”组件进行解析。
在这里插入图片描述

打开组件配置窗口,选择文件库中的 usa_201209.txt 文件,并设置列分隔符。该文本文件使用分号分隔字段,所以需要按照分号进行字段拆分。
在这里插入图片描述

字段配置完成后,点击获取字段。
在这里插入图片描述

预览输出,检查比赛日期、比赛地点、主队、客队、比分等字段是否正常解析。
在这里插入图片描述

配置要点

组件名称:CSV 文件输入
输入文件:usa_201209.txt
文件类型:文本文件
解析方式:按分隔符解析
列分隔符:英文分号 ;
列头行:包含列头行
字段来源:文件第一行
数据验证方式:预览输出

2.9 移除文本数据中的 Venue 字段

实验步骤

在文本文件输入组件后添加“字段选择”组件,再添加“空操作(什么也不做)”组件,形成完整的数据验证流程。

流程结构如下:

CSV 文件输入
→ 字段选择
→ 空操作(什么也不做)

在这里插入图片描述

打开“字段选择”组件配置窗口,切换到“移除”标签页。获取上游字段后,将 Venue 字段设置为需要移除的字段。
在这里插入图片描述

配置完成后,文本数据经过字段选择组件时,Venue 字段会被剔除,其他字段继续传递到“空操作(什么也不做)”组件。

配置要点

组件名称:字段选择
上游组件:CSV 文件输入
下游组件:空操作(什么也不做)
字段处理类型:移除字段
移除字段:Venue
保留字段:除 Venue 外的其他字段
连接类型:主输出步骤

2.10 运行文本文件读取与字段筛选流程

实验步骤

完成文本文件读取和字段选择配置后,运行整个转换流程。
在这里插入图片描述

流程运行完成后,查看执行结果,确认各组件执行成功。随后预览“空操作(什么也不做)”组件的输出数据,检查 Venue 字段是否已经被移除,同时确认其他比赛字段是否正常保留。

在这里插入图片描述


2.11 读取 Excel 购房者信息数据

实验步骤

新建一个转换流,在画布中添加“Excel 输入”组件。
在这里插入图片描述

打开“Excel 输入”组件配置窗口,选择文件库中的 custinfo.xlsx 文件,并将该文件加入选中文件列表。
在这里插入图片描述

完成文件配置后,继续配置 Excel 文件的内容属性和工作表信息,为后续字段解析做准备。

配置要点

组件名称:Excel 输入
输入文件:custinfo.xlsx
文件类型:Excel xlsx 文件
解析引擎:Excel XLSX(Streaming)
文件来源:项目空间文件库
数据用途:购房者信息字段筛选

2.12 配置 Excel 内容和工作表

实验步骤

在“Excel 输入”组件中进入“内容”标签页,设置 Excel 文件读取规则。该文件第一行为字段名称,因此需要将第一行作为头部字段读取,同时只读取非空记录。
在这里插入图片描述
随后进入“工作表”标签页,获取 Excel 文件中的工作表名称,并选择 Sheet1 作为本次实验读取的工作表。
在这里插入图片描述

配置要点

内容配置:
头部:勾选
非空记录:勾选
编码:UTF-8

工作表配置:
目标工作表:Sheet1
读取范围:Sheet1 中的非空记录
字段来源:Sheet1 第一行

2.13 获取 Excel 表头字段

实验步骤

在“Excel 输入”组件中切换到“字段”标签页,通过“获取来自头部的字段”功能,让平台自动读取 Sheet1 第一行内容并解析为字段信息。

字段解析完成后,检查字段名称和字段类型是否正确。确认无误后保存 Excel 输入组件配置。

在这里插入图片描述

配置要点

字段来源:Excel 表头
表头位置:Sheet1 第一行
字段获取方式:来自头部的字段
字段名称:自动解析
字段类型:自动识别
字段验证重点:字段名、字段类型、空字段、乱码情况

2.14 筛选 education 和 employment 字段

实验步骤

在“Excel 输入”组件后添加“字段选择”组件,再添加“空操作(什么也不做)”组件。

流程结构如下:

Excel 输入
→ 字段选择
→ 空操作(什么也不做)

在这里插入图片描述

打开“字段选择”组件配置窗口,获取上游 Excel 输入组件传递的全部字段。根据后续分析需要,仅保留 educationemployment 两个字段,其他字段不再输出。

在这里插入图片描述

配置要点

组件名称:字段选择
上游组件:Excel 输入
下游组件:空操作(什么也不做)
字段处理类型:字段保留
保留字段:education、employment
输出字段数量:2
连接类型:主输出步骤

2.15 运行 Excel 读取与字段筛选流程

实验步骤

完成 Excel 输入和字段选择配置后,运行整个转换流程。
在这里插入图片描述

流程运行完成后,查看执行结果,确认 Excel 输入、字段选择和空操作组件均执行成功。随后预览“空操作(什么也不做)”组件的输出数据,检查最终结果中是否只包含 educationemployment 两个字段。
在这里插入图片描述


第三部分:实验结果

3.1 CSV 项目绩效加工结果

CSV 项目数据加工流程成功运行后,在文件库中生成了新的输出文件:

porject_output.csv

该文件包含原始项目数据,同时新增了两个字段:

diff_date
performance

其中,diff_date 表示项目执行天数,performance 表示根据执行天数生成的绩效等级。

绩效判断规则如下:

diff_date 范围 performance
0 ≤ x < 30 excellent
30 ≤ x < 180 very good
180 ≤ x < 360 good
x ≥ 360 poor

从输出结果可以看出,日期差计算和绩效等级判断均已生效,说明 CSV 文件读取、字段传递、计算器处理、数值范围判断和文件输出流程正常。


3.2 文本文件字段筛选结果

文本文件 usa_201209.txt 成功读取后,平台能够按照英文分号 ; 正确拆分字段。

经过字段选择组件处理后,Venue 字段被移除,其他足球比赛数据字段正常保留。

验证结果说明:

1. 文本文件可以通过 CSV 文件输入组件读取;
2. 分号分隔符配置正确;
3. 文件头部字段解析正确;
4. Venue 字段移除成功;
5. 数据能够完整传递到空操作组件。

3.3 Excel 字段筛选结果

Excel 文件 custinfo.xlsx 成功读取后,平台能够正确识别 Sheet1 工作表中的表头字段。

经过字段选择组件处理后,最终输出结果中只保留:

education
employment

这说明 Excel 文件读取、工作表选择、表头字段解析和字段筛选流程均已正常完成。


3.4 实验结果汇总

本次实验共完成三个 ETL 转换流程。

流程 输入文件 主要处理内容 输出结果
CSV 项目绩效加工 project.csv / porject.csv 日期差计算、绩效等级判断 porject_output.csv
文本文件读取验证 usa_201209.txt 分号解析、移除 Venue 字段 空操作预览结果
Excel 字段筛选 custinfo.xlsx 读取 Sheet1、保留指定字段 空操作预览结果

从最终结果看,三类文件数据都可以在助睿 ETL 平台中完成读取、解析、字段处理和结果验证。


第四部分:问题与解决

4.1 CSV 或文本文件字段无法正确拆分

问题现象:
预览数据时,多个字段挤在同一列中,字段数量明显不正确。

问题原因:
列分隔符配置错误。CSV 文件通常使用英文逗号分隔,而 usa_201209.txt 使用英文分号分隔。如果分隔符与文件实际格式不一致,字段就无法正确拆分。

解决方法:
根据文件实际内容设置分隔符。CSV 文件使用英文逗号时,分隔符配置为 ,;文本文件使用英文分号时,分隔符配置为 ;。配置后重新获取字段并预览验证。


4.2 日期差计算结果为空或报错

问题现象:
计算器组件运行后,diff_date 字段为空,或者流程执行时出现类型转换错误。

问题原因:
start_dateend_date 字段没有被正确识别为日期类型,或者日期格式不符合组件识别规则。

解决方法:
检查 start_dateend_date 字段的类型和格式。必要时先完成字段类型转换,再使用计算器组件进行日期差计算。


4.3 数值范围组件没有生成 performance 字段

问题现象:
流程运行成功,但输出文件中没有 performance 字段,或者该字段为空。

问题原因:
数值范围组件中的输入字段、输出字段或区间规则配置不完整。常见情况包括输入字段没有选择 diff_date,输出字段名称未填写,或者最后一个区间没有覆盖到较大的数值范围。

解决方法:
确认数值范围组件中输入字段为 diff_date,输出字段为 performance,并完整配置四个绩效区间。


4.4 Excel 没有正确识别字段名

问题现象:
Excel 输入组件读取后,字段名显示异常,或者第一行数据被当成普通数据。

问题原因:
内容配置中没有启用“头部”选项,导致平台没有将第一行识别为字段名称。

解决方法:
在 Excel 输入组件的内容配置中启用“头部”,并重新从表头获取字段。


4.5 Excel 读取到了错误的工作表

问题现象:
Excel 数据预览为空,或者字段和预期不一致。

问题原因:
Excel 文件中可能存在多个工作表,如果没有指定 Sheet1,组件可能读取到错误工作表。

解决方法:
在工作表配置中指定 Sheet1,并基于该工作表重新获取字段和预览数据。


第五部分:实验总结

本次实验使用助睿 ETL 数据集成平台完成了 CSV、文本文件和 Excel 文件三类常见文件数据源的读取与基础处理。

在 CSV 文件处理中,我们读取项目数据,计算项目开始日期和结束日期之间的天数差,并根据天数区间生成绩效等级,最后输出新的 CSV 文件。这个流程完整覆盖了文件读取、字段计算、分类判断和结果输出。

在文本文件处理中,我们使用“CSV 文件输入”组件读取 .txt 文件。实验说明,只要文本文件内部具有稳定的分隔符结构,也可以按照结构化数据进行解析。通过移除 Venue 字段并预览结果,可以验证字段筛选是否生效。

在 Excel 文件处理中,我们通过“Excel 输入”组件读取 custinfo.xlsx,选择 Sheet1 工作表,并从表头获取字段。随后只保留 educationemployment 字段,为后续购房者信息分析和建模做了基础准备。

整体来看,本次实验帮助我熟悉了助睿 ETL 平台中文件数据抽取的基础流程,也进一步理解了 ETL 中“抽取—转换—验证”的处理逻辑。后续进行商业数据分析、机器学习建模或可视化展示时,可以先通过类似流程完成数据预处理,为后续分析提供结构清晰、字段可用的数据基础。

Logo

一站式 AI 云服务平台

更多推荐