保姆级教程!ETL三文件数据抽取全流程(CSV+Text+Excel,附完整踩坑详解)
📌 本文标签: #商业数据分析 #数据集成 #ETL
第一部分:实验背景
一、实验目的
ETL(Extract-Transform-Load)是数据加工处理的核心流程,而数据抽取则是整个ETL过程的第一步,也是最基础的一步。本次实验旨在帮助初学者掌握以下核心技能:
-
✅ 掌握使用ETL平台读取CSV文件数据,并完成字段计算与绩效等级判定
-
✅ 掌握使用ETL平台读取文本文件(TXT) 数据,完成字段筛选与数据验证
-
✅ 掌握使用ETL平台读取Excel文件数据,完成目标字段提取
-
✅ 理解数据抽取与预处理的全链路逻辑,为后续数据分析与建模奠定基础
二、实验环境
本次实验基于助睿数智一站式数据科学实验平台完成:
该平台支持从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码操作,适用于高校教学与企业数据加工。
三、数据准备
本次实验使用以下三个数据文件(均从助睿ETL平台的「公共空间」中获取):
| 文件名 | 文件类型 | 数据内容 |
|---|---|---|
project.csv |
CSV文件 | 项目信息数据(含开工日期、结束日期等) |
usa_201209.txt |
文本文件 | 足球比赛数据(含比赛日期、地点、主客队、比分等) |
custinfo.xlsx |
Excel文件 | 购房者信息数据(含年龄、性别、学历、月薪等) |
四、整体处理流程

第二部分:实验步骤
📂 步骤零:数据文件导入(通用前置操作)
在开始任何数据读取操作之前,需要先从「公共空间」将数据文件导出到项目「文件库」中。
【操作说明】
-
登录ETL平台,选择「数据集成」模块,找到「我的项目」,点击项目右侧的「…」按钮,选择「打开项目」
-
点击页面右侧的「公共空间」,切换至「数据资源」标签页
-
找到目标文件(如
project.csv),点击文件右侧的「更多」按钮,选择「导出」选项 -
在弹出的「导出数据资源到项目空间」窗口中,确认待导出文件,选择导出路径(如
/根目录),点击「确定」完成导出 -
切换至左侧导航栏的「文件库」标签页,右键点击「刷新」,查看已导出的文件。

📂 任务一:从CSV文件中读取数据
本任务将实现对CSV文件数据的提取与加工:从CSV文件中提取项目信息数据,计算项目执行天数,并基于天数设定绩效等级。
步骤1.1:添加「CSV文件输入」组件
-
新建转换流,进入项目后切换到「组件库」标签页
-
拖拽「CSV文件输入」组件至画布
步骤1.2:配置CSV文件路径
-
双击「CSV文件输入」组件,在弹出的窗口中单击「浏览文件」
-
通过文件浏览器组件选择目标文件
project.csv,点击确定 -
文件浏览器组件会自动解析文件路径并回填至组件中

步骤1.3:获取CSV字段结构
在「CSV文件输入」组件下方的数据区域点击右键,选择「获取字段」,组件会自动解析CSV文件结构并提取字段。

步骤1.4:预览数据验证
通过组件的「预览」功能查看数据读取结果,验证数据是否正常加载、字段是否解析正确。
步骤1.5:添加「字段选择」组件
-
拖拽「字段选择」组件至画布
-
建立从「CSV文件输入」到「字段选择」的连接
步骤1.6:配置字段选择
-
双击「字段选择」组件打开配置窗口
-
在默认的「选择和修改」标签页中右键点击,选择「获取字段」,获取上游传递的字段信息
-
本案例不涉及字段信息调整,保持默认即可

步骤1.7:添加「计算器」组件
-
拖拽「计算器」组件至画布
-
建立从「字段选择」到「计算器」的连接
-
在弹出的提示框中选择「主输出步骤」(正常数据处理链路)
步骤1.8:配置计算器——计算项目天数
-
双击「计算器」组件进入配置界面
-
点击「插入」新增一行配置
-
按以下配置填写:
| 配置项 | 填写内容 |
|---|---|
| 新字段 | diff_date |
| 计算 | Date A - Date B (in days) |
| 字段A | end_date |
| 字段B | start_date |
| 值类型 | Integer |
💡 业务含义:计算项目结束日期与开始日期之间的天数差,结果存入
diff_date字段。

步骤1.9:添加「数值范围」组件
-
拖拽「数值范围」组件至画布
-
建立从「计算器」到「数值范围」的连接
步骤1.10:配置数值范围——绩效评级
-
双击「数值范围」组件打开配置窗口
-
在「输入字段」下拉列表中选择
diff_date -
在「输出字段」处手动输入
performance -
按以下规则配置区间:
| 下界(含) | 上界(不含) | 评价值 |
|---|---|---|
| 0 | 30 | excellent |
| 30 | 180 | very good |
| 180 | 360 | good |
| 360 | ∞ | poor |

步骤1.11:添加「文本文件输出」组件
-
拖拽「文本文件输出」组件至画布
-
建立从「数值范围」到「文本文件输出」的连接
步骤1.12:配置输出文件
-
双击「文本文件输出」组件打开配置窗口
-
手动输入「文件名称」为
project_output -
手动输入「扩展名」为
csv -
切换至「内容」标签页,将「分隔符」修改为英文逗号

-
切换至「字段」标签页,在字段列表区域右键单击,选择「获取字段」,自动加载上游所有字段。

-
点击「确认」保存
步骤1.13:运行转换流
-
确认整个转换工作流连接完整
-
点击画布左上角的「运行」按钮
-
在弹出的提示框中点击「启动」,运行整个转换流程

📂 任务二:从文本文件(TXT)中读取数据
本任务利用足球比赛数据,演示如何使用助睿ETL平台完成文本数据的标准化读取与字段筛选。
步骤2.1:添加「CSV文件输入」组件
-
新建转换,拖拽「CSV文件输入」组件至画布
步骤2.2:配置文本文件读取
-
双击组件打开配置窗口
-
在「文件名」栏点击「浏览文件」,选择
usa_201209.txt -
将「列分隔符」设置为英文分号
;(需与文件实际分隔符保持一致) -
勾选「包含列头行」选项

⚠️ 特别注意:如果文件中使用的是中文分号
;,则需对应设置为中文分号,否则解析会出错!
步骤2.3:获取字段并预览
-
在下方数据预览区域右键单击,选择「获取字段」
-
点击「确认」保存
-
选中组件,右键单击选择「预览输出」,查看数据读取结果。

步骤2.4:添加筛选组件
-
拖拽「字段选择」组件至画布
-
拖拽「空操作(什么也不做)」组件至画布
-
按
CSV文件输入 → 字段选择 → 空操作的顺序建立连接 -
连接时均选择「主输出步骤」
步骤2.5:配置字段移除
-
双击「字段选择」组件进入配置界面
-
切换至「移除」标签页
-
先「获取字段」,再「删除选中行」,仅保留需要移除的
Venue字段 -
点击「确认」完成配置
💡 业务含义:移除比赛场地(Venue)字段,精简数据结构。

步骤2.6:运行并验证
-
点击「运行」→「启动」执行转换
-
选中「空操作」组件,右键单击选择「预览」,查看筛选后的数据

📂 任务三:从Excel文件中读取数据
本任务读取购房者信息数据(Excel文件),通过字段选择筛选出业务分析所需的目标字段。
步骤3.1:添加「Excel输入」组件
-
新建转换工作流,拖拽「Excel输入」组件至画布
步骤3.2:配置Excel文件
-
双击组件打开配置窗口,点击「浏览」选择
custinfo.xlsx -
点击「增加」将文件添加至「选中的文件」中

步骤3.3:配置内容选项
切换至「内容」标签页,完成以下配置:
| 配置项 | 设置 |
|---|---|
| 勾选「头部」 | 第一行为字段名称 |
| 勾选「非空记录」 | 只读取非空记录 |
| 编码 | 选择「UTF-8」 |

步骤3.4:配置工作表
-
切换至「工作表」标签页
-
点击「获取工作表名称」按钮
-
在弹出的窗口中勾选
Sheet1,点击右向箭头添加至右栏 -
点击「确定」

步骤3.5:获取字段
切换至「字段」标签页,在空白区域右键单击选择「获取来自头部的字段」,组件自动解析字段信息并加载到字段列表中。

步骤3.6:添加筛选组件
-
拖拽「字段选择」和「空操作(什么也不做)」组件至画布
-
按
Excel输入 → 字段选择 → 空操作建立连接,均选「主输出步骤」
步骤3.7:配置目标字段筛选
-
双击「字段选择」组件
-
在「选择和修改」标签页右键单击,选择「获取字段」
-
仅保留目标字段
education和employment,移除其他字段 -
点击「确认」

步骤3.8:运行并验证
-
点击「运行」→「启动」执行转换
-
选中「空操作」组件,右键单击选择「预览输出」

第三部分:实验结果
一、CSV文件处理结果
运行转换后,文件库中生成 project_output.csv 文件。该文件包含原始项目数据以及新增的计算字段:
| 新增字段 | 说明 |
|---|---|
diff_date |
项目执行天数(结束日期 - 开工日期) |
performance |
绩效等级(excellent / very good / good / poor) |
二、文本文件处理结果
通过「空操作」组件预览,可以看到 Venue 字段已被成功移除,数据流中仅保留比赛日期、主客队、比分等关键字段。
三、Excel文件处理结果
通过「空操作」组件预览,可以看到数据中仅保留 education 和 employment 两个字段,其他字段已被成功过滤。
结果验证
三个实验任务均成功完成了数据的抽取、转换与输出/验证:
-
✅ CSV任务:成功读取 → 计算天数 → 绩效评级 → 输出CSV文件
-
✅ 文本任务:成功读取TXT → 移除Venue字段 → 数据完整传递验证
-
✅ Excel任务:成功读取XLSX → 筛选目标字段 → 数据完整传递验证
第四部分:问题与解决
问题1:CSV文件路径无法识别
-
问题现象:在「CSV文件输入」组件中手动输入文件路径后,点击「获取字段」无反应或报错。
-
问题原因:文件路径填写错误,或文件尚未从「公共空间」导出到项目的「文件库」中。
-
解决方法:务必使用「浏览文件」按钮通过文件浏览器选择文件,让平台自动解析并回填路径,不要手动输入。同时确保已先将文件从公共空间导出到文件库。
问题2:文本文件解析乱码或字段错位
-
问题现象:读取
usa_201209.txt后,数据预览显示乱码,或字段全部挤在一列中。 -
问题原因:列分隔符设置与文件实际分隔符不一致。
-
解决方法:先打开文本文件查看实际使用的分隔符(本案例为英文分号
;),然后在「CSV文件输入」组件中将「列分隔符」设置为对应的符号。如果文件使用中文分号;,则需设置为中文分号。
问题3:Excel文件读取后字段为空
-
问题现象:配置完Excel输入后,「获取来自头部的字段」无法获取到字段信息。
-
问题原因:未正确配置工作表(Sheet),或未勾选「头部」选项。
-
解决方法:确保在「工作表」标签页中点击「获取工作表名称」并正确选择目标Sheet;同时在「内容」标签页中勾选「头部」选项,指定第一行为字段名称。
问题4:组件连接时弹窗选择错误
-
问题现象:建立组件连接时弹出了「主输出步骤 / 错误步骤」的选择提示框,不知道选哪个。
-
问题原因:上游组件(如字段选择)涉及字段类型、长度转换,可能存在转换错误的数据。
-
解决方法:在本次实验中,我们只处理正常数据,因此选择「主输出步骤」即可。错误步骤用于处理转换出错的数据。
第五部分:实验总结
一、收获与心得
通过本次实验,我收获了以下知识和技能:
-
掌握了三种主流文件格式的ETL读取方法
-
CSV文件:使用「CSV文件输入」组件,适用于结构化表格数据
-
文本文件:同样使用「CSV文件输入」组件,关键是正确设置分隔符
-
Excel文件:使用「Excel输入」组件,需配置工作表和工作簿信息
-
-
理解了ETL数据加工的核心逻辑
-
数据抽取 → 字段加工/筛选 → 结果输出,每个环节环环相扣
-
「计算器」组件可实现字段间的复杂计算(如日期差)
-
「数值范围」组件可基于规则自动生成分类标签
-
-
掌握了数据验证的方法
-
「预览」功能可随时查看中间结果
-
「空操作(什么也不做)」组件是测试数据流连通性的好帮手
-
-
建立了零代码数据处理的操作思维
-
拖拽式组件编排降低了编码门槛
-
可视化配置让数据处理逻辑一目了然
-
二、对助睿平台的评价
| 评价维度 | 感受 |
|---|---|
| 易用性 | 拖拽式操作、可视化配置,对初学者非常友好 |
| 功能完整性 | 覆盖从数据接入到输出的全链路,组件丰富 |
| 学习成本 | 界面直观,文档清晰,上手快 |
| 适用场景 | 适合高校教学、企业数据加工等多种场景 |
作为覆盖数据接入、ETL处理、机器学习建模到可视化分析的全链路Agentic零代码数据智能平台,让数据小白也能快速上手完成专业的数据处理任务。本次实验让我初步掌握了ETL核心基础能力,理解了数据预处理的核心逻辑,为后续数据分析、业务建模等场景筑牢了可靠的数据源基础——这些操作也是数据处理领域的必备入门技能。
📌 本文标签: #商业数据分析 #数据集成 #ETL
更多推荐



所有评论(0)