📌 本文标签: #商业数据分析 #数据集成 #ETL

第一部分:实验背景

一、实验目的

ETL(Extract-Transform-Load)是数据加工处理的核心流程,而数据抽取则是整个ETL过程的第一步,也是最基础的一步。本次实验旨在帮助初学者掌握以下核心技能:

  • ✅ 掌握使用ETL平台读取CSV文件数据,并完成字段计算与绩效等级判定

  • ✅ 掌握使用ETL平台读取文本文件(TXT) 数据,完成字段筛选与数据验证

  • ✅ 掌握使用ETL平台读取Excel文件数据,完成目标字段提取

  • ✅ 理解数据抽取与预处理的全链路逻辑,为后续数据分析与建模奠定基础

二、实验环境

本次实验基于助睿数智一站式数据科学实验平台完成:

该平台支持从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码操作,适用于高校教学与企业数据加工。

三、数据准备

本次实验使用以下三个数据文件(均从助睿ETL平台的「公共空间」中获取):

文件名 文件类型 数据内容
project.csv CSV文件 项目信息数据(含开工日期、结束日期等)
usa_201209.txt 文本文件 足球比赛数据(含比赛日期、地点、主客队、比分等)
custinfo.xlsx Excel文件 购房者信息数据(含年龄、性别、学历、月薪等)

四、整体处理流程

第二部分:实验步骤

📂 步骤零:数据文件导入(通用前置操作)

在开始任何数据读取操作之前,需要先从「公共空间」将数据文件导出到项目「文件库」中。

【操作说明】

  1. 登录ETL平台,选择「数据集成」模块,找到「我的项目」,点击项目右侧的「…」按钮,选择「打开项目」

  2. 点击页面右侧的「公共空间」,切换至「数据资源」标签页

  3. 找到目标文件(如 project.csv),点击文件右侧的「更多」按钮,选择「导出」选项

  4. 在弹出的「导出数据资源到项目空间」窗口中,确认待导出文件,选择导出路径(如 / 根目录),点击「确定」完成导出

  5. 切换至左侧导航栏的「文件库」标签页,右键点击「刷新」,查看已导出的文件。

📂 任务一:从CSV文件中读取数据

本任务将实现对CSV文件数据的提取与加工:从CSV文件中提取项目信息数据,计算项目执行天数,并基于天数设定绩效等级。

步骤1.1:添加「CSV文件输入」组件
  1. 新建转换流,进入项目后切换到「组件库」标签页

  2. 拖拽「CSV文件输入」组件至画布

步骤1.2:配置CSV文件路径
  1. 双击「CSV文件输入」组件,在弹出的窗口中单击「浏览文件

  2. 通过文件浏览器组件选择目标文件 project.csv,点击确定

  3. 文件浏览器组件会自动解析文件路径并回填至组件中

步骤1.3:获取CSV字段结构

在「CSV文件输入」组件下方的数据区域点击右键,选择「获取字段」,组件会自动解析CSV文件结构并提取字段。

步骤1.4:预览数据验证

通过组件的「预览」功能查看数据读取结果,验证数据是否正常加载、字段是否解析正确。

步骤1.5:添加「字段选择」组件
  1. 拖拽「字段选择」组件至画布

  2. 建立从「CSV文件输入」到「字段选择」的连接

步骤1.6:配置字段选择
  1. 双击「字段选择」组件打开配置窗口

  2. 在默认的「选择和修改」标签页中右键点击,选择「获取字段」,获取上游传递的字段信息

  3. 本案例不涉及字段信息调整,保持默认即可

步骤1.7:添加「计算器」组件
  1. 拖拽「计算器」组件至画布

  2. 建立从「字段选择」到「计算器」的连接

  3. 在弹出的提示框中选择「主输出步骤」(正常数据处理链路)

步骤1.8:配置计算器——计算项目天数
  1. 双击「计算器」组件进入配置界面

  2. 点击「插入」新增一行配置

  3. 按以下配置填写:

配置项 填写内容
新字段 diff_date
计算 Date A - Date B (in days)
字段A end_date
字段B start_date
值类型 Integer

💡 业务含义:计算项目结束日期与开始日期之间的天数差,结果存入 diff_date 字段。

步骤1.9:添加「数值范围」组件
  1. 拖拽「数值范围」组件至画布

  2. 建立从「计算器」到「数值范围」的连接

步骤1.10:配置数值范围——绩效评级
  1. 双击「数值范围」组件打开配置窗口

  2. 在「输入字段」下拉列表中选择 diff_date

  3. 在「输出字段」处手动输入 performance

  4. 按以下规则配置区间:

下界(含) 上界(不含) 评价值
0 30 excellent
30 180 very good
180 360 good
360 poor

步骤1.11:添加「文本文件输出」组件
  1. 拖拽「文本文件输出」组件至画布

  2. 建立从「数值范围」到「文本文件输出」的连接

步骤1.12:配置输出文件
  1. 双击「文本文件输出」组件打开配置窗口

  2. 手动输入「文件名称」为 project_output

  3. 手动输入「扩展名」为 csv

  4. 切换至「内容」标签页,将「分隔符」修改为英文逗号 

  5. 切换至「字段」标签页,在字段列表区域右键单击,选择「获取字段」,自动加载上游所有字段。

  6. 点击「确认」保存

步骤1.13:运行转换流
  1. 确认整个转换工作流连接完整

  2. 点击画布左上角的「运行」按钮

  3. 在弹出的提示框中点击「启动」,运行整个转换流程

📂 任务二:从文本文件(TXT)中读取数据

本任务利用足球比赛数据,演示如何使用助睿ETL平台完成文本数据的标准化读取与字段筛选。

步骤2.1:添加「CSV文件输入」组件
  1. 新建转换,拖拽「CSV文件输入」组件至画布

步骤2.2:配置文本文件读取
  1. 双击组件打开配置窗口

  2. 在「文件名」栏点击「浏览文件」,选择 usa_201209.txt

  3. 将「列分隔符」设置为英文分号 ;(需与文件实际分隔符保持一致)

  4. 勾选「包含列头行」选项

⚠️ 特别注意:如果文件中使用的是中文分号 ,则需对应设置为中文分号,否则解析会出错!

步骤2.3:获取字段并预览
  1. 在下方数据预览区域右键单击,选择「获取字段

  2. 点击「确认」保存

  3. 选中组件,右键单击选择「预览输出」,查看数据读取结果。

步骤2.4:添加筛选组件
  1. 拖拽「字段选择」组件至画布

  2. 拖拽「空操作(什么也不做)」组件至画布

  3. 按 CSV文件输入 → 字段选择 → 空操作 的顺序建立连接

  4. 连接时均选择「主输出步骤

步骤2.5:配置字段移除
  1. 双击「字段选择」组件进入配置界面

  2. 切换至「移除」标签页

  3. 先「获取字段」,再「删除选中行」,仅保留需要移除的 Venue 字段

  4. 点击「确认」完成配置

💡 业务含义:移除比赛场地(Venue)字段,精简数据结构。

步骤2.6:运行并验证
  1. 点击「运行」→「启动」执行转换

  2. 选中「空操作」组件,右键单击选择「预览」,查看筛选后的数据

📂 任务三:从Excel文件中读取数据

本任务读取购房者信息数据(Excel文件),通过字段选择筛选出业务分析所需的目标字段。

步骤3.1:添加「Excel输入」组件
  1. 新建转换工作流,拖拽「Excel输入」组件至画布

步骤3.2:配置Excel文件
  1. 双击组件打开配置窗口,点击「浏览」选择 custinfo.xlsx

  2. 点击「增加」将文件添加至「选中的文件」中

步骤3.3:配置内容选项

切换至「内容」标签页,完成以下配置:

配置项 设置
勾选「头部 第一行为字段名称
勾选「非空记录 只读取非空记录
编码 选择「UTF-8」

步骤3.4:配置工作表
  1. 切换至「工作表」标签页

  2. 点击「获取工作表名称」按钮

  3. 在弹出的窗口中勾选 Sheet1,点击右向箭头添加至右栏

  4. 点击「确定」

步骤3.5:获取字段

切换至「字段」标签页,在空白区域右键单击选择「获取来自头部的字段」,组件自动解析字段信息并加载到字段列表中。

步骤3.6:添加筛选组件
  1. 拖拽「字段选择」和「空操作(什么也不做)」组件至画布

  2. 按 Excel输入 → 字段选择 → 空操作 建立连接,均选「主输出步骤」

步骤3.7:配置目标字段筛选
  1. 双击「字段选择」组件

  2. 在「选择和修改」标签页右键单击,选择「获取字段

  3. 仅保留目标字段 education 和 employment,移除其他字段

  4. 点击「确认」

步骤3.8:运行并验证
  1. 点击「运行」→「启动」执行转换

  2. 选中「空操作」组件,右键单击选择「预览输出

第三部分:实验结果

一、CSV文件处理结果

运行转换后,文件库中生成 project_output.csv 文件。该文件包含原始项目数据以及新增的计算字段:

新增字段 说明
diff_date 项目执行天数(结束日期 - 开工日期)
performance 绩效等级(excellent / very good / good / poor)

二、文本文件处理结果

通过「空操作」组件预览,可以看到 Venue 字段已被成功移除,数据流中仅保留比赛日期、主客队、比分等关键字段。

三、Excel文件处理结果

通过「空操作」组件预览,可以看到数据中仅保留 education 和 employment 两个字段,其他字段已被成功过滤。

结果验证

三个实验任务均成功完成了数据的抽取、转换与输出/验证:

  • ✅ CSV任务:成功读取 → 计算天数 → 绩效评级 → 输出CSV文件

  • ✅ 文本任务:成功读取TXT → 移除Venue字段 → 数据完整传递验证

  • ✅ Excel任务:成功读取XLSX → 筛选目标字段 → 数据完整传递验证

第四部分:问题与解决

问题1:CSV文件路径无法识别

  • 问题现象:在「CSV文件输入」组件中手动输入文件路径后,点击「获取字段」无反应或报错。

  • 问题原因:文件路径填写错误,或文件尚未从「公共空间」导出到项目的「文件库」中。

  • 解决方法:务必使用「浏览文件」按钮通过文件浏览器选择文件,让平台自动解析并回填路径,不要手动输入。同时确保已先将文件从公共空间导出到文件库。

问题2:文本文件解析乱码或字段错位

  • 问题现象:读取 usa_201209.txt 后,数据预览显示乱码,或字段全部挤在一列中。

  • 问题原因:列分隔符设置与文件实际分隔符不一致。

  • 解决方法:先打开文本文件查看实际使用的分隔符(本案例为英文分号 ;),然后在「CSV文件输入」组件中将「列分隔符」设置为对应的符号。如果文件使用中文分号 ,则需设置为中文分号。

问题3:Excel文件读取后字段为空

  • 问题现象:配置完Excel输入后,「获取来自头部的字段」无法获取到字段信息。

  • 问题原因:未正确配置工作表(Sheet),或未勾选「头部」选项。

  • 解决方法:确保在「工作表」标签页中点击「获取工作表名称」并正确选择目标Sheet;同时在「内容」标签页中勾选「头部」选项,指定第一行为字段名称。

问题4:组件连接时弹窗选择错误

  • 问题现象:建立组件连接时弹出了「主输出步骤 / 错误步骤」的选择提示框,不知道选哪个。

  • 问题原因:上游组件(如字段选择)涉及字段类型、长度转换,可能存在转换错误的数据。

  • 解决方法:在本次实验中,我们只处理正常数据,因此选择「主输出步骤」即可。错误步骤用于处理转换出错的数据。

第五部分:实验总结

一、收获与心得

通过本次实验,我收获了以下知识和技能:

  1. 掌握了三种主流文件格式的ETL读取方法

    • CSV文件:使用「CSV文件输入」组件,适用于结构化表格数据

    • 文本文件:同样使用「CSV文件输入」组件,关键是正确设置分隔符

    • Excel文件:使用「Excel输入」组件,需配置工作表和工作簿信息

  2. 理解了ETL数据加工的核心逻辑

    • 数据抽取 → 字段加工/筛选 → 结果输出,每个环节环环相扣

    • 「计算器」组件可实现字段间的复杂计算(如日期差)

    • 「数值范围」组件可基于规则自动生成分类标签

  3. 掌握了数据验证的方法

    • 「预览」功能可随时查看中间结果

    • 「空操作(什么也不做)」组件是测试数据流连通性的好帮手

  4. 建立了零代码数据处理的操作思维

    • 拖拽式组件编排降低了编码门槛

    • 可视化配置让数据处理逻辑一目了然

二、对助睿平台的评价

评价维度 感受
易用性 拖拽式操作、可视化配置,对初学者非常友好
功能完整性 覆盖从数据接入到输出的全链路,组件丰富
学习成本 界面直观,文档清晰,上手快
适用场景 适合高校教学、企业数据加工等多种场景

作为覆盖数据接入、ETL处理、机器学习建模到可视化分析的全链路Agentic零代码数据智能平台,让数据小白也能快速上手完成专业的数据处理任务。本次实验让我初步掌握了ETL核心基础能力,理解了数据预处理的核心逻辑,为后续数据分析、业务建模等场景筑牢了可靠的数据源基础——这些操作也是数据处理领域的必备入门技能。

📌 本文标签: #商业数据分析 #数据集成 #ETL

Logo

一站式 AI 云服务平台

更多推荐