基于 Uniplore 助睿 ETL 的多类型文件数据抽取实验

苏七月

284人浏览 · 2026-06-18 11:31:41

苏七月 · 2026-06-18 11:31:41 发布

1 案例说明

ETL数据集成工作的首要核心环节，是从各类异构数据源中完成数据采集。数据采集工作落地难度较高，核心痛点在于数据源种类繁杂、存储格式不统一，适配处理逻辑存在较大差异。

在传统数据仓库的应用场景中，企业数据大多源自内部财务系统、ERP业务系统等事务型平台，这类数据多存储于MySQL、Oracle、SQL Server等关系型数据库中，行业常规做法是通过JDBC直连的方式快速抽取数据。但面对非关系型数据库，或是无适配驱动的特殊数据源时，直连抽取的方式将无法适用，数据采集难度会大幅增加。

除此之外，部分数据因归属外部供应商、合作客户，或部署在企业外网、防火墙外部，存在权限、物理位置的访问限制，无法通过数据库直连的方式获取。此时，文件数据交换就成为高效、便捷且适配性极强的数据采集方案。

本实训案例依托Uniplore助睿ETL数据集成平台，详细讲解平台内置的CSV、Text、Excel三类主流文件数据抽取组件的实操用法，手把手演示不同格式文件数据的快速解析、精准抽取与预处理流程，帮助使用者掌握文件类数据源的ETL基础处理能力。

2 实验环境

平台名称：助睿在线实验平台
访问地址：https://lab.guilian.cn/
使用产品：助睿数智（Uniplore）- AI驱动的一站式零代码数据智能服务平台系统
子平台：助睿ETL数据集成平台
产品官网：Uniplore iDIS-大数据智能全流程服务平台-BI数据可视化工具

该平台覆盖数据接入、ETL数据加工、AI机器学习建模、数据可视化展示全业务链路，全程支持零代码可视化拖拽操作，操作门槛低、实用性强，既适配高校大数据、数据挖掘相关课程的教学实训场景，也可满足企业日常数据加工、数据预处理的业务需求。

3 数据准备

本次实训所需的全部数据文件，均可在助睿ETL平台的「公共空间」资源库中获取，不同实训环节对应专属数据源文件，具体分配如下：

1. CSV文件数据读取实训：使用 project.csv 数据源文件；

2. 文本文件数据读取实训：使用足球比赛数据集 usa_201209.txt；

3. Excel文件数据读取实训：使用购房者信息数据集 custinfo.xlsx。

数据文件具体获取步骤如下：

登录助睿ETL数据集成平台，进入「数据集成」功能模块，打开「我的项目」列表，点击目标项目右侧的更多按钮（…），选择「打开项目」，进入项目操作页面；

点击页面右侧「公共空间」栏目，切换至「数据资源」标签页，在资源列表中找到 project.csv 文件，点击文件右侧更多按钮，选择「导出」功能；

在弹出的导出配置窗口中，确认待导出文件无误，自定义选择文件导出路径（默认根目录即可），点击「确定」，即可将数据源文件导出至项目文件库中；

点击左侧导航栏「文件库」，右键点击菜单处选择「刷新」，即可查看已成功导入的实训数据源文件。

4 从 CSV 文件中读取数据

本环节依托助睿ETL平台搭建数据处理工作流，完成CSV格式项目数据的抽取、清洗、计算与分级处理。首先读取project.csv中的原始项目数据，通过筛选核心字段、计算项目开工与结束的时间间隔，结合天数区间自动判定项目绩效等级，最终实现项目绩效数据的自动化处理与标准化输出。

整体处理流程：通过「CSV文件输入」组件采集原始数据，借助「字段选择」组件精简有效字段，利用「计算器」组件计算项目执行天数，再通过「数值范围」组件匹配规则生成绩效等级，最后通过文件输出组件导出最终处理结果。

具体实操步骤如下：

新建数据转换流，在项目页面切换至「组件库」，拖拽「CSV文件输入」组件至编辑画布，完成基础组件部署。

双击画布中的「CSV文件输入」组件，打开配置窗口，点击「浏览文件」，在文件浏览器中选中已导入的 project.csv 数据源文件，完成文件路径绑定。

在文件浏览器组件中选中需要读取的 CSV 文件「porject.csv」，点击确定，文件浏览器组件会自动解析文件路径，并回填至「CSV 文件输入」组件中，配置如下图所示：在组件下方的数据预览区域右键单击，选择「获取字段」，系统将自动解析CSV文件结构，批量提取文件内所有字段信息，完成数据结构适配。配置完成后，通过组件「预览」功能查看原始数据，核验文件读取状态、字段解析准确性，确保原始数据无异常。完成原始数据读取核验后，从组件库拖拽「字段选择」组件至画布，将「CSV文件输入」组件与「字段选择」组件进行连线，搭建数据流转链路。双击「字段选择」组件进入配置界面，在默认的「选择和修改」标签页右键点击空白区域，选择「获取字段」，自动同步上游CSV组件解析的所有字段数据。在「字段选择」组件的配置窗口中，选择和修改页签提供了字段管理功能，可对字段信息如名称、长度、精度等进行调整。在本节案例中，不涉及到字段信息的调整，所以这里保持默认即可，配置如下图所示：完成「字段选择」组件的配置后，拖拽「计算器」组件至画布，建立从「字段选择」组件到「计算器」组件的连接，此时弹出的提示框中有两个可选值：主输出步骤和错误步骤。主输出步骤是指正常数据的处理链路，错误步骤是错误数据的处理链路。因为字段选择组件涉及到字段信息的修改，字段类型、长度，数据在进行类型、长度等转换过程中会出错，这些出错的数据就会流入错误数据处理链路，而正常的数据就会流入主输出数据链路。在本节案例中，我们只处理正常数据，因此选择「主输出步骤」。配置如下图所示：双击「计算器」组件进入配置界面，点击「插入」新增一行配置，此时相当于增加一个数据计算逻辑。在「计算器」组件中，一个数据计算逻辑由新字段、计算公式、字段A/B/C等结构组成。新字段是指计算逻辑输出的字段，计算公式指数据的计算方法，字段A/B/C是指计算逻辑的输入数据。界面如下图所示：具体计算参数配置：新字段命名为diff_date，计算公式选择「Date A - Date B (in days)」，字段A选择end_date（结束日期），字段B选择start_date（开工日期），值类型设置为Integer（整数型），配置完成后点击确认，实现项目执行天数的自动计算。天数计算规则配置完成后，拖拽「数值范围」组件至画布，建立「计算器」组件与「数值范围」组件的数据流转连线。双击「数值范围」组件，配置绩效分级规则：输入字段选择diff_date（执行天数），输出字段命名为performance（绩效等级），按照业务标准设置区间规则：0≤天数＜30为excellent、30≤天数＜180为very good、180≤天数＜360为good、天数≥360为poor，完成后确认保存配置。拖拽「文本文件输出」组件至画布，连接「数值范围」组件与输出组件，搭建最终数据导出链路。双击「文本文件输出」组件打开组件配置窗口，完成文件输出路径、字段映射等相关配置界面如下图所示:

手动输入「文件名称」为 porject_output；

手动输入「扩展名」为 csv；

即通过「文本文件输出」组件将数据写入到porject_output.csv 文件中。切换至「内容」标签页，将文件分隔符修改为英文逗号，匹配常规CSV文件的通用分隔格式，保证输出文件可正常解析读取。切换至「字段」标签页，在字段列表区域右键单击，选择「获取字段」，自动加载上游组件传递的所有字段信息，即将上游组件传递的字段都写入到文件中；所有参数配置完成后，点击确认保存输出组件设置，完整的数据处理工作流搭建完成最终完整的CSV数据处理工作流视图如下：点击画布左上角「运行」按钮，在弹出的启动提示框中点击「启动」，执行完整的数据转换流程。运行结果如下图所示：流程执行完成后，项目文件库自动生成porject_output.csv结果文件，最终处理数据如下：

5 从文本文件中读取数据

本环节以足球比赛文本数据集为实训对象，依托助睿ETL平台完成TXT文本数据的标准化采集、字段精简与流程校验。数据集包含比赛日期、场地、主客队、比分等核心赛事信息，通过标准化操作完成原始文本数据的规整处理，剔除冗余字段，验证数据流转完整性，为后续赛事数据统计、比分分析等深度应用奠定数据基础。

核心实操逻辑分为三步：一是通过CSV输入组件适配文本分隔格式，完成TXT文件数据接入与解析；二是利用字段选择组件剔除无效字段，精简数据集结构；三是搭配空操作组件测试全流程数据连通性，保障数据流转稳定可用。

具体实操步骤如下：

新建空白数据转换流，从组件库拖拽「CSV文件输入」组件至编辑画布，用于读取文本格式数据源。

双击组件打开配置界面，点击浏览文件选中usa_201209.txt赛事文本文件，根据文件格式特点，将列分隔符设置为英文分号，勾选「包含列头行」选项，指定文件首行为字段名称，完成文本数据解析规则配置。在数据预览区域右键单击，选择「获取字段」，系统自动解析文本文件字段结构，完成数据结构适配，确认配置后保存设置。右键点击「CSV文件输入」组件，选择「预览输出」，核验文本数据读取效果、字段解析精度，确保原始数据无乱码、缺失问题。依次拖拽「字段选择」组件、「空操作（什么也不做）」组件至画布，按照「CSV文件输入→字段选择→空操作」的顺序搭建数据流转链路，两次连线均选择「主输出步骤」，完成整体流程框架搭建。双击「字段选择」组件，切换至「移除」标签页，右键获取上游全部字段，选中Venue字段并删除，剔除场地冗余字段，精简数据集维度，确认后保存配置。点击画布左上角的「运行」按钮，在弹出的提示框中点击「启动」，即可运行整个转换流程，执行结果如下图所示：选中「空操作（什么也不做）」组件，右键单击并选择「预览」，查看经过字段筛选后的数据输出结果，验证字段剔除是否生效、数据传递是否完整，结果如下图所示：

6 从 Excel 文件中读取数据

房地产购房决策受购房者个人属性、家庭情况、经济条件等多维度因素影响，原始购房数据集维度繁杂，直接用于建模分析易产生数据冗余、分析偏差等问题。因此在开展购房影响因素数据建模前，需对Excel格式的原始购房者数据进行采集、过滤与字段筛选，提取核心有效字段，完成数据预处理，为后续数据分析建模提供精准、精简的数据源。

本环节依托助睿ETL平台，读取custinfo.xlsx购房者信息数据集，通过Excel专属输入组件完成数据接入，结合字段选择组件筛选出学历、就业状态等核心分析字段，实现Excel数据的标准化预处理与流程校验。

具体实操步骤如下：

新建数据转换工作流，在组件库中拖拽「Excel输入」组件至编辑画布，用于解析读取Excel格式数据源。双击Excel输入组件，点击「浏览」按钮，选中项目文件库中的custinfo.xlsx购房者数据文件。再点击「增加」按钮将文件添加至「选中的文件」中，完成基础文件配置。即通过 Excel XLSX（Streaming）引擎解析和读取 custinfo.xlsx 文件。配置界面如下图所示：切换至「内容」标签页，完成相关配置：勾选「头部」「非空记录」，在「编码」下拉列表中选择「UTF-8」，即custinfo.xlsx 文件中第一行为字段名称，只读取文件中非空记录，且文件编码为UTF-8。配置界面如下图所示：切换至「工作表」标签页，点击页面下方的「获取工作表名称」按钮，此时组件将读取文件并获取文件的工作簿信息。配置界面如下图所示：在弹出的工作表选择窗口中，勾选该工作表前的复选框。点击两栏中间的右向箭头按钮，将选中的Sheet1工作表添加至右栏列表中，完成后点击「确定」按钮。此时组件只会读取工作簿Sheet1的数据。配置界面如下图所示：切换至「字段」标签页，右键点击空白区域，选择「获取来自头部的字段」，系统自动抓取表格首行内容，解析生成标准化字段结构将字段名称、数据类型等属性自动加载到字段列表中，点击「确认」按钮。配置界面如下图所示：从「组件库」中拖拽「字段选择」组件、「空操作（什么也不做）」组件至画布，按「Excel 输入」→「字段选择」→「空操作（什么也不做）」的顺序依次建立组件连接，在弹出的连接线类型选择提示框中，均选择「主输出步骤」，完整转换流程如下图所示：双击「字段选择」组件，在「选择和修改」标签页获取上游全部字段，仅保留education（学历）、employment（就业情况）两个核心分析字段，删除其余冗余字段，确认保存配置。点击画布左上角「运行-启动」，执行Excel数据预处理全流程。选中「空操作（什么也不做）」组件，右键单击并选择「预览输出」，查看经过 Excel 数据读取、字段筛选后的最终数据输出结果，验证目标字段筛选是否生效、数据传递是否完整，结果如下图所示：

7 实验总结与平台评价

7.1 实验收获

本次实训依托Uniplore助睿ETL平台，系统完成了CSV、TXT文本、Excel三类主流结构化文件的全流程数据预处理实操，全面掌握了文件类数据源的ETL核心处理逻辑与落地方法。通过分步实操，我熟练掌握了不同格式文件的专属数据接入方式，能够根据文件分隔符、编码、表头规则等属性精准配置组件参数，解决了异构文件数据解析适配的核心问题。

同时，我熟练掌握了字段筛选、数据计算、数值分级、数据输出、流程校验等核心预处理操作，能够根据业务需求精简数据集、自定义数据运算规则与分级标准，实现原始数据的标准化、精细化处理。