保姆级教程｜助睿 ETL 学生用户画像 - 考勤主题标签构建全流程（零代码 + 图文详解）

校园考勤数据分散在多张表中，传统人工 Excel 统计效率低、口径不统一、难深度分析。本次实验基于 “数智教育” 大赛数据集，用助睿零代码 ETL 平台，完成学生考勤多维度标签构建，替代人工流程、固化统计口径，输出标准化考勤统计台账。本次实验基于助睿零代码 ETL 平台，完成学生考勤主题标签全流程构建，从 3 张原始数据表中，加工出含15 个字段的标准化考勤标签表，实现 4 类异常考勤自动统计、3

嗯.812

27人浏览 · 2026-05-19 11:30:33

嗯.812 · 2026-05-19 11:30:33 发布

一、实验概述

1.1 实验背景

校园考勤数据分散在多张表中，传统人工 Excel 统计效率低、口径不统一、难深度分析。本次实验基于 “数智教育” 大赛数据集，用助睿零代码 ETL 平台，完成学生考勤多维度标签构建，替代人工流程、固化统计口径，输出标准化考勤统计台账。

1.2 实验目的

掌握助睿 ETL 全流程：数据接入→关联→清洗→标签衍生→聚合→结果入库
熟练使用表输入、记录集连接、JavaScript 脚本、分组、字段选择、表输出等核心组件
构建学生考勤标签体系：统计迟到 / 早退 / 请假 / 没穿校服次数，补充年级、校区、住校状态等画像维度

1.3 实验环境

平台：助睿数智（Uniplore）零代码 ETL 平台
地址：https://lab.guilian.cn/
数据库：MySQL（团队私有数据库）
核心数据表（3 张）：
- 考勤主表（3_kaoqin.csv）：学生每日打卡明细
- 考勤类型表（4_kaoqintype.csv）：考勤行为标准化名称
- 学生信息表（2_student_info.csv）：学生基础属性

二、数据与标签梳理

2.1 源数据关系（星型模型）

事实表：考勤主表（记录每次考勤行为）
维度表：考勤类型表（定义行为名称）
属性表：学生信息表（补充画像维度）

2.2 标签体系（3 大类）

基础属性标签：学生 ID、姓名、班级、性别、政治面貌、出生日期
画像维度标签：年级（从班级名提取）、是否住校（0/1 映射）、校区类型（新 / 老校区判定）
考勤行为标签：迟到次数、早退次数、请假次数、没穿校服次数

三、实验步骤（附截图说明）

步骤 1：创建项目与数据准备

登录平台→新建项目，命名 “学生用户画像 - 考勤主题标签构建”
文件库→新建 “数智教育数据集” 目录，导入 3 张核心 CSV 表
元数据→新建 MySQL 数据源（团队私有数据库），测试连接成功
执行 SQL 脚本，创建 3 张原始数据表（raw_attendance、raw_attendance_type、raw_student_info）
用 “CSV 文件输入 + 表输出”，将 3 张 CSV 数据导入对应原始表

步骤 2：创建目标标签表

新建转换流→命名 “创建学生考勤主题标签表”，用 “执行 SQL 脚本” 组件建表（student_attendance_stats），存储最终标签数据

步骤 3：数据接入（3 个表输入）

新建转换流→命名 “学生考勤主题标签”，拖拽 3 个 “表输入”，分别读取：

考勤记录（raw_attendance）
考勤类型（raw_attendance_type）
学生信息（raw_student_info）

步骤 4：多表关联（记录集连接）

考勤记录→排序记录（按 attendance_type_id、attendance_task_order_id 排序）
排序后考勤记录 + 考勤类型→左外连接（关联键：attendance_type_id、attendance_task_order_id）
学生信息→排序记录（按 stu_id 排序）
关联后考勤数据→排序记录（按 stu_id 排序）+ 学生信息→左外连接（关联键：stu_id）

步骤 5：考勤行为标签衍生（JavaScript 脚本）

拖拽 “JavaScript 代码” 组件，输入脚本，生成 4 类异常考勤二进制标记（1 = 是，0 = 否）：

迟到（isLate）：含 “迟到 / 晚到” 且非请假
早退（isEarly）：含 “早退” 且非请假
请假（isLeave）：含 “请假”
没穿校服（isNoUniform）：含 “校服”

步骤 6：指标聚合统计（分组）

拖拽 “分组” 组件，按stu_id、stu_name、cla_id、cla_name分组，SUM 聚合 4 类异常次数：

late_count=SUM(isLate)
early_count=SUM(isEarly)
leave_count=SUM(isLeave)
uniform_violate_count=SUM(isNoUniform)

步骤 7：字段清洗与空值处理

字段选择：移除冗余字段，保留核心标签字段
替换 NULL 值：性别、出生日期、政治面貌、是否住校空值替换为 “未知”

步骤 8：画像维度衍生（3 类）

住校状态映射：值映射组件，0→否、1→是
提取年级：JavaScript 脚本，班级名含 “高一 / 高二 / 高三”→对应年级，否则 “未知”
判定校区类型：JavaScript 脚本，班级名以 “白 -/ 东 -” 开头→新校区，否则老校区

步骤 9：结果入库（表输出）

拖拽 “表输出” 组件，配置：

数据库连接：团队私有数据库
目标表：student_attendance_stats
勾选 “裁剪表”（避免重复数据）
字段映射：流字段→目标表字段一一对应

步骤 10：执行转换流与结果验证

点击 “执行”→启动转换流，查看日志确认无报错
数据探查→打开 student_attendance_stats 表，查询验证数据：含学生基础信息、4 类考勤次数、3 类画像维度

四、实验核心知识点

ETL 全流程：零代码实现数据从原始 CSV→数据库→清洗关联→标签生成→统计落地，替代人工 Excel
多表关联逻辑：左外连接保证数据不丢失，关联前排序避免连接错误
标签构建思路：基础属性直接读取、行为标签脚本判断、维度标签衍生计算
数据质量控制：空值处理、冗余字段移除、编码映射，确保标签数据规范可用

五、实验总结

本次实验基于助睿零代码 ETL 平台，完成学生考勤主题标签全流程构建，从 3 张原始数据表中，加工出含15 个字段的标准化考勤标签表，实现 4 类异常考勤自动统计、3 类画像维度自动衍生。全程无需编写复杂代码，通过可视化拖拽完成，大幅降低数据分析门槛，为校园考勤管理、学生行为分析提供精准数据支撑，流程可复用至用户画像、消费分析等多场景。