零代码ETL实战：学生考勤画像标签系统搭建

学校考勤管理是个老大难问题——数据散落在多张表里，统计口径全靠人工拍脑袋，每学期做汇总都得半天折腾。这次我们用"数智教育"竞赛的公开数据集，拿助睿数智（Uniplore）零代码ETL平台走一遍完整流水线：把3张核心表拉通、自动打标签、按学生维度聚合，最终产出一张标准化的考勤画像标签表。。数据集包含7张业务表：教师信息（）、学生信息（）、考勤主表（）、考勤类型码表（）、成绩表（）、考试类型码表（）、

w3548673252

155人浏览 · 2026-05-21 23:36:33

w3548673252 · 2026-05-21 23:36:33 发布

零代码ETL实战：学生考勤画像标签系统搭建

前言

学校考勤管理是个老大难问题——数据散落在多张表里，统计口径全靠人工拍脑袋，每学期做汇总都得半天折腾。这次我们用"数智教育"竞赛的公开数据集，拿助睿数智（Uniplore）零代码ETL平台走一遍完整流水线：把3张核心表拉通、自动打标签、按学生维度聚合，最终产出一张标准化的考勤画像标签表。

平台地址：https://lab.guilian.cn/，官网：https://www.uniplore.com/。

数据集包含7张业务表：教师信息（1_teacher.csv）、学生信息（2_student_info.csv）、考勤主表（3_kaoqin.csv）、考勤类型码表（4_kaoqintype.csv）、成绩表（5_chengji.csv）、考试类型码表（6_exam_type.csv）、消费表（7_consumption.csv）。本文只用考勤相关的前4张，核心就3张。

一、方案设计

1.1 三张核心表

考勤分析直接用星型模型，三张表各司其职：

考勤主表（3_kaoqin.csv）：事实表，存每天每个人的原始打卡记录。
考勤类型码表（4_kaoqintype.csv）：维度表，给考勤类型ID配上有意义的事件名称，标签全靠它。
学生信息表（2_student_info.csv）：属性表，用来补齐性别、住校状态等基础信息。

数据源表	作用	关键字段
考勤主表（3_kaoqin）	存储每日考勤原始明细	学生ID、班级ID、学期（qj_term）、打卡时间（DataDateTime）、考勤类型ID（ControllerID）、考勤描述（controler_name）
考勤类型码表（4_kaoqintype）	标准化考勤事件名称	考勤类型ID（controller_id）、考勤事件名称（control_task_name）
学生信息表（2_student_info）	补充学生基础属性	学生ID（bf_StudentID）、班级ID（cla_id）、姓名（bf_Name）、性别（bf_sex）、出生日期（bf_BornDate）、政治面貌（bf_policy）、是否住校（bf_zhusu）

1.2 标签体系

输出标签分三类：基础属性、衍生维度、行为统计。

基础属性标签

标签字段	数据来源	设计依据
学生ID	考勤主表 / 学生信息表	唯一标识，关联用
学生姓名	考勤主表 / 学生信息表	方便查阅核对
班级ID	考勤主表 / 学生信息表	按班级出统计
班级名称	考勤主表 / 学生信息表	用于提取年级、校区类型
性别	学生信息表	分性别做考勤分析
出生日期	学生信息表	分年龄段做分析
政治面貌	学生信息表	按政治面貌分组统计

衍生维度标签

标签字段	衍生逻辑	设计依据
年级	从班级名称（cla_name）提取关键词	按年级分层管理
是否住校	映射 bf_zhusu 字段（1→"是"，0→"否"，空值→"未知"）	住校/走读作息差异大，分群分析
校区类型	班级名称前缀判断（"白-"或"东-"开头→新校区，其余→老校区）	新老校区对比分析

行为统计标签

标签字段	设计依据
迟到次数	时间管理能力与纪律意识核心指标
早退次数	同上
请假次数	区分正常缺勤 vs 违纪，不算在迟到早退里
没穿校服次数	日常行为规范考核

1.3 统计口径

为了保证统计结果不会因为理解偏差而翻车，所有口径先定死。

基础属性处理规则

字段	处理方式	说明
学生ID / 学生姓名 / 班级ID / 班级名称	直接读	从考勤主表取
性别 / 出生日期 / 政治面貌	空值替换	从学生信息表取，空的填"未知"

衍生维度处理规则

字段	处理方式	说明
年级	关键词匹配	班级名含"高一"→"高一"，“高二"→"高二”，“高三"→"高三”，其余→"未知"
是否住校	编码映射+空值替换	bf_zhusu=1→"是"，0→"否"，空→"未知"
校区类型	前缀判断	班级名以"白-“或"东-“开头→"新校区”，其他→"老校区”

行为指标统计规则

指标	统计逻辑	说明
迟到次数	COUNT（含"迟到"或"晚到"且不含"请假"）	排除请假，避免重复计
早退次数	COUNT（含"早退"且不含"请假"）	同上
请假次数	COUNT（含"请假"）	事假、病假全算，不跟迟到早退混淆
没穿校服次数	COUNT（含"校服"）	考勤类型里"校服[移动考勤]"就是没穿的记录

三个核心原则： 请假不算迟到/早退（正常缺勤 vs 违纪要分开）、请假全覆盖（无论什么类型都算）、校服关键词出现即违规。

1.4 ETL流水线架构

整条流水线按这个顺序走：拉数据 → 关联整合 → 标签标记 → 分组聚合 → 属性补齐 → 结果入库。全流程在助睿平台的可视化拖拽界面上完成，不写一行SQL以外的代码。

组件	作用
表输入	从数据库读原始表
排序记录	给数据排序，给记录集连接做准备
记录集连接	按关联字段做多表合并
字段选择	只留有用字段，去冗余
JavaScript脚本	关键词匹配，自动标记迟到/早退/请假/没校服
分组	按学生维度聚合，SUM出各类统计次数
替换NULL值	空字段统一填"未知"
值映射	编码值（0/1）转成可读文本（否/是）
表输出	加工完的数据写入结果表

二、搭建过程

2.1 准备工作：导入数据 & 建库建表

2.1.1 把CSV拉到私有文件库

先切到"文件库"，右键根目录"新建目录"。

![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=assets%2Fnetwork-asset- 在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

7cfe3a2f81414244835b5f422b24edcb-20260521221618-noy2obt.png&pos_id=img-AKpfnMP3-1779374731588)

目录名填"数智教育数据集"，确定。
在这里插入图片描述

去公共空间 → 数据资源。

在这里插入图片描述

找到 3_kaoqin.csv，点卡片右上角的"更多" → “导出”。

在这里插入图片描述

目标目录选刚才建的"数智教育数据集"，确定。

在这里插入图片描述

目录下应该已经有 3_kaoqin.csv 了。

在这里插入图片描述

如法炮制，把 4_kaoqintype.csv 和 2_student_info.csv 也都导出到同一个目录。

在这里插入图片描述

2.1.2 连接数据库

进"元数据"tab，右键"关系数据库" → “新建数据源”。

在这里插入图片描述