学生用户画像 · 考勤主题标签构建
本文基于"数智教育"大赛数据集,利用助睿数智平台实现学生考勤多维统计与画像标签构建。实验通过零代码ETL流程,整合考勤记录、类型码表和学生信息三张数据表,运用JavaScript标记异常行为(迟到/早退/请假/未穿校服),并分组聚合统计。关键步骤包括数据清洗、属性标准化(年级/住校/校区映射)和结果入库,最终生成包含基础属性和考勤行为指标的标签表。该方案解决了传统人工统计效率低
学生用户画像 · 考勤主题标签构建
基于“数智教育”大赛数据集 | 零代码实现考勤多维统计与画像标签落地
一、实验目的
本实验依托助睿数智(Uniplore)平台,设计并实现学生多维度考勤统计ETL转换流,掌握数据接入、关联、标签衍生、聚合统计及结果入库全流程。旨在解决传统人工Excel统计效率低、口径不统一等痛点,同时结合真实数据优化空值处理及字段标准化策略,输出精准的学生考勤主题标签,为校园考勤精细化管理与用户画像分析提供坚实的数据支撑。
二、实验环境
- 实验平台:助容零代码在线实验平台
- 数据科学产品:助睿数智 Uniplore(一站式覆盖数据接入、ETL处理、机器学习建模及可视化)
- 数据集:“数智教育”大赛数据集(7张业务表),本次聚焦考勤主题,使用 3_kaoqin.csv、4_kaoqintype.csv、2_student_info.csv
- 运行环境:具备数据库连接权限的计算机,MySQL云数据库(阿里云RDS)
三、实验范围
覆盖助睿ETL转换流全生命周期配置:多源数据接入(CSV→数据库)、多表关联(考勤+类型+学生信息)、考勤行为标签衍生(迟到/早退/请假/未穿校服)、多维度聚合统计、空值清洗、属性标准化(年级/住校/校区)及最终结果落地。重点验证数据关联准确性及统计指标一致性,确保转换流健壮运行。
四、数据与标签梳理
4.1 源数据说明(星型模型)
|
数据源表 |
核心作用 |
关键字段 |
|
考勤主表 (3_kaoqin) |
存储每日打卡明细 |
学生ID(stu_id)、班级ID、考勤类型ID(ControllerID)、打卡时间、考勤描述 |
|
考勤类型码表 (4_kaoqintype) |
标准化考勤事件名称 |
考勤类型ID(controller_id)、考勤事件名称(control_task_name) |
|
学生信息表 (2_student_info) |
提供基础属性与维度 |
学生ID、姓名、性别、出生日期、政治面貌、是否住校(bf_zhusu)、班级名称 |
4.2 标签体系说明
基础属性标签: 学生ID、姓名、班级ID/名称、性别、出生日期、政治面貌。
画像维度标签: 年级(从班级名提取)、是否住校(编码映射)、校区类型(新/老校区)。
考勤行为指标: 迟到次数、早退次数、请假次数、未穿校服次数。
4.3 核心统计口径
|
指标 |
统计逻辑 |
口径定义(关键规则) |
|
迟到次数 |
COUNT(迟到/晚到 AND 非请假) |
考勤事件名称包含“迟到”“晚到”,且排除请假记录 |
|
早退次数 |
COUNT(早退 AND 非请假) |
考勤事件名称包含“早退”,同时排除请假类别 |
|
请假次数 |
COUNT(包含“请假”) |
凡考勤事件名称中含“请假”关键词(事假/病假等)均计入 |
|
没穿校服次数 |
COUNT(包含“校服”) |
考勤类型名称含“校服”[移动考勤]认定为违规 |
五、转换流整体设计
5.1 业务价值
替代人工统计,实现原始打卡记录→标准化考勤标签全自动处理;固化迟到/早退/请假/校服违规口径,产出年级/住校/校区等维度结果表,可灵活扩展新考勤类型,支撑学校考勤大屏、学生行为预警等场景。
5.2 核心处理逻辑
数据接入(考勤记录+类型码表+学生信息) → 排序关联补充事件名称 → JavaScript标记异常行为(迟到/早退/请假/校服) → 分组聚合统计各类异常次数 → 关联学生属性 → 字段选择/空值替换 → 住校映射+年级提取+校区判定 → 结果写入学生考勤标签表
六、实验步骤及关键操作记录
6.1 项目创建与数据准备
新建项目“学生用户画像标签构建”,在文件库中创建“数智教育数据集”目录,从公共空间导出3_kaoqin.csv、4_kaoqintype.csv、2_student_info.csv至该目录。随后在元数据中建立MySQL连接“团队私有数据库”,测试连通成功。

6.2 原始数据导入私有库
通过“执行SQL脚本”分别创建raw_attendance、raw_attendance_type、raw_student_info表,再使用“CSV文件输入”+“表输出”组件完成数据装载。其中考勤类型表注意列分隔符为制表符(TAB)、编码GB2312;学生信息表使用“字段选择”固化住校字段为Integer类型避免小数。





6.3 创建目标标签表
运行“执行一个SQL脚本”组件,创建student_attendance_stats,包含学生基础信息、年级、住校状态、校区类型以及迟到/早退/请假/未穿校服次数字段,主键自增并建立索引。
CREATE TABLE student_attendance_stats (
id INT PRIMARY KEY AUTO_INCREMENT,
student_id INT NOT NULL, student_name VARCHAR(50), class_id INT, class_name VARCHAR(50),
grade VARCHAR(10), gender VARCHAR(10), political_status VARCHAR(20),
is_boarder VARCHAR(10), campus_type VARCHAR(10),
late_count INT DEFAULT 0, early_leave_count INT DEFAULT 0,
leave_count INT DEFAULT 0, uniform_violate_count INT DEFAULT 0
);
6.4 行为标签衍生:JavaScript脚本标记异常考勤
在记录集连接(考勤主表+类型表)后,添加“JavaScript代码”组件,通过关键词匹配生成 isLate, isEarly, isLeave, isNoUniform 二进制标记(1/0),并排除请假对迟到早退的影响。



6.5 分组聚合统计
使用“分组”组件,按 stu_id, stu_name, cla_id, cla_name 分组,对迟到标记、早退标记、请假标记、未穿校服标记进行 SUM 聚合,得到每个学生的各类异常考勤次数。

6.6 关联学生信息及空值/标准化处理
通过第二次记录集连接补全性别、出生日期、政治面貌、住校状态等属性。随后使用“替换NULL值”组件将性别/出生日期/政治面貌/住校状态空值替换为“未知”。住校状态映射:“值映射”组件将0→“否”,1→“是”;年级提取:利用JavaScript识别班级名中的“高一/高二/高三”;校区类型判定:以“白-”/“东-”开头为新校区,其余为老校区。





6.7 结果入库与工作流执行
最终“表输出”组件将数据写入student_attendance_stats,启用“裁剪表”避免重复。点击执行后监控日志,所有组件绿色对勾,无报错。

七、实验结果
成功构建学生考勤主题标签表,转换流自动化产出多维度考勤统计结果,部分数据示例如下:
|
学生ID |
姓名 |
班级 |
年级 |
住校 |
校区 |
迟到次数 |
请假次数 |
未穿校服次数 |
|
210122 |
李思源 |
高二(5)班 |
高二 |
是 |
新校区 |
2 |
1 |
0 |
|
210305 |
王雅萱 |
高一(2)班 |
高一 |
否 |
老校区 |
5 |
2 |
3 |
|
210478 |
张峻豪 |
高三(1)班 |
高三 |
是 |
新校区 |
0 |
0 |
1 |
经数据验证,统计口径与业务规则完全匹配(迟到排除请假、校服违规正确识别),转换流稳定高效,单次执行可处理全校学期考勤数据,满足校园考勤画像分析需求。
八、实验总结
本次实验依托助睿零代码ETL平台,完整实现了从原始考勤数据到学生考勤主题标签的自动化构建,主要收获如下:
- ETL全链路掌握:熟练运用表输入、排序记录、记录集连接、JavaScript组件、分组聚合、值映射、表输出等核心组件,理解数据流顺序及排序必要性。
- 复杂业务逻辑转化:通过脚本与规则组合实现迟到/早退/请假/校服违规的精准识别,并排除请假对迟到早退的干扰,确保指标可信。
- 数据质量与标准化:针对真实数据空值、编码、文本解析等挑战,采用替换NULL、值映射、班级名称正则提取等手段,提升了标签表规范性。
- 可扩展性与应用价值:构建的学生考勤标签表可直接对接可视化看板或学生画像系统,支持按年级、住校、校区等多维度下钻分析,为校园管理提供数据决策依据。
未来可进一步融合成绩、消费数据,构建更全面的学生综合素质画像,助力“数智教育”场景落地。
更多推荐



所有评论(0)