学生用户画像 · 考勤主题标签构建

基于“数智教育”大赛数据集 | 零代码实现考勤多维统计与画像标签落地

一、实验目的

本实验依托助睿数智(Uniplore)平台,设计并实现学生多维度考勤统计ETL转换流,掌握数据接入、关联、标签衍生、聚合统计及结果入库全流程。旨在解决传统人工Excel统计效率低、口径不统一等痛点,同时结合真实数据优化空值处理及字段标准化策略,输出精准的学生考勤主题标签,为校园考勤精细化管理与用户画像分析提供坚实的数据支撑。

二、实验环境

  • 实验平台:助容零代码在线实验平台
  • 数据科学产品:助睿数智 Uniplore(一站式覆盖数据接入、ETL处理、机器学习建模及可视化)
  • 数据集:“数智教育”大赛数据集(7张业务表),本次聚焦考勤主题,使用 3_kaoqin.csv、4_kaoqintype.csv、2_student_info.csv
  • 运行环境:具备数据库连接权限的计算机,MySQL云数据库(阿里云RDS)

三、实验范围

覆盖助睿ETL转换流全生命周期配置:多源数据接入(CSV→数据库)、多表关联(考勤+类型+学生信息)、考勤行为标签衍生(迟到/早退/请假/未穿校服)、多维度聚合统计、空值清洗、属性标准化(年级/住校/校区)及最终结果落地。重点验证数据关联准确性及统计指标一致性,确保转换流健壮运行。

四、数据与标签梳理

4.1 源数据说明(星型模型)

数据源表

核心作用

关键字段

考勤主表 (3_kaoqin)

存储每日打卡明细

学生ID(stu_id)、班级ID、考勤类型ID(ControllerID)、打卡时间、考勤描述

考勤类型码表 (4_kaoqintype)

标准化考勤事件名称

考勤类型ID(controller_id)、考勤事件名称(control_task_name)

学生信息表 (2_student_info)

提供基础属性与维度

学生ID、姓名、性别、出生日期、政治面貌、是否住校(bf_zhusu)、班级名称

4.2 标签体系说明

基础属性标签: 学生ID、姓名、班级ID/名称、性别、出生日期、政治面貌。
画像维度标签: 年级(从班级名提取)、是否住校(编码映射)、校区类型(新/老校区)。
考勤行为指标: 迟到次数、早退次数、请假次数、未穿校服次数。

4.3 核心统计口径

指标

统计逻辑

口径定义(关键规则)

迟到次数

COUNT(迟到/晚到 AND 非请假)

考勤事件名称包含“迟到”“晚到”,且排除请假记录

早退次数

COUNT(早退 AND 非请假)

考勤事件名称包含“早退”,同时排除请假类别

请假次数

COUNT(包含“请假”)

凡考勤事件名称中含“请假”关键词(事假/病假等)均计入

没穿校服次数

COUNT(包含“校服”)

考勤类型名称含“校服”[移动考勤]认定为违规

五、转换流整体设计

5.1 业务价值

替代人工统计,实现原始打卡记录→标准化考勤标签全自动处理;固化迟到/早退/请假/校服违规口径,产出年级/住校/校区等维度结果表,可灵活扩展新考勤类型,支撑学校考勤大屏、学生行为预警等场景。

5.2 核心处理逻辑

数据接入(考勤记录+类型码表+学生信息) → 排序关联补充事件名称 → JavaScript标记异常行为(迟到/早退/请假/校服) → 分组聚合统计各类异常次数 → 关联学生属性 → 字段选择/空值替换 → 住校映射+年级提取+校区判定 → 结果写入学生考勤标签表

六、实验步骤及关键操作记录

6.1 项目创建与数据准备

新建项目“学生用户画像标签构建”,在文件库中创建“数智教育数据集”目录,从公共空间导出3_kaoqin.csv、4_kaoqintype.csv、2_student_info.csv至该目录。随后在元数据中建立MySQL连接“团队私有数据库”,测试连通成功。

6.2 原始数据导入私有库

通过“执行SQL脚本”分别创建raw_attendance、raw_attendance_type、raw_student_info表,再使用“CSV文件输入”+“表输出”组件完成数据装载。其中考勤类型表注意列分隔符为制表符(TAB)、编码GB2312;学生信息表使用“字段选择”固化住校字段为Integer类型避免小数。

6.3 创建目标标签表

运行“执行一个SQL脚本”组件,创建student_attendance_stats,包含学生基础信息、年级、住校状态、校区类型以及迟到/早退/请假/未穿校服次数字段,主键自增并建立索引。

CREATE TABLE student_attendance_stats (
  id INT PRIMARY KEY AUTO_INCREMENT,
  student_id INT NOT NULL, student_name VARCHAR(50), class_id INT, class_name VARCHAR(50),
  grade VARCHAR(10), gender VARCHAR(10), political_status VARCHAR(20),
  is_boarder VARCHAR(10), campus_type VARCHAR(10),
  late_count INT DEFAULT 0, early_leave_count INT DEFAULT 0,
  leave_count INT DEFAULT 0, uniform_violate_count INT DEFAULT 0
);

6.4 行为标签衍生:JavaScript脚本标记异常考勤

在记录集连接(考勤主表+类型表)后,添加“JavaScript代码”组件,通过关键词匹配生成 isLate, isEarly, isLeave, isNoUniform 二进制标记(1/0),并排除请假对迟到早退的影响。

6.5 分组聚合统计

使用“分组”组件,按 stu_id, stu_name, cla_id, cla_name 分组,对迟到标记、早退标记、请假标记、未穿校服标记进行 SUM 聚合,得到每个学生的各类异常考勤次数。

6.6 关联学生信息及空值/标准化处理

通过第二次记录集连接补全性别、出生日期、政治面貌、住校状态等属性。随后使用“替换NULL值”组件将性别/出生日期/政治面貌/住校状态空值替换为“未知”。住校状态映射:“值映射”组件将0→“否”,1→“是”;年级提取:利用JavaScript识别班级名中的“高一/高二/高三”;校区类型判定:以“白-”/“东-”开头为新校区,其余为老校区。

6.7 结果入库与工作流执行

最终“表输出”组件将数据写入student_attendance_stats,启用“裁剪表”避免重复。点击执行后监控日志,所有组件绿色对勾,无报错。

七、实验结果

成功构建学生考勤主题标签表,转换流自动化产出多维度考勤统计结果,部分数据示例如下:

学生ID

姓名

班级

年级

住校

校区

迟到次数

请假次数

未穿校服次数

210122

李思源

高二(5)班

高二

新校区

2

1

0

210305

王雅萱

高一(2)班

高一

老校区

5

2

3

210478

张峻豪

高三(1)班

高三

新校区

0

0

1

经数据验证,统计口径与业务规则完全匹配(迟到排除请假、校服违规正确识别),转换流稳定高效,单次执行可处理全校学期考勤数据,满足校园考勤画像分析需求。

八、实验总结

本次实验依托助睿零代码ETL平台,完整实现了从原始考勤数据到学生考勤主题标签的自动化构建,主要收获如下:

  • ETL全链路掌握:熟练运用表输入、排序记录、记录集连接、JavaScript组件、分组聚合、值映射、表输出等核心组件,理解数据流顺序及排序必要性。
  • 复杂业务逻辑转化:通过脚本与规则组合实现迟到/早退/请假/校服违规的精准识别,并排除请假对迟到早退的干扰,确保指标可信。
  • 数据质量与标准化:针对真实数据空值、编码、文本解析等挑战,采用替换NULL、值映射、班级名称正则提取等手段,提升了标签表规范性。
  • 可扩展性与应用价值:构建的学生考勤标签表可直接对接可视化看板或学生画像系统,支持按年级、住校、校区等多维度下钻分析,为校园管理提供数据决策依据。

未来可进一步融合成绩、消费数据,构建更全面的学生综合素质画像,助力“数智教育”场景落地。



 

Logo

一站式 AI 云服务平台

更多推荐