学生考勤画像实战:从K-Means聚类到高危群体洞察,用数据读懂学生行为
本实践基于学生考勤数据,在助睿数智(Uniplore)平台上完成从聚类建模到可视化分析的全流程。首先选取迟到、早退、请假、校服违规四项指标,利用K-Means算法(K=3)将学生自动划分为自律模范型、轻微波动型、纪律高危型三类。随后聚焦“纪律高危型”群体,从性别、年级、校区、班级四个维度进行专项画像分析,精准定位高危行为的高发区域与聚集班级。整个实验零代码实现,完整展示了从数据建模到业务洞察的技术
前言
在校园管理中,考勤是反映学生行为习惯的重要窗口。但我们常常只能看到“谁迟到了”,却难以识别迟到背后的行为模式:是偶尔疏忽,还是长期纪律涣散?不同群体的违纪特征有何差异?
本次实践基于学生考勤记录,利用K-Means聚类算法自动划分考勤群体,并对重点关注的“纪律高危型”学生进行专项画像分析。整个过程在助睿数智(Uniplore)平台完成,实现了零代码数据加工、建模与可视化,非常适合数据分析教学与企业数据加工场景。
第一部分:实验一 — 考勤主题扩展标签构建(K-Means聚类)
一、实验说明
1. 实验目的
基于已完成的学生考勤主题标签表(student_attendance_stats),使用K-Means聚类算法对学生考勤行为进行自动分群。通过迟到、早退、请假、校服违规次数等核心指标,识别不同类型的考勤群体,生成可解释的考勤画像,为校园学生管理、行为分析提供精准数据支撑。
2. 实验环境
实验平台:助睿在线实验平台(https://lab.guilian.cn/)
本次实验使用助睿数智(Uniplore)作为一站式数据科学平台。该平台覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能。
本次实验主要用到以下功能平台:数据集成平台(助睿ETL)、人工智能平台(助睿AI)、助睿BI数据可视化探索平台、MySQL数据库。
前置数据:学生考勤主题标签表(student_attendance_stats)
二、实验数据
本次实验使用上一实验输出的学生考勤主题标签表,数据包含学生基础信息与考勤次数统计结果。
核心字段包括:学生ID、班级ID、迟到次数、早退次数、请假次数、没穿校服次数,以及年级、性别、是否住校等学生属性字段。
建模思路:聚焦考勤行为核心指标,将变量聚焦在迟到次数、早退次数、请假次数、校服违规次数四类行为维度,每个维度直接反映一类考勤特征,变量间业务含义独立、相关性低,可直接用于K-Means聚类建模。考勤次数均为非负整数,属于连续型变量,满足K-Means对数据类型的要求,无需进行哑变量编码或特殊转换。学生基础离散属性(性别、年级、住校状态等)不参与聚类建模,仅作为后续画像标签的辅助解释变量。
三、实验步骤
1. AI Studio聚类建模
(1)新建工作流
点击左边菜单“人工智能”,进入人工智能平台(AI Studio),进入人工智能模块用户空间。点击“+” - “新建工作流”。
人工智能模块页面主要包括菜单栏、控件列表以及画布三部分。



(2)数据导入
搜索“数据库加载”控件,拖拽至画布。

双击“数据库加载”控件,将团队私有数据库的信息填入,并点击“连接”。

在弹出的窗口中,点击下拉框,选择student_attendance_stats。

只需保留student_id、class_id、late_count、early_leave_count、leave_count、uniform_violate_count,其他字段跳过(skip)。为保留的字段选择对应的属性类型:student_id和class_id设为categorical,四项次数设为numeric。
右键数据库加载控件,点击“运行该控件”。运行成功后可右键点击“查看输出结果”。

(3)K-Means聚类建模
拖入“K-Means”组件,创建数据库加载组件到“K-Means”组件的连线。

双击“K-Means”组件,簇数量选择固定3个,其他保持不变。

右键运行该控件,查看输出结果,可以看到每个学生分别标记了对应的簇类C1/C2/C3。

(4)结果输出与保存
拖拽“数据入库”组件到画布,创建“K-Means”到“数据入库”的连线。

双击“数据入库”组件,选择“新建数据表”,表名称修改为“student_cluster”。

运行工作流,各控件均运行成功则工作流运行成功。

2. 分析聚类簇编号对应的考勤群体分类
点击左边菜单“助睿BI”,进入助睿BI平台。

(1)连接数据源
点击“数据源” -> “+” -> “新建连接” -> “MySQL”。输入数据库连接账号信息,点击“测试连接”。



点击新建的数据库目录,可以看到本次实验所用的表。

(2)构建数据集
点击“数据集” -> “+” -> “新建数据集”,输入名称后确认。



数据集创建成功后自动跳转配置页面,选择数据源和对应目录,将student_cluster拖拽至画布。


将字段备注修改为中文:学生ID、班级ID、迟到次数、早退次数、请假次数、没穿校服次数、聚类簇编号、轮廓系数。

点击“保存” -> “保存并发布”。


(3)制作工作表
点击“工作表” -> “+” -> “新建分组”,输入分组名称。



右键点击分组 -> “新建工作表”,输入工作表名称。



自动跳转到工作表设计页面,数据集选择“聚类簇编号数据集”,图表类型选择“探索器”。将“迟到次数”拖到X轴,“早退次数”拖到Y轴


点击图形设置,颜色区域点击“+”,选择“聚类簇编号”。信息区域点击“+”,选择“学生ID”,并将“学生ID(student_id)设置为”维度“。




设置聚类簇编号的颜色,切换对比强烈的主题。点击保存。

同样的方式,依次制作:迟到与请假次数的聚类簇分析、迟到与没穿校服次数的聚类簇分析、早退与请假次数的聚类簇分析、早退与没穿校服次数的聚类簇分析、请假与没穿校服次数的聚类簇分析。





(4)搭建仪表盘
点击“仪表盘” -> “+” -> “新建仪表盘”,输入名称。


拖拽一个文本组件到画布,输入“聚类簇分析”,设置字体颜色、大小、加粗、居中。


关闭组件窗口后切换到“工作表”,将制作的6个工作表都拖拽至画布中,调整大小和布局。



点击保存并发布。
(5)聚类群体画像解读
结合6组两两指标散点图的分布特征,为C1、C2、C3赋予业务含义:
C1(蓝色,自律模范型):数据点高度集中在低频次区间,无明显离群值。这类学生出勤稳定、纪律意识强,是校园考勤行为的正面典型。
C2(青色,轻微波动型):整体数据点集中在低频次区间,但分布略散,存在轻微的校服违规或请假行为。这类学生整体纪律可控,属于需要日常提醒的群体。
C3(黄色,纪律高危型):数据点呈现明显“离群特征”,存在大量高频迟到记录,且伴随不同程度的早退、请假或校服违规行为。这类学生是校园管理中需要重点关注和干预的核心对象。
3. 将映射结果加入学生考勤主题标签表
(1)新增扩展字段
进入上一个实验在数据集成平台中创建的ETL项目,新建转换流“增加考勤主题扩展标签字段”。拖拽“执行一个SQL脚本”组件到画布,输入SQL:
ALTER TABLE student_attendance_stats
ADD COLUMN cluster VARCHAR(10) NULL DEFAULT NULL COMMENT '聚类簇编号',
ADD COLUMN attendance_group VARCHAR(30) NULL DEFAULT NULL COMMENT '考勤群体分类';




(2)聚类簇编号数据获取
创建转换流“增加考勤群体分类标签”。拖拽“表输入”组件,从student_cluster表获取数据。




(3)字段选择
拖拽“字段选择”组件,只保留student_id和Cluster字段。将student_id类型修改为Integer。



(4)聚类簇编号映射
拖拽“值映射”组件,将C1映射为“轻微波动型”,C2映射为“自律模范型”,C3映射为“纪律高危型”。



(5)更新学生考勤主题标签
拖拽“更新”组件,配置目标表为student_attendance_stats,通过student_id匹配,更新cluster和attendance_group字段。



运行转换流,执行成功即可。

(6)查看结果
在团队私有数据库中点击student_attendance_stats表并查询,可以看到cluster和attendance_group字段已成功更新。

4.实验总结
本次实验基于学生考勤次数数据,通过K-Means聚类算法完成学生考勤群体自动划分,精准划分出自律模范型、轻微波动型、纪律高危型三类学生群体。最终将聚类标签回写至原始考勤表,完成考勤主题扩展标签构建,为校园学生精细化管理提供了可靠的数据支撑。
第二部分:实验二 — 纪律高危型学生画像可视化分析
一、实验说明
基于已完成K-Means聚类并标注考勤群体的学生考勤主题标签表,本实验聚焦“纪律高危型”群体,分析其行为特征。该群体存在高频违纪、多维度异常叠加等行为,是校园考勤管理中风险最高、影响最大的群体。通过专项画像分析,可为精准干预提供数据支撑。
二、实验数据
数据源为student_attendance_stats学生考勤主题标签表,该表已包含聚类簇编号和考勤群体分类字段。
三、实验步骤
1. 进入助睿BI并构建数据集
点击左边菜单“助睿BI”。由于上一实验已创建数据源连接,可直接使用。
点击“数据集” -> “+” -> “新建数据集”,将student_attendance_stats拖拽至画布,保存并发布。



2. 制作工作表
点击“工作表” -> “+” -> “新建分组”,命名为“学生考勤主题分析”。


(1)整体概况指标卡
新建工作表“纪律高危型人数”,图表类型选择“指标卡”。将“学生ID”拖拽到值,聚合方式选“去重计数”。添加过滤器:attendance_group包含“纪律高危型”。





调整样式:边距16,标题字体16红色居中,值字体30红色粗体居中。保存并发布。

同样的方式,分别制作“纪律高危型男生人数”(筛选性别=男)、“纪律高危型女生人数”(筛选性别=女)、“纪律高危型未知性别人数”(筛选性别=未知)。



从整体指标卡可以看到,纪律高危型学生总人数为349人,其中男生34人、女生18人、未知性别197人。
(2)性别特征分析
新建工作表“纪律高危型学生男女人数占比”,图表类型选“饼图”。将“学生ID”拖到值(去重计数),“性别”拖到分类。过滤器排除“未知”,且attendance_group包含“纪律高危型”。




样式设置:标签显示百分比,内环大小50%。

新建工作表“全校学生男女人数占比”,同样制作饼图,只需排除“未知”,不加考勤群体过滤。


分析结论:排除未知性别数据后,全校男生占比53.03%,女生46.97%;纪律高危型中男生占比65.38%,女生34.62%。男生在高危群体中占比偏高,说明男生考勤违纪真实风险更高。
(3)年级特征分析
新建工作表“纪律高危型学生年级特征分析”,图表类型选“柱状图”。X轴放“年级”,Y轴放“学生ID”(去重计数)。过滤器添加attendance_group包含“纪律高危型”。




分析:高三年级高危人数最多,高一高二相对较少,可能与升学压力、课程安排调整有关。
(4)校区+年级交叉特征分析
新建工作表“纪律高危型学生校区类型与年级交叉特征分析”,在年级分布柱状图基础上,将“校区类型”拖拽到分组,形成堆叠柱状图。


分析:老校区各年级高危人数均高于新校区,高三老校区261人达峰值。新校区仅高一10人、高二19人,高三无学生分布。
(5)不同校区类型各年级学生人数
新建工作表“不同校区类型各年级学生人数”,制作堆叠柱状图,不加过滤器。
数据:高一老校区1021人/新校区148人,高二老校区1079人/新校区295人,高三老校区1883人/新校区无学生。

结合分析:高三老校区是高危行为绝对高发区,新校区整体风险可控。
(6)班级特征分析
新建工作表“纪律高危型学生班级特征分析”,图表类型选“水平条图”。Y轴放“班级名称”,X轴放“学生ID”(去重计数)。过滤器添加attendance_group包含“纪律高危型”。将学生ID按降序排序。




分析:高危学生高度集中在少数班级,高三13班最多(33人),其次为高三09班、高二13班等,呈现明显班级聚集性。
3. 搭建综合仪表盘
点击“仪表盘” -> “+” -> “新建仪表盘”,输入名称“纪律高危型学生用户画像分析”。

拖拽文本组件作为标题。切换到“工作表”,将以上制作的指标卡、饼图、柱状图、水平条图全部拖拽至画布,调整大小和布局。将分析结论用“文本”组件呈现在仪表盘中。




点击“发布”保存,点击“预览”全屏查看。点击“分享”可生成链接分享给他人。
访问地址:http://47.109.153.89/#/share/dashboard/2059654183614812160
四、纪律高危型学生画像分析总结
整体概况:纪律高危型学生存在高频迟到、早退、请假及校服违规行为,多维度违纪叠加,是校园考勤管理中最需重点关注的群体。
核心特征:
-
性别特征:男生为高危群体主体,占比显著高于女生
-
年级特征:高度集中于高年级,随年级升高明显上升
-
校区特征:高度集中在老校区,新校区风险较低
-
班级特征:存在明显班级聚集性,集中在少数管理薄弱班级
管理建议:
-
重点关注高年级男生群体,针对性开展考勤纪律教育
-
加强老校区高年级管理,优化通勤监督,营造严谨学风
-
整治高危学生集中班级,加强班主任监管力度
-
建立高危学生台账,家校联动,制定个性化矫正方案
结语
通过以上两个实验,我们完成了从K-Means聚类建模到高危群体专项画像分析的完整流程。整个过程在助睿数智平台上零代码实现,充分体现了数据驱动决策在校园精细化管理中的价值。
希望这篇实践文章能为正在学习商业数据分析的同学们提供参考。如有问题,欢迎交流讨论!
更多推荐




所有评论(0)