学生考勤画像实战：从K-Means聚类到高危群体洞察，用数据读懂学生行为

一个极品ID

387人浏览 · 2026-05-28 00:28:04

一个极品ID · 2026-05-28 00:28:04 发布

前言

在校园管理中，考勤是反映学生行为习惯的重要窗口。但我们常常只能看到“谁迟到了”，却难以识别迟到背后的行为模式：是偶尔疏忽，还是长期纪律涣散？不同群体的违纪特征有何差异？

本次实践基于学生考勤记录，利用K-Means聚类算法自动划分考勤群体，并对重点关注的“纪律高危型”学生进行专项画像分析。整个过程在助睿数智（Uniplore）平台完成，实现了零代码数据加工、建模与可视化，非常适合数据分析教学与企业数据加工场景。

第一部分：实验一 — 考勤主题扩展标签构建（K-Means聚类）

一、实验说明

1. 实验目的

基于已完成的学生考勤主题标签表（student_attendance_stats），使用K-Means聚类算法对学生考勤行为进行自动分群。通过迟到、早退、请假、校服违规次数等核心指标，识别不同类型的考勤群体，生成可解释的考勤画像，为校园学生管理、行为分析提供精准数据支撑。

2. 实验环境

实验平台：助睿在线实验平台（https://lab.guilian.cn/）

本次实验使用助睿数智（Uniplore）作为一站式数据科学平台。该平台覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能。

本次实验主要用到以下功能平台：数据集成平台（助睿ETL）、人工智能平台（助睿AI）、助睿BI数据可视化探索平台、MySQL数据库。

前置数据：学生考勤主题标签表（student_attendance_stats）

二、实验数据

本次实验使用上一实验输出的学生考勤主题标签表，数据包含学生基础信息与考勤次数统计结果。

核心字段包括：学生ID、班级ID、迟到次数、早退次数、请假次数、没穿校服次数，以及年级、性别、是否住校等学生属性字段。

建模思路：聚焦考勤行为核心指标，将变量聚焦在迟到次数、早退次数、请假次数、校服违规次数四类行为维度，每个维度直接反映一类考勤特征，变量间业务含义独立、相关性低，可直接用于K-Means聚类建模。考勤次数均为非负整数，属于连续型变量，满足K-Means对数据类型的要求，无需进行哑变量编码或特殊转换。学生基础离散属性（性别、年级、住校状态等）不参与聚类建模，仅作为后续画像标签的辅助解释变量。

三、实验步骤

1. AI Studio聚类建模

（1）新建工作流

点击左边菜单“人工智能”，进入人工智能平台（AI Studio），进入人工智能模块用户空间。点击“+” - “新建工作流”。

人工智能模块页面主要包括菜单栏、控件列表以及画布三部分。

（2）数据导入

搜索“数据库加载”控件，拖拽至画布。

双击“数据库加载”控件，将团队私有数据库的信息填入，并点击“连接”。

在弹出的窗口中，点击下拉框，选择student_attendance_stats。

只需保留student_id、class_id、late_count、early_leave_count、leave_count、uniform_violate_count，其他字段跳过（skip）。为保留的字段选择对应的属性类型：student_id和class_id设为categorical，四项次数设为numeric。

右键数据库加载控件，点击“运行该控件”。运行成功后可右键点击“查看输出结果”。

（3）K-Means聚类建模

拖入“K-Means”组件，创建数据库加载组件到“K-Means”组件的连线。

双击“K-Means”组件，簇数量选择固定3个，其他保持不变。

右键运行该控件，查看输出结果，可以看到每个学生分别标记了对应的簇类C1/C2/C3。

（4）结果输出与保存

拖拽“数据入库”组件到画布，创建“K-Means”到“数据入库”的连线。

双击“数据入库”组件，选择“新建数据表”，表名称修改为“student_cluster”。

运行工作流，各控件均运行成功则工作流运行成功。

2. 分析聚类簇编号对应的考勤群体分类

点击左边菜单“助睿BI”，进入助睿BI平台。

（1）连接数据源

点击“数据源” -> “+” -> “新建连接” -> “MySQL”。输入数据库连接账号信息，点击“测试连接”。

点击新建的数据库目录，可以看到本次实验所用的表。

（2）构建数据集

点击“数据集” -> “+” -> “新建数据集”，输入名称后确认。

数据集创建成功后自动跳转配置页面，选择数据源和对应目录，将student_cluster拖拽至画布。

将字段备注修改为中文：学生ID、班级ID、迟到次数、早退次数、请假次数、没穿校服次数、聚类簇编号、轮廓系数。

点击“保存” -> “保存并发布”。

（3）制作工作表

点击“工作表” -> “+” -> “新建分组”，输入分组名称。

右键点击分组 -> “新建工作表”，输入工作表名称。

自动跳转到工作表设计页面，数据集选择“聚类簇编号数据集”，图表类型选择“探索器”。将“迟到次数”拖到X轴，“早退次数”拖到Y轴

点击图形设置，颜色区域点击“+”，选择“聚类簇编号”。信息区域点击“+”，选择“学生ID”，并将“学生ID（student_id）设置为”维度“。

设置聚类簇编号的颜色，切换对比强烈的主题。点击保存。

同样的方式，依次制作：迟到与请假次数的聚类簇分析、迟到与没穿校服次数的聚类簇分析、早退与请假次数的聚类簇分析、早退与没穿校服次数的聚类簇分析、请假与没穿校服次数的聚类簇分析。

（4）搭建仪表盘

点击“仪表盘” -> “+” -> “新建仪表盘”，输入名称。

拖拽一个文本组件到画布，输入“聚类簇分析”，设置字体颜色、大小、加粗、居中。

关闭组件窗口后切换到“工作表”，将制作的6个工作表都拖拽至画布中，调整大小和布局。

点击保存并发布。

（5）聚类群体画像解读

结合6组两两指标散点图的分布特征，为C1、C2、C3赋予业务含义：

C1（蓝色，自律模范型）：数据点高度集中在低频次区间，无明显离群值。这类学生出勤稳定、纪律意识强，是校园考勤行为的正面典型。

C2（青色，轻微波动型）：整体数据点集中在低频次区间，但分布略散，存在轻微的校服违规或请假行为。这类学生整体纪律可控，属于需要日常提醒的群体。

C3（黄色，纪律高危型）：数据点呈现明显“离群特征”，存在大量高频迟到记录，且伴随不同程度的早退、请假或校服违规行为。这类学生是校园管理中需要重点关注和干预的核心对象。

3. 将映射结果加入学生考勤主题标签表

（1）新增扩展字段

进入上一个实验在数据集成平台中创建的ETL项目，新建转换流“增加考勤主题扩展标签字段”。拖拽“执行一个SQL脚本”组件到画布，输入SQL：

ALTER TABLE student_attendance_stats
ADD COLUMN cluster VARCHAR(10) NULL DEFAULT NULL COMMENT '聚类簇编号',
ADD COLUMN attendance_group VARCHAR(30) NULL DEFAULT NULL COMMENT '考勤群体分类';

（2）聚类簇编号数据获取

创建转换流“增加考勤群体分类标签”。拖拽“表输入”组件，从student_cluster表获取数据。

（3）字段选择

拖拽“字段选择”组件，只保留student_id和Cluster字段。将student_id类型修改为Integer。

（4）聚类簇编号映射

拖拽“值映射”组件，将C1映射为“轻微波动型”，C2映射为“自律模范型”，C3映射为“纪律高危型”。

（5）更新学生考勤主题标签

拖拽“更新”组件，配置目标表为student_attendance_stats，通过student_id匹配，更新cluster和attendance_group字段。

运行转换流，执行成功即可。

（6）查看结果

在团队私有数据库中点击student_attendance_stats表并查询，可以看到cluster和attendance_group字段已成功更新。

4.实验总结

本次实验基于学生考勤次数数据，通过K-Means聚类算法完成学生考勤群体自动划分，精准划分出自律模范型、轻微波动型、纪律高危型三类学生群体。最终将聚类标签回写至原始考勤表，完成考勤主题扩展标签构建，为校园学生精细化管理提供了可靠的数据支撑。

第二部分：实验二 — 纪律高危型学生画像可视化分析

一、实验说明

基于已完成K-Means聚类并标注考勤群体的学生考勤主题标签表，本实验聚焦“纪律高危型”群体，分析其行为特征。该群体存在高频违纪、多维度异常叠加等行为，是校园考勤管理中风险最高、影响最大的群体。通过专项画像分析，可为精准干预提供数据支撑。

二、实验数据

数据源为student_attendance_stats学生考勤主题标签表，该表已包含聚类簇编号和考勤群体分类字段。

三、实验步骤

1. 进入助睿BI并构建数据集

点击左边菜单“助睿BI”。由于上一实验已创建数据源连接，可直接使用。

点击“数据集” -> “+” -> “新建数据集”，将student_attendance_stats拖拽至画布，保存并发布。

2. 制作工作表

点击“工作表” -> “+” -> “新建分组”，命名为“学生考勤主题分析”。

（1）整体概况指标卡

新建工作表“纪律高危型人数”，图表类型选择“指标卡”。将“学生ID”拖拽到值，聚合方式选“去重计数”。添加过滤器：attendance_group包含“纪律高危型”。

调整样式：边距16，标题字体16红色居中，值字体30红色粗体居中。保存并发布。

同样的方式，分别制作“纪律高危型男生人数”（筛选性别=男）、“纪律高危型女生人数”（筛选性别=女）、“纪律高危型未知性别人数”（筛选性别=未知）。

从整体指标卡可以看到，纪律高危型学生总人数为349人，其中男生34人、女生18人、未知性别197人。

（2）性别特征分析

新建工作表“纪律高危型学生男女人数占比”，图表类型选“饼图”。将“学生ID”拖到值（去重计数），“性别”拖到分类。过滤器排除“未知”，且attendance_group包含“纪律高危型”。

样式设置：标签显示百分比，内环大小50%。

新建工作表“全校学生男女人数占比”，同样制作饼图，只需排除“未知”，不加考勤群体过滤。

分析结论：排除未知性别数据后，全校男生占比53.03%，女生46.97%；纪律高危型中男生占比65.38%，女生34.62%。男生在高危群体中占比偏高，说明男生考勤违纪真实风险更高。

（3）年级特征分析

新建工作表“纪律高危型学生年级特征分析”，图表类型选“柱状图”。X轴放“年级”，Y轴放“学生ID”（去重计数）。过滤器添加attendance_group包含“纪律高危型”。

分析：高三年级高危人数最多，高一高二相对较少，可能与升学压力、课程安排调整有关。

（4）校区+年级交叉特征分析

新建工作表“纪律高危型学生校区类型与年级交叉特征分析”，在年级分布柱状图基础上，将“校区类型”拖拽到分组，形成堆叠柱状图。

分析：老校区各年级高危人数均高于新校区，高三老校区261人达峰值。新校区仅高一10人、高二19人，高三无学生分布。

（5）不同校区类型各年级学生人数

新建工作表“不同校区类型各年级学生人数”，制作堆叠柱状图，不加过滤器。

数据：高一老校区1021人/新校区148人，高二老校区1079人/新校区295人，高三老校区1883人/新校区无学生。

结合分析：高三老校区是高危行为绝对高发区，新校区整体风险可控。

（6）班级特征分析

新建工作表“纪律高危型学生班级特征分析”，图表类型选“水平条图”。Y轴放“班级名称”，X轴放“学生ID”（去重计数）。过滤器添加attendance_group包含“纪律高危型”。将学生ID按降序排序。

分析：高危学生高度集中在少数班级，高三13班最多（33人），其次为高三09班、高二13班等，呈现明显班级聚集性。

3. 搭建综合仪表盘

点击“仪表盘” -> “+” -> “新建仪表盘”，输入名称“纪律高危型学生用户画像分析”。

拖拽文本组件作为标题。切换到“工作表”，将以上制作的指标卡、饼图、柱状图、水平条图全部拖拽至画布，调整大小和布局。将分析结论用“文本”组件呈现在仪表盘中。

点击“发布”保存，点击“预览”全屏查看。点击“分享”可生成链接分享给他人。

访问地址：http://47.109.153.89/#/share/dashboard/2059654183614812160

四、纪律高危型学生画像分析总结

整体概况：纪律高危型学生存在高频迟到、早退、请假及校服违规行为，多维度违纪叠加，是校园考勤管理中最需重点关注的群体。

核心特征：

性别特征：男生为高危群体主体，占比显著高于女生
年级特征：高度集中于高年级，随年级升高明显上升
校区特征：高度集中在老校区，新校区风险较低
班级特征：存在明显班级聚集性，集中在少数管理薄弱班级

管理建议：

重点关注高年级男生群体，针对性开展考勤纪律教育
加强老校区高年级管理，优化通勤监督，营造严谨学风
整治高危学生集中班级，加强班主任监管力度
建立高危学生台账，家校联动，制定个性化矫正方案

结语

通过以上两个实验，我们完成了从K-Means聚类建模到高危群体专项画像分析的完整流程。整个过程在助睿数智平台上零代码实现，充分体现了数据驱动决策在校园精细化管理中的价值。

希望这篇实践文章能为正在学习商业数据分析的同学们提供参考。如有问题，欢迎交流讨论！

EazyDevelop社区

一站式 AI 云服务平台

更多推荐

搭建可操控电脑的 AI 助手，OpenClaw 完整部署流程与指令示范（含安装包）

EazyDevelop社区

怎么制作自己的小程序商城？这份从资质到上线的新手实操流程记得收好哦

EazyDevelop社区

怎么用豆包生成word文档？AI导出鸭一键解决复制粘贴乱码问题

EazyDevelop社区

所有评论(0)

查看更多评论

一个极品ID

@2501_92458115

已为社区贡献3条内容

学生考勤画像实战：从K-Means聚类到高危群体洞察，用数据读懂学生行为

一个极品ID

前言

第一部分：实验一 — 考勤主题扩展标签构建（K-Means聚类）

一、实验说明

1. 实验目的

2. 实验环境

二、实验数据

三、实验步骤

1. AI Studio聚类建模

2. 分析聚类簇编号对应的考勤群体分类

3. 将映射结果加入学生考勤主题标签表

4.实验总结

第二部分：实验二 — 纪律高危型学生画像可视化分析

一、实验说明

二、实验数据

三、实验步骤

1. 进入助睿BI并构建数据集

2. 制作工作表

3. 搭建综合仪表盘

四、纪律高危型学生画像分析总结

结语

所有评论(0)

温馨提示：您尚未绑定手机号

一个极品ID