前言

在校园管理中,考勤是反映学生行为习惯的重要窗口。但我们常常只能看到“谁迟到了”,却难以识别迟到背后的行为模式:是偶尔疏忽,还是长期纪律涣散?不同群体的违纪特征有何差异?

本次实践基于学生考勤记录,利用K-Means聚类算法自动划分考勤群体,并对重点关注的“纪律高危型”学生进行专项画像分析。整个过程在助睿数智(Uniplore)平台完成,实现了零代码数据加工、建模与可视化,非常适合数据分析教学与企业数据加工场景。

第一部分:实验一 — 考勤主题扩展标签构建(K-Means聚类)

一、实验说明

1. 实验目的

基于已完成的学生考勤主题标签表(student_attendance_stats),使用K-Means聚类算法对学生考勤行为进行自动分群。通过迟到、早退、请假、校服违规次数等核心指标,识别不同类型的考勤群体,生成可解释的考勤画像,为校园学生管理、行为分析提供精准数据支撑。

2. 实验环境

实验平台:助睿在线实验平台(https://lab.guilian.cn/)

本次实验使用助睿数智(Uniplore)作为一站式数据科学平台。该平台覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能。

本次实验主要用到以下功能平台:数据集成平台(助睿ETL)、人工智能平台(助睿AI)、助睿BI数据可视化探索平台、MySQL数据库。

前置数据:学生考勤主题标签表(student_attendance_stats)

二、实验数据

本次实验使用上一实验输出的学生考勤主题标签表,数据包含学生基础信息与考勤次数统计结果。

核心字段包括:学生ID、班级ID、迟到次数、早退次数、请假次数、没穿校服次数,以及年级、性别、是否住校等学生属性字段。

建模思路:聚焦考勤行为核心指标,将变量聚焦在迟到次数、早退次数、请假次数、校服违规次数四类行为维度,每个维度直接反映一类考勤特征,变量间业务含义独立、相关性低,可直接用于K-Means聚类建模。考勤次数均为非负整数,属于连续型变量,满足K-Means对数据类型的要求,无需进行哑变量编码或特殊转换。学生基础离散属性(性别、年级、住校状态等)不参与聚类建模,仅作为后续画像标签的辅助解释变量。

三、实验步骤

1. AI Studio聚类建模

(1)新建工作流

点击左边菜单“人工智能”,进入人工智能平台(AI Studio),进入人工智能模块用户空间。点击“+” - “新建工作流”。

人工智能模块页面主要包括菜单栏、控件列表以及画布三部分。

图片

图片

图片

(2)数据导入

搜索“数据库加载”控件,拖拽至画布。

图片

双击“数据库加载”控件,将团队私有数据库的信息填入,并点击“连接”。

图片

在弹出的窗口中,点击下拉框,选择student_attendance_stats。

图片

只需保留student_id、class_id、late_count、early_leave_count、leave_count、uniform_violate_count,其他字段跳过(skip)。为保留的字段选择对应的属性类型:student_id和class_id设为categorical,四项次数设为numeric。

右键数据库加载控件,点击“运行该控件”。运行成功后可右键点击“查看输出结果”。

图片

(3)K-Means聚类建模

拖入“K-Means”组件,创建数据库加载组件到“K-Means”组件的连线。

图片

双击“K-Means”组件,簇数量选择固定3个,其他保持不变。

图片

右键运行该控件,查看输出结果,可以看到每个学生分别标记了对应的簇类C1/C2/C3。

图片

(4)结果输出与保存

拖拽“数据入库”组件到画布,创建“K-Means”到“数据入库”的连线。

图片

双击“数据入库”组件,选择“新建数据表”,表名称修改为“student_cluster”。

图片

运行工作流,各控件均运行成功则工作流运行成功。

图片

2. 分析聚类簇编号对应的考勤群体分类

点击左边菜单“助睿BI”,进入助睿BI平台。

图片

(1)连接数据源

点击“数据源” -> “+” -> “新建连接” -> “MySQL”。输入数据库连接账号信息,点击“测试连接”。

图片

图片

图片

点击新建的数据库目录,可以看到本次实验所用的表。

图片

(2)构建数据集

点击“数据集” -> “+” -> “新建数据集”,输入名称后确认。

图片

图片

图片

数据集创建成功后自动跳转配置页面,选择数据源和对应目录,将student_cluster拖拽至画布。

图片

图片

将字段备注修改为中文:学生ID、班级ID、迟到次数、早退次数、请假次数、没穿校服次数、聚类簇编号、轮廓系数。

图片

点击“保存” -> “保存并发布”。

图片

图片

(3)制作工作表

点击“工作表” -> “+” -> “新建分组”,输入分组名称。

图片

图片

图片

右键点击分组 -> “新建工作表”,输入工作表名称。

图片

图片

图片

自动跳转到工作表设计页面,数据集选择“聚类簇编号数据集”,图表类型选择“探索器”。将“迟到次数”拖到X轴,“早退次数”拖到Y轴

图片

图片

点击图形设置,颜色区域点击“+”,选择“聚类簇编号”。信息区域点击“+”,选择“学生ID”,并将“学生ID(student_id)设置为”维度“。

图片

图片

图片

图片

设置聚类簇编号的颜色,切换对比强烈的主题。点击保存。

图片

同样的方式,依次制作:迟到与请假次数的聚类簇分析、迟到与没穿校服次数的聚类簇分析、早退与请假次数的聚类簇分析、早退与没穿校服次数的聚类簇分析、请假与没穿校服次数的聚类簇分析。

图片

图片

图片

图片

图片

(4)搭建仪表盘

点击“仪表盘” -> “+” -> “新建仪表盘”,输入名称。

图片

图片

拖拽一个文本组件到画布,输入“聚类簇分析”,设置字体颜色、大小、加粗、居中。

图片

图片

关闭组件窗口后切换到“工作表”,将制作的6个工作表都拖拽至画布中,调整大小和布局。

图片

图片

图片

点击保存并发布。

(5)聚类群体画像解读

结合6组两两指标散点图的分布特征,为C1、C2、C3赋予业务含义:

C1(蓝色,自律模范型):数据点高度集中在低频次区间,无明显离群值。这类学生出勤稳定、纪律意识强,是校园考勤行为的正面典型。

C2(青色,轻微波动型):整体数据点集中在低频次区间,但分布略散,存在轻微的校服违规或请假行为。这类学生整体纪律可控,属于需要日常提醒的群体。

C3(黄色,纪律高危型):数据点呈现明显“离群特征”,存在大量高频迟到记录,且伴随不同程度的早退、请假或校服违规行为。这类学生是校园管理中需要重点关注和干预的核心对象。

3. 将映射结果加入学生考勤主题标签表

(1)新增扩展字段

进入上一个实验在数据集成平台中创建的ETL项目,新建转换流“增加考勤主题扩展标签字段”。拖拽“执行一个SQL脚本”组件到画布,输入SQL:

ALTER TABLE student_attendance_stats
ADD COLUMN cluster VARCHAR(10) NULL DEFAULT NULL COMMENT '聚类簇编号',
ADD COLUMN attendance_group VARCHAR(30) NULL DEFAULT NULL COMMENT '考勤群体分类';

图片

图片

图片

图片

(2)聚类簇编号数据获取

创建转换流“增加考勤群体分类标签”。拖拽“表输入”组件,从student_cluster表获取数据。

图片

图片

图片

图片

(3)字段选择

拖拽“字段选择”组件,只保留student_id和Cluster字段。将student_id类型修改为Integer。

图片

图片

图片

(4)聚类簇编号映射

拖拽“值映射”组件,将C1映射为“轻微波动型”,C2映射为“自律模范型”,C3映射为“纪律高危型”。

图片

图片

图片

(5)更新学生考勤主题标签

拖拽“更新”组件,配置目标表为student_attendance_stats,通过student_id匹配,更新cluster和attendance_group字段。

图片

图片

图片

运行转换流,执行成功即可。

图片

(6)查看结果

在团队私有数据库中点击student_attendance_stats表并查询,可以看到cluster和attendance_group字段已成功更新。

图片

4.实验总结

本次实验基于学生考勤次数数据,通过K-Means聚类算法完成学生考勤群体自动划分,精准划分出自律模范型、轻微波动型、纪律高危型三类学生群体。最终将聚类标签回写至原始考勤表,完成考勤主题扩展标签构建,为校园学生精细化管理提供了可靠的数据支撑。

第二部分:实验二 — 纪律高危型学生画像可视化分析

一、实验说明

基于已完成K-Means聚类并标注考勤群体的学生考勤主题标签表,本实验聚焦“纪律高危型”群体,分析其行为特征。该群体存在高频违纪、多维度异常叠加等行为,是校园考勤管理中风险最高、影响最大的群体。通过专项画像分析,可为精准干预提供数据支撑。

二、实验数据

数据源为student_attendance_stats学生考勤主题标签表,该表已包含聚类簇编号和考勤群体分类字段。

三、实验步骤

1. 进入助睿BI并构建数据集

点击左边菜单“助睿BI”。由于上一实验已创建数据源连接,可直接使用。

点击“数据集” -> “+” -> “新建数据集”,将student_attendance_stats拖拽至画布,保存并发布。

图片

图片

图片

2. 制作工作表

点击“工作表” -> “+” -> “新建分组”,命名为“学生考勤主题分析”。

图片

图片

(1)整体概况指标卡

新建工作表“纪律高危型人数”,图表类型选择“指标卡”。将“学生ID”拖拽到值,聚合方式选“去重计数”。添加过滤器:attendance_group包含“纪律高危型”。

图片

图片

图片

图片

图片

调整样式:边距16,标题字体16红色居中,值字体30红色粗体居中。保存并发布。

图片

同样的方式,分别制作“纪律高危型男生人数”(筛选性别=男)、“纪律高危型女生人数”(筛选性别=女)、“纪律高危型未知性别人数”(筛选性别=未知)。

图片

图片

图片

从整体指标卡可以看到,纪律高危型学生总人数为349人,其中男生34人、女生18人、未知性别197人。

(2)性别特征分析

新建工作表“纪律高危型学生男女人数占比”,图表类型选“饼图”。将“学生ID”拖到值(去重计数),“性别”拖到分类。过滤器排除“未知”,且attendance_group包含“纪律高危型”。

图片

图片

图片

图片

样式设置:标签显示百分比,内环大小50%。

图片

新建工作表“全校学生男女人数占比”,同样制作饼图,只需排除“未知”,不加考勤群体过滤。

图片

图片

分析结论:排除未知性别数据后,全校男生占比53.03%,女生46.97%;纪律高危型中男生占比65.38%,女生34.62%。男生在高危群体中占比偏高,说明男生考勤违纪真实风险更高。

(3)年级特征分析

新建工作表“纪律高危型学生年级特征分析”,图表类型选“柱状图”。X轴放“年级”,Y轴放“学生ID”(去重计数)。过滤器添加attendance_group包含“纪律高危型”。

图片

图片

图片

图片

分析:高三年级高危人数最多,高一高二相对较少,可能与升学压力、课程安排调整有关。

(4)校区+年级交叉特征分析

新建工作表“纪律高危型学生校区类型与年级交叉特征分析”,在年级分布柱状图基础上,将“校区类型”拖拽到分组,形成堆叠柱状图。

图片

图片

分析:老校区各年级高危人数均高于新校区,高三老校区261人达峰值。新校区仅高一10人、高二19人,高三无学生分布。

(5)不同校区类型各年级学生人数

新建工作表“不同校区类型各年级学生人数”,制作堆叠柱状图,不加过滤器。

数据:高一老校区1021人/新校区148人,高二老校区1079人/新校区295人,高三老校区1883人/新校区无学生。

图片

结合分析:高三老校区是高危行为绝对高发区,新校区整体风险可控。

(6)班级特征分析

新建工作表“纪律高危型学生班级特征分析”,图表类型选“水平条图”。Y轴放“班级名称”,X轴放“学生ID”(去重计数)。过滤器添加attendance_group包含“纪律高危型”。将学生ID按降序排序。

图片

图片

图片

图片

分析:高危学生高度集中在少数班级,高三13班最多(33人),其次为高三09班、高二13班等,呈现明显班级聚集性。

3. 搭建综合仪表盘

点击“仪表盘” -> “+” -> “新建仪表盘”,输入名称“纪律高危型学生用户画像分析”。

图片

拖拽文本组件作为标题。切换到“工作表”,将以上制作的指标卡、饼图、柱状图、水平条图全部拖拽至画布,调整大小和布局。将分析结论用“文本”组件呈现在仪表盘中。

图片

图片

图片

图片

点击“发布”保存,点击“预览”全屏查看。点击“分享”可生成链接分享给他人。

访问地址:http://47.109.153.89/#/share/dashboard/2059654183614812160

四、纪律高危型学生画像分析总结

整体概况:纪律高危型学生存在高频迟到、早退、请假及校服违规行为,多维度违纪叠加,是校园考勤管理中最需重点关注的群体。

核心特征

  • 性别特征:男生为高危群体主体,占比显著高于女生

  • 年级特征:高度集中于高年级,随年级升高明显上升

  • 校区特征:高度集中在老校区,新校区风险较低

  • 班级特征:存在明显班级聚集性,集中在少数管理薄弱班级

管理建议

  • 重点关注高年级男生群体,针对性开展考勤纪律教育

  • 加强老校区高年级管理,优化通勤监督,营造严谨学风

  • 整治高危学生集中班级,加强班主任监管力度

  • 建立高危学生台账,家校联动,制定个性化矫正方案

结语

通过以上两个实验,我们完成了从K-Means聚类建模到高危群体专项画像分析的完整流程。整个过程在助睿数智平台上零代码实现,充分体现了数据驱动决策在校园精细化管理中的价值。

希望这篇实践文章能为正在学习商业数据分析的同学们提供参考。如有问题,欢迎交流讨论!

Logo

一站式 AI 云服务平台

更多推荐