保姆级教程!校园考勤“纪律高危型”学生深度画像分析全流程(零代码实现 + KMeans聚类 + 可视化BI,附完整踩坑详解)
高危群体呈现明显的“男性主导”特征。男生占比略高于全校男生的自然基数,反映出在青春期阶段,男生在规则意识建立和时间自我管理上相对薄弱,是纪律教育的重点关注对象。
#助睿数智 #商业数据分析 #机器学习 #数据可视化 #KMeans聚类 #用户画像
一、实验背景与目的
在数字化校园建设的背景下,学生考勤数据不仅仅是简单的“迟到”或“早退”记录,更是反映学生学习状态、规则意识乃至校园管理水平的重要指标。传统的统计方法往往只能看到“平均值”,而无法识别出那些“高频违纪”且“多维度异常”的特殊群体。
本次实验基于助睿数智(Uniplore)一站式数据科学实验平台(https://lab.guilan.cn/),旨在完成一项全链路的数据分析任务。实验分为两个核心阶段:
- 数据挖掘阶段:利用K-Means无监督学习算法,对全校学生进行聚类,识别出“纪律高危型”群体。
- 深度画像阶段:基于上一阶段的聚类结果,利用BI工具进行多维下钻分析,探究该群体在性别、年级、校区、班级上的分布特征。
通过本实验,我们将实现从“数据”到“模型”再到“业务洞察”的完整闭环,为校园精细化管理提供数据支撑。
二、实验环境与数据准备
- 实验平台:助睿数智(Uniplore)平台。该平台覆盖了数据接入、ETL处理、机器学习建模(AI Studio)及可视化分析(助睿BI)的全链路功能。
- 数据来源:
student_attendance_stats(学生考勤主题标签表)。 - 关键字段:
late_count(迟到次数)early_leave_count(早退次数)leave_count(请假次数)uniform_violate_count(校服违规次数)attendance_group(考勤群体分类,由模型生成)
三、第一阶段:AI Studio聚类建模
1. AI Studio聚类建模
(1)构建工作流与数据加载
登录助睿数智平台后,首先进入“人工智能平台(AI Studio)”模块,点击“新建工作流”。在画布左侧的控件列表中,搜索并拖拽“数据库加载”控件。双击该控件,配置团队私有数据库连接信息,并选择student_attendance_stats表。
为了聚焦考勤核心指标,我们在字段配置环节进行了精简。仅保留student_id、class_id、late_count(迟到次数)、early_leave_count(早退次数)、leave_count(请假次数)以及uniform_violate_count(校服违规次数)。特别注意,需将student_id和class_id设置为“类别型”(Categorical),其余次数指标设置为“数值型”(Numeric),这是保证后续算法正确运行的基础。

(2)K-Means算法配置与运行
从控件列表中拖拽“K-Means”组件至画布,并连接在“数据库加载”组件之后。双击K-Means组件进行参数配置,在本次实验中,基于考勤业务的理解以及数据量级的考量,我们将簇数量(Cluster Count)设定为固定的3个。K-Means算法对初始质心敏感,但考虑到数据维度清晰且变量间相关性低,我们保持其他参数默认,直接运行该控件。
运行成功后,查看输出结果,此时数据流中已多出了一个Cluster字段,每个学生都被标记上了C1、C2或C3的簇编号。
(3)结果入库
为了便于后续分析,我们需要将聚类结果持久化存储。拖拽“数据入库”组件,连接K-Means组件。配置数据库连接后,选择“新建数据表”,命名为student_cluster。执行整个工作流,待运行成功后,聚类结果便保存在了数据库中。

2. 助睿BI可视化画像解读
(1)数据源连接与数据集构建
切换至“助睿BI”模块,新建MySQL数据源连接。连接成功后,创建新的数据集,选取刚刚生成的student_cluster表。为了提升分析效率,我将字段备注修改为中文,如将Cluster改为“聚类簇编号”,并发布该数据集。

(2)多维散点图分析:构建“两两指标”散点矩阵
进入“工作表”模块后,新建一个名为“迟到早退次数的聚类簇分析”的工作表,并选择之前发布的“聚类簇编号数据集”作为数据源。为了彻底解读机器生成的C1、C2、C3三个簇到底代表什么类型的群体,我决定采用“两两指标”的散点图分析法。因为单一维度的图表很难展现多维特征,只有通过不同指标的组合交叉,才能还原出学生真实的考勤行为画像。
进入“工作表”模块,基于已发布的“聚类簇编号数据集”新建工作表。为了科学、全面地解读C1、C2、C3三个簇的特征,需采用“两两指标”的散点图分析法,通过可视化手段观察不同维度下的数据分布规律。
1. 图表构建与字段配置
- 图表创建:在工作表设计页面,选择图表类型为“探索器”。依次拖拽字段至对应区域:将
late_count(迟到次数)拖至X轴,early_leave_count(早退次数)拖至Y轴。 - 颜色区分:点击图形设置面板中的“颜色”区域,选择“+”,在下拉框中选择
Cluster(聚类簇编号)字段。系统将自动为不同簇分配不同颜色,便于区分。
- 信息提示:在“信息”区域同样添加
Cluster字段,以便在鼠标悬停时显示具体的簇编号。 - 数据限额调整:由于系统默认显示前2000条数据,为避免数据遗漏,需将数据限额设置为100%,确保所有记录完整呈现。
- 主题优化:为增强视觉对比度,点击颜色区域的设置按钮,切换至对比强烈的主题色系(如红-绿-蓝或黄-青-品红),使不同群体的分布特征更加醒目。

2. 分析维度组合
为确保分析的全面性,需重复上述步骤,构建以下6组散点图组合,覆盖所有核心考勤指标的两两交叉分析:
- 迟到 vs 早退次数分析:考察学生迟到与早退行为的相关性。
- 迟到 vs 请假次数分析:分析迟到是否伴随频繁请假。

- 迟到 vs 没穿校服次数分析:观察纪律松懈是否体现在着装与出勤双重维度。

- 早退 vs 请假次数分析:验证早退行为是否与请假习惯有关联。

- 早退 vs 没穿校服次数分析:评估早退学生是否存在其他违规倾向。

- 请假 vs 没穿校服次数分析:综合判断学生在非出勤类纪律上的表现。

3. 分布特征观察与初步判断
通过观察6张散点图的整体分布趋势,可初步识别各簇的业务含义:
- C1簇(蓝色):数据点高度集中于坐标原点附近,即迟到、早退、请假、校服违规等各项指标均为极低值,表现为全维度的低频异常,属于纪律优良群体。
- C2簇(青色):数据点主要分布在低频区域,但分布范围较C1更广,部分样本在请假或校服违规维度上有轻微偏离,表现为偶发性的小幅波动,整体可控。
- C3簇(黄色):数据点明显远离原点,呈现出显著的“离群”特征。该类学生在多个维度上均表现出高频异常,如高迟到率伴随高早退率或高请假率,属于多维度违纪叠加的典型代表。

3. 数据集成(ETL)标签回写
(1)表结构扩展
回到“数据集成平台”,为了存储新的标签,我首先执行了一条DDL语句,为student_attendance_stats表新增两个字段:cluster(聚类簇编号)和attendance_group(考勤群体分类)。
(2)数据流清洗与映射
新建转换流,首先通过“表输入”读取student_cluster数据,利用“字段选择”组件剔除无关字段,仅保留student_id和Cluster。紧接着,使用“值映射”组件将机器语言转化为业务语言:C1映射为“轻微波动型”,C2映射为“自律模范型”,C3映射为“纪律高危型”。

(3)数据更新
最后,使用“更新”组件,配置数据库连接指向student_attendance_stats表。设置查询关键字为student_id,将流中的Cluster和attendance_group字段更新至目标表的对应列中。运行转换流,完成标签的闭环回写。
三、实验结果
实验最终成功将学生划分为三类清晰的考勤群体。在student_attendance_stats表中,新增的attendance_group字段已成功填充。

从结果分布来看,“自律模范型”学生占据了绝大多数,这符合校园管理的常态;“轻微波动型”学生存在偶发性的小问题,属于需要日常提醒的群体;而“纪律高危型”学生虽然数量不多,但其高频的迟到和多维度的违纪行为被成功识别出来。这一结果验证了K-Means算法在处理非负整数型考勤数据时的有效性,且无需复杂降维即可获得高解释性的聚类结果。
四、第二阶段:纪律高危型学生深度画像(本轮实验核心)
在上一环节完成数据清洗与集成后,我们基于已打标(attendance_group)的 student_attendance_stats 表,进入助睿BI(商业智能)模块进行深度的可视化分析。本阶段旨在通过多维下钻,精准刻画“纪律高危型”学生的性别、年级、校区及班级特征。
1. 数据集构建与连接
首先,我们需要将带有聚类标签的表引入BI环境,作为后续所有分析的底层数据源。
- 进入BI模块:登录助睿数智平台,点击左侧菜单栏的“助睿BI”。
- 新建数据集:在BI首页,点击左侧菜单的“数据集”,随后点击左上角的 “+” 号,选择 “新建数据集”。
- 选择数据源:
- 在弹窗中,数据源选项选择团队私有的数据库连接(如“商业数据分析实验”)。
- 目录选项选择表所在的Schema(如
labs)。
- 加载表:将右侧列表中的
student_attendance_stats表拖拽至画布中。 - 字段检查:确认
student_id、class_name、late_count等字段的类型识别正确(文档样例显示出生日期为varchar,需注意)。 - 保存发布:点击左上角 “保存”,命名为“学生考勤主题数据集”,并选择 “保存并发布”,确保后续工作表能引用此数据。

2. 整体概况指标卡制作
为了快速掌握高危群体的总体规模及性别构成,我们首先制作核心指标卡。
- 新建工作表:点击左侧菜单 “工作表”,新建一个工作表,命名为“纪律高危型整体概况”。
- 创建指标卡:
- 在图表类型中选择 “指标卡”。
- 将字段
student_id(学生ID)拖拽至 “值” 区域。 - 点击
student_id的聚合类型,选择 “去重计数”(因为一个学生可能有多条记录,需去重)。
- 配置过滤器(关键步骤):
- 点击画布右侧的 “过滤器” 中的 “+” 号。
- 选择字段
attendance_group(考勤群体分类)。 - 点击 “编辑”,设置规则为 “包含以下选项”,并勾选 “纪律高危型”,点击确认。

- 样式优化:在“图形设置”中,将标题改为“纪律高危型总人数”,调整字体大小为30,颜色可设为警示红色。

- 细分制作:以此类推,复制该工作表或新建组件,分别添加
gender(性别)字段的过滤器,制作 “纪律高危型男生人数”(过滤条件:gender = 男)和 “纪律高危型女生人数”(过滤条件:gender = 女)的指标卡。- 注:根据文档样例数据,需注意处理“未知”性别的情况。



3. 性别特征分析(饼图)—— 排除基数干扰
为了探究高危群体的性别倾向是否受全校总人数基数的影响,我们需要制作对比饼图。
- 图表选择:新建工作表,选择 “饼图”。
- 字段配置:
- 值(Y轴):
student_id(去重计数)。 - 分类(X轴):
gender(性别)。
- 值(Y轴):
- 双重过滤设置:
- 过滤器1(考勤分类):添加
attendance_group,设置为 “包含:纪律高危型”。
- 过滤器2(排除未知):添加
gender,设置为 “排除以下选项”,勾选 “未知”(确保图表仅显示男/女比例)。
- 过滤器1(考勤分类):添加
- 样式设置:在“图形设置”中,开启 “标签显示形式” 为 “百分比”,并调整内环大小(建议50%)以增强视觉效果。

- 对比分析:复制该工作表,修改名称为“全校学生性别占比”,删除
attendance_group的过滤器,仅保留gender的过滤器(排除未知)。将两张图并列摆放,进行视觉对比。
- 分析结论参考:若高危群体男生占比(如54.22%)高于全校男生占比(53.03%),则说明男生违纪风险确实更高。
4. 年级与校区交叉特征分析(堆叠柱状图)
本步骤旨在揭示不同年级、不同校区的管理差异,定位高危行为的高发区域。
- 图表选择:新建纪律高危型学生年级特征分析工作表,选择 “柱状图”。
- 字段配置:
- X轴:
grade(年级)。 - Y轴:
student_id(去重计数)。 - 分组/图例:
campus_type(校区类型)。
- X轴:
- 数据筛选:在过滤器中锁定
attendance_group为 “纪律高危型”。
- 深度洞察:
- 观察柱子的高度:老校区(尤其是高三年级)的柱子通常显著高于新校区。
- 观察分布形态:老校区呈现“随年级升高而增加”的趋势(高一463人 -> 高二853人 -> 高三786人),而新校区人数较少且高三可能无数据。
- 样式调整:取消柱子的“边框色”,调整主题色系(如老校区用深红,新校区用浅灰),使对比更强烈。

参考“纪律高危型学生年级特征分析”的步骤,完成纪律高危型学生校区类型 + 年级交叉特征分析和不同校区类型各年级学生人数。


5. 班级特征分析(水平条形图)—— 定位管理薄弱点
为了将管理责任落实到具体班级,我们需要分析高危学生在班级维度的分布。
- 图表选择:新建工作表,选择 “水平条图”(Bar Chart)。
- 字段配置:
- Y轴:
class_name(班级名称)。 - X轴:
student_id(去重计数)。
- Y轴:
- 排序设置(关键步骤):
- 点击X轴(值)的下拉菜单,选择 “降序排序”。
- 这样可以将人数最多的班级置于最上方,一眼识别出“重灾区”。
- 结果解读:图表会清晰展示出 “高三07班”(38人)、“高三08班”等排名靠前的班级。这表明高危行为具有明显的班级聚集性,与班级管理强度和班风直接相关。
- 过滤器:同样不要忘记在过滤器中添加
attendance_group= “纪律高危型”。
五、第三阶段:仪表盘集成与发布
在完成了各项独立图表的分析与制作后,最后一步是将这些零散的数据洞察整合为一个逻辑严密、视觉统一的综合管理驾驶舱。这不仅能提升汇报的专业度,更能为管理层提供一站式的决策支持视图。
1. 仪表盘布局设计
进入助睿BI的“仪表盘”模块,新建一个空白画布。遵循“总-分”的信息展示逻辑进行排版:
- 标题与核心结论区:拖拽“文本组件”至画布最上方,输入主标题“纪律高危型学生用户画像分析报告”。在标题下方,利用富文本功能添加关键结论文本框,例如高亮标注:“️ 核心预警:老校区高三年级为违纪高发重灾区,需重点干预。”
- 核心指标概览区:将上一阶段制作的“高危总人数”、“男生占比”、“女生占比”等指标卡整齐排列在标题下方。这部分作为第一视觉落点,能让管理者一眼掌握整体风险规模。
- 多维特征分析区:将“性别对比饼图”、“年级校区堆叠柱状图”以及“班级排行水平条形图”按从左到右、从上到下的阅读习惯依次排布。建议将宏观维度的图表(如年级、校区)放在中部,将微观维度的图表(如具体班级排名)放在底部,形成层层下钻的视觉流。

2. 交互与发布分享
为了让数据真正流动起来,我们需要配置仪表盘的发布权限:
- 预览与微调:点击顶部的“预览”按钮,检查各图表在不同分辨率下的显示效果,确保没有文字遮挡或布局错乱。
- 生成分享链接:确认无误后,点击右上角的“发布”按钮。在弹出的设置中,选择“公开分享”或“指定人员分享”,系统将自动生成一个独立的访问链接。
- 跨部门协作价值:该链接支持免登录直接访问(取决于安全策略设置),校领导和班主任无需掌握复杂的BI操作技能,只需在手机或电脑端点击链接,即可查看全屏交互式仪表盘。这极大地降低了数据获取门槛,方便了德育处与年级组之间的跨部门协同治理。
六、实验结果总结与管理建议
通过本次全链路的数据挖掘与可视化分析,我们不仅成功识别出了潜在的违纪群体,更通过多维交叉分析得出了极具业务指导意义的核心结论。
1. 核心画像特征总结
- 性别画像:高危群体呈现明显的“男性主导”特征。男生占比略高于全校男生的自然基数,反映出在青春期阶段,男生在规则意识建立和时间自我管理上相对薄弱,是纪律教育的重点关注对象。
- 年级画像:违纪风险随年级升高呈显著上升趋势,高三年级成为绝对的“峰值区”。这与毕业班面临的升学压力增大、心态浮躁以及部分学生出现的“破窗效应”密切相关。
- 校区画像:空间分布上存在极大的不平衡性。老校区由于设施陈旧、通勤环境复杂及生源基数大,成为了高危行为的主要聚集地;相比之下,新校区封闭化管理优势明显,整体风险可控。
- 班级画像:高危学生并非均匀随机分布,而是呈现出极强的“班级聚集性”。少数特定班级(如高三09班)集中了大量高危个体,这直接折射出该班级可能存在管理松懈、班风涣散或同伴负面效应传染等深层问题。
2. 针对性管理建议
基于上述数据洞察,建议学校管理层从以下四个维度开展精准干预:
- 分层教育,关注重点人群:针对高年级男生群体,开设专门的“时间管理与自律力”工作坊,不再进行大水漫灌式的全校说教,而是进行小范围的深度辅导。
- 区域联动,强化老校区治理:优化老校区的通勤路线与考勤监督点位,特别是在早读和晚自习前后的关键时间节点,增加巡查力度,营造严谨的外部约束环境。
- 靶向整治,整顿高危班级:对筛查出的“高危班级”启动专项整顿计划。加强班主任的监管考核力度,引入优秀班干部协助管理,重塑积极向上的班级舆论场。
- 一人一档,实施家校共育:为421名高危学生建立电子成长台账,落实“一对一”导师制。定期与家长同步考勤数据,制定个性化的行为矫正方案,形成家校闭环合力。
七、问题与解决(踩坑详解)
在实验过程中,为了保证可视化效果的完美呈现,我们也遇到了一些典型的技术细节问题,以下是具体的排查与解决过程:
1. 问题现象:班级名称重叠显示
在制作“班级特征分析”的水平条形图时,由于涉及的班级数量较多(Y轴类目密集),导致左侧的班级名称(如“高三(09)班”)出现严重的文字重叠,甚至部分被截断,完全无法辨认。
2. 问题原因
这是由于图表默认的画布高度不足,且系统默认的字体大小和行间距是按照常规数据量设计的,未能自动适配长文本、多类目的极端展示需求。
3. 解决方法
我们通过“三步走”策略完美解决了该问题:
- 调整画布高度:手动拉长该图表组件的垂直高度,物理上为Y轴标签留出更多的纵向排列空间。
- 开启智能换行:进入右侧的“图形设置” -> “样式” -> “坐标轴”选项,找到Y轴标签设置,将“文本过长处理”策略由默认的“截断”修改为“换行”。
- 交互体验优化:在“提示”选项中,启用“鼠标悬停显示完整信息”功能。这样即使在小屏幕查看时,管理者只需将鼠标悬停在条形上,即可浮窗查看完整的班级名称和具体人数。
八、实验总结
本次实验依托助睿数智(Uniplore)平台,从零代码的角度完美演绎了“数据挖掘 + 业务分析”的深度融合。我们跳出了传统Excel手工制表的低效模式,体验了从K-Means算法的精准聚类识别,到BI仪表盘直观呈现的全流程自动化作业。
收获与评价:
- 全链路闭环体验:平台打通了数据接入、ETL清洗、AI建模到可视化展示的每一个环节,数据流转顺畅无阻,让我们深刻理解了现代数据分析工程的标准化作业流。
- 极高的业务落地价值:实验不仅仅是跑通了模型,更重要的是产出了可直接指导行动的业务洞察。特别是精准定位了“老校区高三09班”这一管理盲区,证明了数据分析在教育资源优化配置中的巨大潜力。
- 零代码赋能业务人员:全程拖拽式的操作极大降低了技术门槛,让不懂Python和SQL的教育工作者也能轻松驾驭复杂的数据分析。这种“人人都是分析师”的模式,非常契合当前教育行业数字化转型的实际需求。
更多推荐

所有评论(0)