实战演练：用 K-Means 聚类挖掘学生考勤数据，锁定纪律高危群体

严肃的星星超人ovo

913人浏览 · 2026-05-28 01:13:50

严肃的星星超人ovo · 2026-05-28 01:13:50 发布

一、实验概述

1.1 实验整体背景

本次实验分为两大操作阶段，按照考勤行为 K-Means 聚类分群→纪律高危群体专项分析的顺序开展。学生考勤是校园日常管理的核心基础工作，迟到、早退、无故请假、校服违规等行为，不仅能够直观反映学生个人的纪律意识与自我管理能力，也会直接影响班级整体风气与校园管理秩序。本次实验首先依托学生考勤统计原始数据，运用K-Means聚类算法对全校学生的考勤行为进行智能分群，精准区分不同考勤表现的学生群体，并将聚类分类标签同步写入原始数据表。在此基础上，针对聚类结果中违纪问题最突出、管理风险最高的纪律高危型学生群体开展多维度可视化分析，深度挖掘该群体的人员分布特点与行为规律，最终形成完整的数据分析结论与落地性管理方案，为校园考勤精细化、科学化管理提供可靠的数据支撑。

1.2 分阶段实验目的

（1）第一阶段：学生考勤行为 K-Means 聚类分群

基于整理完善的学生考勤主题数据集，选取迟到、早退、请假、校服违规次数四项核心行为特征，借助零代码机器学习工具完成全体学生考勤行为聚类分群。将算法生成的抽象聚类编号，转化为贴合校园管理场景的学生考勤画像，同时通过ETL数据处理工具，将聚类分类标签回写至原始数据表，丰富数据集维度，为后续高危群体专项分析筑牢数据基础。

（2）第二阶段：纪律高危型学生专项画像分析

以完成聚类标注的考勤数据表为核心数据源，聚焦违纪频次高、多类违规行为叠加的纪律高危学生群体，开展全方位、多维度的专项画像分析。从人员总体规模、性别分布、年级差异、校区划分、班级聚集等角度梳理群体核心特征，精准定位考勤问题高发区域与重点管理人群，结合校园日常管理实际提出针对性优化举措，为校园考勤纪律整治、学生行为规范引导提供数据依据。

1.3 实验环境

本次实验全程依托助睿数智（Uniplore）AI驱动一站式零代码大数据智能服务平台开展，实验实训访问地址：https://lab.guilian.cn/，平台官方地址：https://www.uniplore.com/。实验主要调用平台三大核心模块，分别为人工智能AI建模平台、数据集成ETL处理平台、助睿BI数据可视化探索平台，数据存储采用MySQL数据库。实验设备为常规计算机，可正常访问实验平台，具备数据库连接、数据读写、流程搭建与编辑的完整操作权限。

1.4 实验数据

本次实验统一采用student_attendance_stats学生考勤主题标签表，该数据集整合了学生基础档案信息、日常考勤违规统计数据、算法聚类分类标签等核心内容，数据格式规范、字段完整、真实有效，可同时满足机器学习建模、数据处理与可视化分析的实验需求，具体字段结构如下：

字段名	字段类型	字段说明
id	int	自增主键
student_id	int	学生ID
student_name	varchar(50)	学生姓名
class_id	int	班级ID
class_name	varchar(50)	班级名称
grade	varchar(10)	所在年级
gender	varchar(10)	性别
birth_date	varchar(10)	出生日期
political_status	varchar(20)	政治面貌
is_boarder	varchar(10)	是否住校
campus_type	varchar(10)	校区类型
late_count	int	迟到次数
early_leave_count	int	早退次数
leave_count	int	请假次数
uniform_violate_count	int	校服违规次数
create_time	datetime	数据入库时间
cluster	varchar(10)	聚类簇编号
attendance_group	varchar(30)	考勤群体分类

该数据表字段覆盖学生基础属性、考勤违规统计、数据时间、聚类标签四大类信息，既包含用于机器学习建模的数值型指标，也包含用于人群特征分析的分类属性字段，能够完整支撑本次实验的聚类建模与可视化分析全流程操作。

二、第一阶段学生考勤行为 K-Means 聚类分群

2.1 实验思路

本阶段依托平台零代码机器学习能力完成聚类分析全流程操作。首先在AI Studio建模平台加载考勤数据集，筛选核心考勤指标作为建模特征，通过K-Means算法完成无监督聚类训练，为每一位学生生成对应的聚类簇编号并单独建表存储。随后借助助睿BI可视化工具，制作多维度散点图，结合数据分布特征解读不同聚类群体的考勤行为特点，赋予各聚类群体贴合校园场景的业务定义。最后通过ETL数据集成平台，为原始考勤数据表新增分类字段，通过数据筛选、值映射、数据更新等操作，将聚类编号与中文群体标签回写至原始表，完成数据集的优化完善，为后续专项分析筑牢数据基础。

2.2 详细实验步骤

2.2.1 AI Studio 聚类建模

2.2.1.1 新建工作流

登录实验平台，进入左侧人工智能模块，打开AI Studio建模操作界面，新建空白工作流，搭建专属的算法建模流程画布。操作界面主要分为菜单栏、组件控件列表、流程画布三大区域，后续所有建模操作均在此界面完成。

点击“+” - “新建工作流”

2.2.1.2 数据导入与字段筛选

从组件控件列表中拖拽数据库加载组件至画布，双击组件完成团队私有MySQL数据库的连接配置，选中目标数据表student_attendance_stats。结合建模需求筛选有效字段，仅保留学生ID、班级ID以及迟到、早退、请假、校服违规四项核心考勤统计字段，跳过姓名、出生日期、政治面貌等无关基础字段与时间字段。同时规范字段属性，将身份类字段设置为分类类型，考勤次数字段设置为数值类型，配置完成后运行组件，核验加载数据完整无误。

双击“数据库加载”控件，右边会出现参数配置窗口，将团队私有数据库的信息填入，并点击“连接”

在弹出的窗口中，点击下拉框，选择 student_attendance_stats

选择后会自动加载表信息，我们主要是分析各类异常考勤占比的特征，所以只需保留 student_id 、class_id、late_count、early_leave_count、leave_count、uniform_violate_count，其他字段跳过（skip）；为保留的字段选择对应的属性类型，最后点击“确定”

字段对应的属性类型参考如下：

属性名称	属性类型	属性名称	属性类型
id	skip	political_status	skip
student_id	categorical	is_boarder	skip
student_name	skip	campus_type	skip
class_id	categorical	late_count	numeric
class_name	skip	early_leave_count	numeric
grade	skip	leave_count	numeric
gender	skip	uniform_violate_count	numeric
birth_date	skip	create_time	skip

右键数据库加载空间，点击“运行该控件”

运行成功后可右键点击“查看输出结果”

2.2.1.3 K-Means 模型配置与运行

拖拽K-Means聚类组件至画布，与数据库加载组件建立数据关联连线。双击聚类组件进入参数配置界面，设定聚类数量为3类，其余参数沿用平台默认最优配置。参数设置完成后运行组件，系统自动完成模型训练，为每一条学生数据匹配对应的聚类簇编号C1、C2、C3，完成学生群体的初步划分。

拖入“K-Means”组件，创建数据库加载组件到“K-Means”组件的连线

双击“K-Means”组件，配置窗口中，簇数量选择固定3个，其他保持不变

右键运行该控件，查看输出结果，可以看到每个学生分别标记了对应的簇类C1/C2/C3

2.2.1.4 聚类结果入库

拖拽数据入库组件并与聚类组件完成连线，配置数据库连接信息，新建数据表并命名为student_cluster，用于专门存储本次聚类生成的编号结果。运行整条工作流，所有组件均显示运行成功后，代表聚类数据已完整存入数据库，建模数据准备完成。

拖拽“数据入库”组件到画布，创建“K-Means”组件到“数据入库”组件的连线

双击“数据入库”组件，数据库配置中输入团队私有数据库的参数，并点击“获取表信息”

在弹出的窗口中，选择“新建数据表”，表名称修改为“student_cluster”，并点击“确定”

运行工作流，各控件均运行成功则工作流运行成功

2.2.2 助睿 BI 可视化解读聚类结果

2.2.2.1 配置数据源与数据集

复用已配置完成的MySQL数据库连接，进入助睿BI平台新建数据集，关联聚类结果表student_cluster，统一为数据表字段添加中文备注，优化数据可读性，保存并发布数据集，为后续可视化图表制作提供数据支撑。

Ps: 如果是进入的页面是登录页面，可以关闭后，重新从实验平台进入

上一步骤输出的 student_cluster 存放于我们的团队私有数据库中，所以我们需要在助睿BI 平台中创建数据库连接

点击左边菜单中的“数据源”

在弹出的窗口中输入自己所在小组在 Uniplore实验平台的数据库连接账号信息，点击“测试连接”

出现“测试连接成功”表示我们的连接正确，点击“确认”

点击新建的数据库目录，可以看到本次实验所用的学生考勤主题标签表（右键点击-查看表数据，可以预览表内数据）

数据源连接成功后，我们要将需要分析的数据表构建为数据集

点击左边菜单中的“数据集”

点击左上角“+” - “新建数据集”

在弹窗中输入数据集名称、所属分组、备注信息后点击“确认”

这个和前面一步差不多，所以就省略图片了。

数据集创建成功后，会自动跳到该数据集的配置页面，第一步需要先选择数据源，助睿BI平台为防止这个步骤遗漏，做了强提醒，点击“好的，我知道了”可关闭提醒

数据源的第一个选项选择我们刚刚新建的数据源“商业数据分析实验” ，第二个选项则选择student_cluster 所在的目录“cs_gruop10”, 数据源选择完成后，cs_gruop10目录下的数据表自动出现在画布左边，将student_cluster 拖拽至画布中

然后点击画布左上角“保存”按钮保存就行了！

在保存提示中点击“保存并发布”，因为只有发布后的数据集才能在工作表中引用

2.2.2.2 制作多维度分析工作表

进入工作表创建模块，依次制作六组两两考勤指标组合的散点分析图，分别为迟到&早退、迟到&请假、迟到&校服违规、早退&请假、早退&校服违规、请假&校服违规。选用探索器图表类型，将两组考勤指标分别对应X轴、Y轴，以聚类簇编号区分数据颜色，展示全部样本数据，并根据视觉效果微调图表配色与布局。

下面具体介绍一个样例，其他的都大差不差，可以模仿实现。

接下来我们开始制作聚类簇编号对应的考勤群体分类工作表

点击左边菜单中的“工作表”，进入工作表模块

为了方便管理，我们将本次制作的工作表集中存放在一个目录下，点击左上角的“+” - “新建分组”

在弹窗中输入分组名称、选择所属分组、填写备注信息后点击“确认”

右键或者点击聚类簇对应的考勤画像群体分类分析分组的“…”

在操作列表中点击“新建工作表”

在弹窗中输入工作表名称为“迟到早退次数的聚类簇分析”、选择所属分组、填写备注信息后点击“确认”

自动跳转到工作表设计页面，点击右上角“好的，我知道了”来关闭提醒

数据集选择刚刚创建的“聚类簇编号数据集”

图表类型选择“探索器”

将字段“late_count（迟到次数）”拖拽到X轴，“early_leave_count（早退次数）”拖拽到Y轴

点击图形设置按钮，打开设置面板

在设置面板中，点击颜色区域的“+”，在下拉框中选择“Cluster（聚类簇编号）”，并点击“确认”

点击信息区域的“+”，在下拉框中选择“student_id（学生ID）”，并点击“确认”

系统默认限额为2000条数据，因此，需要将限额设置为100%，避免数据过多不显示全部

为了区分更明显，我们可以设置聚类簇编号的颜色，点击颜色区域的设置按钮，切换对比强烈的主题

点击保存按钮，保存并发布工作表

同样的，重新新建工作表，依次两两分析5个异常考勤次数的3个聚类簇的表现情况

2.2.2.3 搭建聚类分析仪表盘

新建可视化仪表盘，添加文本组件设置仪表盘标题，将制作完成的六组散点图统一拖拽至画布，手动调整各图表的尺寸与整体布局，集中展示不同考勤指标下各类聚类群体的分布特征，便于综合对比、统一分析。

点击左边菜单“仪表盘”

同样点击左上角“+” - “新建仪表盘”

表盘名字输入“聚类簇分析”，备注信息输入“聚类簇分析”，点击“确认”

和之前依然一样的操作。

在右边组件与工作表区域，点击“基础组件”

拖拽一个文本组件到画布中

文本内容输入“聚类簇分析”，并设置字体颜色、字体大小、加粗、居中

关闭组件窗口

鼠标移至文本组件上，组件右下角可以拖动跳转组件大小

为了防止后续位置改变，可以点击右上角图钉图表，固定位置

点击工作表组件显示按钮

切换到“工作表”，将3.2.3节中制作的工作表都拖拽至画布中

拖入完毕后，可以按住图标顶部中间位置拖动图标，并使用鼠标对图表大小和布局进行调整

我的最后效果如下：

点击保存按钮，保存并发布仪表盘

2.2.2.4 聚类群体画像划分

结合多维度散点图的数据分布规律，对照学生考勤行为特征，对三类聚类群体进行业务化定义，赋予实际管理意义：

C1 自律模范型：该群体学生各项考勤违规次数均处于极低水平，数据分布集中且稳定，日常出勤规范，无频繁违纪行为，纪律自律性表现优异。
C2 轻微波动型：该群体学生整体考勤状态良好，基本无迟到、早退问题，仅存在偶尔请假、未按规定穿着校服等轻微违纪情况，行为波动小，整体纪律状态可控。
C3 纪律高危型：该群体学生多项考勤违纪次数显著偏高，存在大量极端违纪数据，迟到、早退、请假、校服违规等问题多重叠加，是校园考勤管理中需要重点关注、重点管控的核心群体。

2.2.3 ETL 平台扩展字段与数据回写

2.2.3.1 为原始表新增字段

进入助睿数据集成ETL平台，新建数据转换工作流，添加执行SQL脚本组件，运行对应语句，在原始考勤数据表student_attendance_stats中新增cluster聚类簇编号、attendance_group考勤群体分类两个字段，用于存储聚类结果数据。

上一个实验输出的结果表学生考勤主题标签表 student_attendance_stats 中没有考勤群体分类的字段，需要增加

首先我们需要在 student_attendance_stats 中增加2个字段：

cluster：聚类簇编号
attendance_group：考勤群体分类

进入上一个实验在数据集成平台中创建的ETL项目，新建转换流“增加考勤主题扩展标签字段”，拖拽并“”组件到画布中

双击“执行一个SQL脚本”组件，在配置窗口中，数据库连接“团队私有数据库”，输入SQL脚本后点击：“确认”

SQL如下：

-- 为学生考勤统计表添加聚类结果字段

ALTER TABLE student_attendance_stats

ADD COLUMN cluster VARCHAR(10) NULL DEFAULT NULL COMMENT '聚类簇编号',

ADD COLUMN attendance_group VARCHAR(30) NULL DEFAULT NULL COMMENT '考勤群体分类';

执行转换流：

2.2.3.2 读取并筛选聚类数据

新建ETL转换流程，通过表输入组件读取student_cluster聚类结果表数据，搭配字段选择组件清理冗余字段，仅保留学生ID与聚类编号核心数据，同时统一字段数据类型，确保与原始数据表字段格式匹配，为数据更新做好准备。

接下来，我们需要使用 3.1这步骤中 AI Studio 输出的结果表 student_cluster ，xxx

打开上一个实验创建的项目，创建转换流“增加考勤群体分类标签”

拖拽“表输入”组件到画布中

双击“表输入”组件，从团队私有数据库中获取 3.1步骤中的分类结果表 student_cluster 的所有SQL 查询语句

获取的数据中，我们只需保留 student_id、Cluster 字段，拖拽“字段选择”组件到画布中，并创建“表输入”组件到“字段选择”组件的连线

双击“字段选择”组件，点击“移除”选项，并在字段名称下方空白区域右键-点击“获取字段”

选中 student_id、class_id，Cluster 字段后右键“删除选中的行”，表述除 student_id、Cluster ，class_id 外，其他字段均被移除

为了保持和 student_attendance_stats 表中字段类型一致，不影响后续数据更新到 student_attendance_stats，需要将 student_id、class_id 的类型修改为Integer，点击元数据选项，插入2行， student_id、class_id 的配置如下：

最后点击“确认”

2.2.3.3 聚类编号映射转换

添加值映射组件，设置标准化转换规则，将纯字母数字的聚类编号转化为中文群体标签，具体对应关系为：C1对应自律模范型、C2对应轻微波动型、C3对应纪律高危型，提升数据的可读性与实用性。

原始聚类簇编号以编号形式存储，可读性差，通过映射转换增加中文说明

添加“值映射”组件到画布中，并字段选择组件到值映射组件的连线，并选择“主输出步骤”

双击“值映射”组件，使用的字段名为“Cluster ”，目标字段名为“attendance_group”

在下方字段值表格空白处右键，点击“插入”

双击插入的行，在源值中输入“C1”，目标值输入“自律模范型”，代表将原数据中的“C1”统一映射为“轻微波动型”

同样的，再插入2行，设置：

源值：“C2”，目标值：“轻微波动型”
源值：“C3”，目标值：“纪律高危型”

并点击“确认”'

2.2.3.4 数据更新与结果验证

拖拽数据更新组件，关联原始考勤数据表，以学生ID作为唯一匹配关键字，将聚类编号、中文群体分类标签同步更新至原始表新增字段中。运行整条转换流程，流程执行完毕后探查原始数据表，确认所有学生的聚类标签均更新成功，数据无缺失、无错误。

拖拽“更新”组件到画布中，并创建值映射组件到更新组件的连线

双击“更新”组件，在配置窗口中，数据库连接选择团队私有数据，目标模式为cs_group10

点击目标表后的“浏览”按钮，选择 student_attendance_stats，并点击“确定”

用来查询的关键字表格空白处获取字段，保留 student_id、class_id，表示更新时查询到数据表与流里的字段1相同时，执行更新操作

更新字段表格空白处获取字段，删除 student_id和class_id

最后的配置如下，表示当数据表的student_id与流里的student_id相同时，将流字段Cluster、attendance_group的值更新到表字段Cluster、attendance_group中

运行转换流

点击运行按钮

执行结果和日志：

查看结果

切换“元数据”选项，右键“团队私有数据库”，点击“加载元数据”

加载成功后点击“数据探查”

在团队私有数据库中点击 student_attendance_stats ，在点击“查询”，可以看到 cluster、attendance_group的数据已经更新成功了

2.3 本阶段实验小结

本阶段依托零代码大数据平台，完整完成了K-Means聚类建模、数据可视化解读、ETL数据加工与标签回写的全流程操作。通过算法自动聚类，打破了人工分类的主观性，精准划分出三类考勤行为差异显著的学生群体，聚类结果贴合校园日常管理实际。同时成功锁定了问题突出的纪律高危群体，明确了下一阶段专项分析的核心研究对象，完善了考勤数据集的标签体系，为后续深度分析奠定了扎实的数据与技术基础。

三、第二阶段纪律高危型学生专项画像分析

3.1 实验思路

本阶段基于第一阶段完成聚类标注的标准化考勤数据集，聚焦C3纪律高危型学生群体开展全方位专项画像分析。首先通过指标卡统计高危群体总体人数及不同性别人数，掌握群体基础规模；再依次制作饼图、柱状图、堆叠图、水平条图等可视化图表，从性别占比、年级分布、校区年级交叉分布、班级聚集特征多个维度拆解高危群体行为规律；最后整合所有分析图表搭建综合可视化仪表盘，汇总群体核心特征，结合校园管理实际痛点，提出针对性、可落地的考勤管理优化建议。

3.2 详细实验步骤

3.2.1 进入助睿 BI 并复用数据源

登录实验平台后进入助睿BI可视化分析模块，本次实验沿用前期已配置完成的团队私有数据库连接，无需重复创建数据源，直接复用已发布的学生考勤主题数据集开展分析工作。

3.2.2 构建分析数据集

新建专属分析数据集，选定对应数据库及数据表目录，将已完成聚类标签更新的student_attendance_stats数据表拖拽至编辑画布。该数据表已提前配置中文字段备注，字段信息完整规范，无需额外调整，直接保存并发布数据集，用于后续所有可视化图表制作。

此步骤和之前的一样，唯一区别就是数据集的名字不一样。

3.2.3 制作可视化工作表

3.2.3.1 新建工作表分组

在工作表管理模块新建专属分组，将本阶段所有高危群体分析工作表统一归类收纳，规范文件管理，便于后期查看、编辑与复用。

工作表是承载可视化图表、开展数据分析的基础单元

点击左边菜单中的“工作表”，进入工作表模块

为方便管理，相同主题分析的工作表最好都放置在一个目录下，点击左上角的“+” - “新建分组”

在弹窗中输入分组名称、选择所属分组、填写备注信息后点击“确认”

3.2.3.2 整体概况指标卡制作

依次创建四张指标卡工作表，分别统计纪律高危型学生总人数、男生人数、女生人数、未知性别人数。统一选择指标卡图表类型，将学生ID字段设置为去重计数统计，通过数据筛选器限定考勤群体为纪律高危型，再根据统计需求叠加对应性别筛选条件。数据配置完成后，微调指标卡字体大小、字体颜色、组件边距等样式，完成后保存并发布所有工作表。

在操作列表中点击“新建工作表”

在弹窗中输入工作表名称为“纪律高危型人数”、选择所属分组、填写备注信息后点击“确认”

自动跳转到工作表设计页面，点击右上角“好的，我知道了”来关闭提醒

在数据集下拉框中选择广告构建的数据集“学生考勤主题数据集”

纪律高危型人数=纪律高危型中的所有学生ID去重计数

在左边基础图表中点击“指标卡”

将字段“student_id（学生ID）”拖拽到值

点开字段“student_id”的聚合类型，点击“去重计数”

点击图形设置图标打开设置面板

点击过滤器中的“+”，在下拉框中选择“attendance_group（考勤群体分类）”，并点击“确认”

点击过滤器中“attendance_group”后的“···” - “编辑”

在过滤器配置中点击“包含以下选项”，并勾选“纪律高危型”，在点击“确认”

指标卡即显示纪律高危型人数

接下来，我们可以点击“样式设置”，对指标卡样式进行调整

点开基础设置，将4个边距都改为最大值16

点开标题设置，将标题字体大小改色16，字体颜色改为红色，显示位置改为顶部居中

点开值设置，将字体大小改为30，字体颜色改为红色，粗体开关保持打开，显示位置保持水平居中

点击“保存”按钮

在保存提示中点击“保存并发布”

点击“显示分组”按钮，即可看到学生总人数指标卡已经发布成功

其他三个表也是类似操作，区别就是在筛选器中添加“gender（性别）”字段，并设置为包含男,女，未知即可。

统计结果显示，全校纪律高危型学生共计195 人，其中男生 13 人，女生 11 人，性别信息缺失 171 人。整体群体规模偏大，性别分布差异明显，大部分学生的性别信息存在缺失，后续性别特征分析将以信息完整的样本为基础开展。3.2.3.3 性别特征分析

新建饼图工作表，以学生ID去重计数为统计数值、性别为分类维度，设置双重筛选条件，仅保留纪律高危型群体并剔除性别未知样本，开启图表百分比标签，优化样式后发布，用于展示高危群体男女占比情况。另建工作表制作全校学生性别占比饼图，仅剔除性别未知数据，不限制考勤群体，用于对照分析。

新建工作表“纪律高危型学生男女人数占比”

数据集选择“学生考勤主题数据集”，图表类型选择“饼图”

将字段“student_id”拖拽到值，“gender”拖拽到分类，并将“student_id”的聚合方式设置为“去重计数”

可以看到存在性别“未知”数据，需要将“未知”数据过滤掉，点击图像设置，并点击过滤器中的“+”，在下拉列表中选择“gender”，最后点击“确认”

点击过滤器中的“gender”后的“···”，并点击“编辑”

在过滤器设置中点击“排除以下选项”，勾选“未知”，点击“确认”

并点击过滤器中的“+”，在下拉列表中选择“attendance_group”，最后点击“确认”

点击过滤器中的“attendance_group”后的“···”，并点击“编辑”

在过滤器设置中点击“包含以下选项”，勾选“纪律高危型”，点击“确认”

系统默认的饼图没有百分比标签数据，我们可以点击“样式设置” - “图表元素设置” - “标签显示形式” - “勾选百分比”

其他样式可根据自身需求设置，例如图表元素设置中的内环大小设置为“50%”，扇形设置中的扇形圆角半径设置为“10”

还可以修改主题色

样式调整完毕后，点击“保存”按钮，“保存并发布”工作表

为了排除性别基数差异带来的误判，我们需要分析全校学生男女人数占比

新建工作表“全校学生男女人数占比”

参考纪律高危型学生男女人数占比”步骤，完成饼图制作，过滤器中只需要过滤掉性别“未知”的数据，考勤群体分类“attendance_group”无需做过滤

3.2.3.4 年级特征分析

新建柱状图工作表，以年级为横轴、高危学生人数为纵轴，筛选条件限定为纪律高危型群体。图表数据显示，高三年级高危违纪学生数量最多，高一、高二年级高危人数相对偏少。结合校园实际情况分析，高三学生面临升学备考压力，课外学习安排、外出备考情况较多，日常自主安排空间更大，部分学生对基础考勤纪律重视度降低，进而导致违纪行为频发。调整图表样式后保存发布。

在该环节，我们制作纪律高危型学生年级分布堆叠条形图，观察不同年级高危学生的情况

新建工作表“纪律高危型学生年级特征分析”

数据集选择“学生考勤主题数据集”，图表类型选择“柱状图”

将字段“grade”拖拽到X轴，“student_id”拖拽到Y轴，并将“student_id”的聚合方式设置为“去重计数”

点击图像设置按钮，在过滤器中添加字段“attendance_group”

点击“attendance_group”后的“···” - “编辑”

在过滤器配置窗口中点击“包含以下选项”，勾选“纪律高危型”，最后点击“确认”

分析：

从年级分布柱状图可以看出，纪律高危型学生在各年级的分布存在明显差异，其中高三年级的高危学生人数最多，高一和高二年级的高危学生人数相对较少。这可能与高三学生面临的升学压力、在校时间长度以及部分学生的课程安排调整有关，例如备考节奏紧张、校外培训或特殊升学路径安排，都可能导致考勤行为出现波动。

点击“保存”按钮，“保存并发布”工作表

3.2.3.5 校区与年级交叉特征分析

沿用年级分析的基础配置，在图表分组维度中添加校区类型字段，制作校区+年级堆叠柱状图，依旧仅筛选纪律高危型群体数据。分析结果表明，老校区是高危学生的主要聚集地，各年级高危人数均远超新校区，其中高三老校区高危人数达到峰值；新校区仅高一、高二存在少量高危学生，高三无高危违纪记录。推测校区通勤距离、日常管理严格程度、整体学风氛围的差异，是造成高低校区违纪情况差距显著的核心原因。

在该环节，为进一步探究高危学生在不同校区、不同年级的分布规律，我们制作纪律高危型学生校区类型 + 年级交堆叠状图，直观呈现各年级下新、老校区高危学生的人数分布情况，精准定位高危行为的高发区域

新建工作表“纪律高危型学生校区类型与年级交叉特征分析”

数据集选择“学生考勤主题数据集”，图表类型选择“柱状图”

参考纪律高危型学生年级特征分析”的步骤，先完成纪律高危型学生年级分布柱状图

接下来，将字段“campus_type”拖拽至“分组”

分析：

从校区类型 + 年级交叉柱状图可以看出，纪律高危型学生的校区分布差异显著：

老校区是高危学生的主要聚集地，各年级高危人数均明显高于新校区，其中高一 27 人、高二 51 人、高三 117 人，高三年级高危人数达到峰值。

新校区的高危学生整体规模较小，仅高一 1 人、高二 8 人有少量分布，高三年级无高危学生记录。

仅从高危群体的分布来看，老校区的违纪行为发生率远高于新校区，且高危人数随年级升高呈明显增长态势。为进一步判断这一差异是否由校区本身的学生基数导致，下一步将引入全校新、老校区的学生总人数数据进行交叉对比，排除基数干扰，分析校区管理模式、通勤条件、学风氛围等因素对学生考勤行为的真实影响。

然后先点击“保存”按钮，“保存并发布”工作表

3.2.3.6 全校校区及年级人数统计

新建堆叠柱状图，不添加任何考勤群体筛选条件，统计全校各校区、各年级学生总人数，用于排除学生基数差异对分析结果的干扰。结合高危群体分布数据综合判断，高三年级学生全部集中于老校区，学生基数大，对应高危违纪人数也最多；新校区整体学生体量小，违纪问题整体可控，后续考勤管理的核心重心需聚焦老校区高年级学生群体。

这个就参考“纪律高危型学生校区类型 + 年级交叉特征分析”步骤，完成不同校区类型各年级学生人数堆叠柱状图，过滤器不添加任何字段

分析：

高一：老校区 1021 人，新校区 148 人

高二：老校区 1079 人，新校区 295 人

高三：老校区 1883 人，新校区无学生分布

结合纪律高危型学生校区类型 + 年级交叉特征分析可以发现：

高三老校区是高危行为的绝对高发区：高三年级学生全部集中在老校区，且高危学生人数达到 261 人，是所有校区和年级中的最高值，这一结果与高危群体年级分布特征高度吻合。
新校区整体风险可控：新校区学生基数较小，高危学生人数也相应较少，且高三年级无学生分布，因此不存在高三高危学生，整体考勤纪律表现优于老校区。

综合来看，老校区，尤其是高三年级，是纪律高危型学生的核心聚集区，后续管理需重点聚焦老校区高年级学生群体，结合校区通勤条件、管理模式、学风氛围等因素，制定针对性的考勤管理措施。

3.2.3.7 班级特征分析

新建水平条图工作表，以班级名称为纵轴、高危学生人数为横轴，筛选纪律高危型群体数据，并将统计结果按人数降序排列。图表直观体现出高危学生存在明显的班级聚集性，高三（09）班、高三（08）班、高三（02）班等少数班级高危人数集中，其余班级违纪人数极少。由此可见，学生考勤违纪行为与班级管理力度、班风学风、同伴群体影响密切相关，少数薄弱班级是重点整治对象。优化图表样式后发布工作表。

接下来我们分析纪律高危型学生的班级特征，定位高危学生集中的班级

新建工作表“纪律高危型学生班级特征分析”

数据集选择“学生考勤主题数据集”，图表类型选择“水平条图”

将字段“class_name”拖拽至Y轴，“student_id”拖拽至X轴，并将“student_id”的聚合方式设置为“去重计数”

过滤器中添加字段“attendance_group”

点击“attendance_group”后的“···” - “编辑”

过滤器设置中点击“包含以下选项”。勾选“纪律高危型”，最后点击“确认”

为了方便观察高危型学生的集中班级，我们可以将“student_id”按降序排序，这样人数多的班级就排在前面

分析：

从班级水平条图可以清晰看到，纪律高危型学生高度集中在少数班级，其中高三 09 班高危人数最多（19 人），其次为高三 05 班、高三 13 班等，多数班级高危人数极少，呈现明显的班级聚集性。结合年级分布特征来看，高危学生主要集中在高三年级的部分班级，这既与高三学生升学备考节奏紧张、课程安排灵活有关，也说明高危行为与班级管理强度、班风氛围、同伴影响密切相关。少数薄弱班级需要重点整治，通过加强班主任监管、整顿班风，阻断不良风气传染。

点击“保存”按钮，“保存并发布”工作表

3.2.4 搭建综合分析仪表盘

进入仪表盘模块，新建仪表盘并命名为“纪律高危型学生用户画像分析”。首先添加文本组件设置仪表盘大标题，调整字体样式与排版；再将本阶段制作的所有指标卡、饼图、柱状图、水平条图依次拖拽至画布，手动调整各组件尺寸与整体布局。新增文本组件，整理录入各维度数据分析结论，完成整体排版优化后，保存并发布仪表盘。该仪表盘支持预览与链接分享，可便捷将分析成果同步给校园管理人员，辅助日常管理工作。

点击左边菜单栏中的“仪表盘”

点击左上角“+” - “新建仪表盘”

仪表盘名字输入“纪律高危型学生用户画像分析”，备注信息输入“纪律高危型学生用户画像分析”，点击“确认”

在右边组件与工作表区域，点击“基础组件”

拖拽一个文本组件到画布中

文本内容输入“纪律高危型学生用户画像分析”，并设置字体颜色、字体大小、加粗、居中

关闭组件窗口

上述操作和之前的基本上一样，所以就不进行重复赘述了。

点击图表组件显示按钮

切换到“工作表”，将3.4节中制作的工作表都拖拽至画布中

拖入完毕后，使用鼠标对图表大小和布局进行调整，同时将以上的分析使用“文本”组件呈现在仪表盘中，形成完成的分析仪表盘，“文本”组件可通过关闭“超出隐藏”开关来实现换行

经过调整，得到我们最后的成品。

设计完毕后，点击“发布”，保存并发布仪表盘

点击“预览”即可全屏查看仪表盘

发布成功后，可以点击“分享”，并选择不同的分享方式将仪表盘分享给其他人查看

将分享的信息复制发送给其他人，其他人即可点击仪表盘的分享链接进行查看

复制结果如下，其他人可以点击连接查看仪表盘

来自xxx分享的资源

访问地址：http://47.109.153.89/#/share/dashboard/2059627178924052480

3.3 纪律高危群体画像与管理建议

3.3.1 群体整体画像

纪律高危型学生是校园考勤管理中风险最高、影响最大的群体，该群体学生普遍存在多次迟到、早退、无故请假、校服违规等问题，大多存在多项违纪行为叠加的情况。群体整体规模不容小觑，且不良违纪行为易在学生间传播蔓延，容易弱化班级纪律、破坏校园学风，若不及时干预整治，会持续影响校园常规管理秩序，亟需开展专项管控与行为引导。

3.3.2 核心分布特征

性别特征：男生在高危群体中占比偏高，显著高于全校男生整体基数占比，是考勤违纪行为的主要发生人群，自我约束与时间管理能力普遍较弱。
年级特征：高危学生高度集中于高三高年级群体，整体呈现年级越高、违纪人数越多的规律。高年级学生学业压力大、自主时间多，对基础考勤纪律的重视程度下降，导致违纪行为频发。
校区特征：高危学生主要聚集在老校区，新校区学生考勤纪律整体表现更优。校区通勤条件、日常管理模式、学风氛围的差异，是造成两大校区违纪情况差距显著的关键因素。
班级特征：违纪学生存在明显的班级聚集效应，问题集中在少数班级，与班主任监管力度不足、班级班风涣散、同伴不良影响直接相关。

3.3.3 校园管理建议

开展针对性纪律教育，重点面向高年级男生开展考勤制度宣讲、时间管理培训，强化学生规则意识，纠正松懈散漫的纪律观念，从源头减少违纪行为。
强化老校区考勤监管力度，结合老校区通勤实际情况优化考勤管理制度，增加日常巡查频次，营造严谨规范的校园学风，压缩违纪行为发生空间。
聚焦高危学生集中的薄弱班级，压实班主任管理责任，开展班风专项整治工作，及时纠正班级不良风气，阻断违纪行为的传播蔓延。
建立高危学生专项管理台账，对违纪学生一对一建档跟踪，推行家校联动管理模式，制定个性化行为矫正方案，持续跟进学生表现，帮助学生逐步规范考勤行为。

四、问题与解决

4.1 图表无法完整显示数据点

问题现象：在助睿BI平台制作散点图工作表时，图表无法展示全部数据样本，只呈现部分数据点，无法完整观察聚类分布情况。

问题原因：助睿BI工作表默认数据展示条数存在限制，默认限额为2000条，本次实验数据集总量超出默认限制，导致部分数据被截断。

解决方法：进入工作表配置界面，找到数据展示限额设置，将数据展示范围调整为100%全量展示，刷新图表后即可完整显示所有数据点，保证分析结果真实全面。

4.2仪表盘无法引用已建工作表

问题现象：在制作综合仪表盘时，无法找到之前新建并编辑完成的工作表，无法添加图表组件。

问题原因：工作表编辑完成后仅保存未发布，未完成平台同步，仪表盘无法读取未发布的工作表数据。

解决方法：返回对应工作表编辑页面，点击保存并选择“保存并发布”，将工作表正式同步至平台资源库，发布成功后即可在仪表盘正常引用、拖拽使用。

五、实验整体总结

5.1 实验收获

本次实验完整完成了学生考勤数据K-Means聚类建模与纪律高危群体可视化专项分析的全流程操作，让我对零代码大数据分析的完整链路有了系统、完整的认识，实操收获较多。

首先，我熟练掌握了助睿AI Studio平台的机器学习建模流程，能够独立完成数据加载、字段筛选、特征处理、K-Means模型配置、聚类结果生成与数据入库等整套操作，理解了无监督聚类算法在人群分群中的实际应用逻辑。

其次，我学会了结合业务场景解读聚类结果，能够将机器生成的抽象聚类编号，转化为贴合校园管理场景的自律模范型、轻微波动型、纪律高危型三类学生画像，实现了算法结果的业务落地。

同时，我熟练掌握了助睿BI可视化平台的实操技巧，能够根据分析需求灵活制作指标卡、饼图、柱状图、水平条图等图表，并通过多维度对比分析挖掘数据规律，独立完成综合分析仪表盘的搭建与发布，具备了基础的数据可视化分析能力。

最后，我进一步熟悉了ETL数据集成工具的使用方法，掌握了新增数据表字段、数据读取、字段转换、值映射、数据更新入库等数据处理操作，能够独立完成数据表结构优化与标签数据回写，提升了数据清洗与数据治理的实操能力。

5.2 平台整体评价

助睿数智Uniplore一站式大数据智能平台，为本次实验提供了完整、流畅的技术支撑。平台采用零代码可视化操作模式，极大降低了大数据分析与机器学习的操作门槛，让使用者可以专注于数据分析逻辑与业务理解，无需依赖复杂代码，非常适合数据分析教学与实训场景。

平台各功能模块分工清晰、数据互通，AI建模、ETL数据处理、BI可视化三大模块衔接流畅，能够完整支撑从原始数据处理、算法建模、结果解读到可视化展示的全流程实验。整体操作简单直观、功能完善、运行稳定，能够有效帮助学习者建立标准化的数据分析思维，锻炼数据处理、模型应用与业务分析的综合能力。

5.3 实验感悟与反思

通过本次实验我深刻认识到，数据分析不仅是简单的图表制作，更是一个从数据处理、模型挖掘、特征分析到结论落地的完整闭环。实验过程中出现的数据更新失败、图表数据不全、工作表无法引用等问题，也让我意识到数据分析工作对字段规范、格式统一、流程严谨性有着极高的要求。

本次实验将机器学习算法与实际校园考勤管理场景相结合，不仅提升了我的平台实操能力，也让我学会了用数据视角观察问题、分析问题、解决问题。通过挖掘高危学生群体的分布特征，能够真实、客观地反映校园考勤管理的薄弱环节，也让我切实体会到大数据技术在校园精细化管理中的实用价值。未来我可以将本次实验的分析思路，迁移应用到更多校园数据、行业数据的分析场景中。

#助睿数智 #商业数据分析 #ETL 数据加工 #数据实验

EazyDevelop社区

一站式 AI 云服务平台

更多推荐

AI 数字员工 OpenClaw 安装实操无需命令行完成本地环境搭建（含安装包）

EazyDevelop社区

社区合作与异业联盟促进教培机构本地获客的路径研究——BBWEYY GEO服务解决教培机构获客难题，含零代码SAAS、AI编程、源码定制交付

基于数字化工具与招生流程协同的应用研究摘要：在获客成本上升、家长决策周期延长和渠道碎片化的背景下，中小教培机构需要从单次广告投放转向可沉淀、可测量、可持续优化的招生体系。本文以社区合作与异业联盟为研究对象，采用流程拆解、机制分析与工具案例研究方法，讨论社区中心、学校周边、亲子商户、文化场馆与线下活动如何连接内容触达、线索识别、试听转化、服务交付与口碑扩散。研究认为，该模式的核心不在于增加渠道数量，

EazyDevelop社区

社群裂变活动驱动教培机构新增线索的机制与边界研究——BBWEYY GEO服务解决教培机构获客难题，含零代码SAAS、AI编程、源码定制交付

基于数字化工具与招生流程协同的应用研究摘要：在获客成本上升、家长决策周期延长和渠道碎片化的背景下，中小教培机构需要从单次广告投放转向可沉淀、可测量、可持续优化的招生体系。本文以社群裂变活动为研究对象，采用流程拆解、机制分析与工具案例研究方法，讨论微信群、任务海报、邀请卡、积分排行与小程序活动页如何连接内容触达、线索识别、试听转化、服务交付与口碑扩散。研究认为，该模式的核心不在于增加渠道数量，而在于