一、实验概述

1.1 实验整体背景

本次实验分为两大操作阶段,按照考勤行为 K-Means 聚类分群→纪律高危群体专项分析的顺序开展。学生考勤是校园日常管理的核心基础工作,迟到、早退、无故请假、校服违规等行为,不仅能够直观反映学生个人的纪律意识与自我管理能力,也会直接影响班级整体风气与校园管理秩序。本次实验首先依托学生考勤统计原始数据,运用K-Means聚类算法对全校学生的考勤行为进行智能分群,精准区分不同考勤表现的学生群体,并将聚类分类标签同步写入原始数据表。在此基础上,针对聚类结果中违纪问题最突出、管理风险最高的纪律高危型学生群体开展多维度可视化分析,深度挖掘该群体的人员分布特点与行为规律,最终形成完整的数据分析结论与落地性管理方案,为校园考勤精细化、科学化管理提供可靠的数据支撑。

1.2 分阶段实验目的

(1)第一阶段:学生考勤行为 K-Means 聚类分群

基于整理完善的学生考勤主题数据集,选取迟到、早退、请假、校服违规次数四项核心行为特征,借助零代码机器学习工具完成全体学生考勤行为聚类分群。将算法生成的抽象聚类编号,转化为贴合校园管理场景的学生考勤画像,同时通过ETL数据处理工具,将聚类分类标签回写至原始数据表,丰富数据集维度,为后续高危群体专项分析筑牢数据基础。

(2)第二阶段:纪律高危型学生专项画像分析

以完成聚类标注的考勤数据表为核心数据源,聚焦违纪频次高、多类违规行为叠加的纪律高危学生群体,开展全方位、多维度的专项画像分析。从人员总体规模、性别分布、年级差异、校区划分、班级聚集等角度梳理群体核心特征,精准定位考勤问题高发区域与重点管理人群,结合校园日常管理实际提出针对性优化举措,为校园考勤纪律整治、学生行为规范引导提供数据依据。

1.3 实验环境

本次实验全程依托助睿数智(Uniplore)AI驱动一站式零代码大数据智能服务平台开展,实验实训访问地址:https://lab.guilian.cn/,平台官方地址:https://www.uniplore.com/。实验主要调用平台三大核心模块,分别为人工智能AI建模平台、数据集成ETL处理平台、助睿BI数据可视化探索平台,数据存储采用MySQL数据库。实验设备为常规计算机,可正常访问实验平台,具备数据库连接、数据读写、流程搭建与编辑的完整操作权限。

1.4 实验数据

本次实验统一采用student_attendance_stats学生考勤主题标签表,该数据集整合了学生基础档案信息、日常考勤违规统计数据、算法聚类分类标签等核心内容,数据格式规范、字段完整、真实有效,可同时满足机器学习建模、数据处理与可视化分析的实验需求,具体字段结构如下:

字段名

字段类型

字段说明

id

int

自增主键

student_id

int

学生ID

student_name

varchar(50)

学生姓名

class_id

int

班级ID

class_name

varchar(50)

班级名称

grade

varchar(10)

所在年级

gender

varchar(10)

性别

birth_date

varchar(10)

出生日期

political_status

varchar(20)

政治面貌

is_boarder

varchar(10)

是否住校

campus_type

varchar(10)

校区类型

late_count

int

迟到次数

early_leave_count

int

早退次数

leave_count

int

请假次数

uniform_violate_count

int

校服违规次数

create_time

datetime

数据入库时间

cluster

varchar(10)

聚类簇编号

attendance_group

varchar(30)

考勤群体分类

该数据表字段覆盖学生基础属性、考勤违规统计、数据时间、聚类标签四大类信息,既包含用于机器学习建模的数值型指标,也包含用于人群特征分析的分类属性字段,能够完整支撑本次实验的聚类建模与可视化分析全流程操作。


二、第一阶段 学生考勤行为 K-Means 聚类分群

2.1 实验思路

本阶段依托平台零代码机器学习能力完成聚类分析全流程操作。首先在AI Studio建模平台加载考勤数据集,筛选核心考勤指标作为建模特征,通过K-Means算法完成无监督聚类训练,为每一位学生生成对应的聚类簇编号并单独建表存储。随后借助助睿BI可视化工具,制作多维度散点图,结合数据分布特征解读不同聚类群体的考勤行为特点,赋予各聚类群体贴合校园场景的业务定义。最后通过ETL数据集成平台,为原始考勤数据表新增分类字段,通过数据筛选、值映射、数据更新等操作,将聚类编号与中文群体标签回写至原始表,完成数据集的优化完善,为后续专项分析筑牢数据基础。

2.2 详细实验步骤

2.2.1 AI Studio 聚类建模

2.2.1.1 新建工作流

登录实验平台,进入左侧人工智能模块,打开AI Studio建模操作界面,新建空白工作流,搭建专属的算法建模流程画布。操作界面主要分为菜单栏、组件控件列表、流程画布三大区域,后续所有建模操作均在此界面完成。

点击“+” - “新建工作流”

2.2.1.2 数据导入与字段筛选

从组件控件列表中拖拽数据库加载组件至画布,双击组件完成团队私有MySQL数据库的连接配置,选中目标数据表student_attendance_stats。结合建模需求筛选有效字段,仅保留学生ID、班级ID以及迟到、早退、请假、校服违规四项核心考勤统计字段,跳过姓名、出生日期、政治面貌等无关基础字段与时间字段。同时规范字段属性,将身份类字段设置为分类类型,考勤次数字段设置为数值类型,配置完成后运行组件,核验加载数据完整无误。

双击“数据库加载”控件,右边会出现参数配置窗口,将团队私有数据库的信息填入,并点击“连接”

在弹出的窗口中,点击下拉框,选择 student_attendance_stats

选择后会自动加载表信息,我们主要是分析各类异常考勤占比的特征,所以只需保留 student_id 、class_id、late_count、early_leave_count、leave_count、uniform_violate_count,其他字段跳过(skip);为保留的字段选择对应的属性类型,最后点击“确定”

字段对应的属性类型参考如下:

属性名称

属性类型

属性名称

属性类型

id

skip

political_status

skip

student_id

categorical

is_boarder

skip

student_name

skip

campus_type

skip

class_id

categorical

late_count

numeric

class_name

skip

early_leave_count

numeric

grade

skip

leave_count

numeric

gender

skip

uniform_violate_count

numeric

birth_date

skip

create_time

skip

右键数据库加载空间,点击“运行该控件”

运行成功后可右键点击“查看输出结果”

2.2.1.3 K-Means 模型配置与运行

拖拽K-Means聚类组件至画布,与数据库加载组件建立数据关联连线。双击聚类组件进入参数配置界面,设定聚类数量为3类,其余参数沿用平台默认最优配置。参数设置完成后运行组件,系统自动完成模型训练,为每一条学生数据匹配对应的聚类簇编号C1、C2、C3,完成学生群体的初步划分。

拖入“K-Means”组件,创建数据库加载组件到“K-Means”组件的连线

双击“K-Means”组件,配置窗口中,簇数量选择固定3个,其他保持不变

右键运行该控件,查看输出结果,可以看到每个学生分别标记了对应的簇类C1/C2/C3

2.2.1.4 聚类结果入库

拖拽数据入库组件并与聚类组件完成连线,配置数据库连接信息,新建数据表并命名为student_cluster,用于专门存储本次聚类生成的编号结果。运行整条工作流,所有组件均显示运行成功后,代表聚类数据已完整存入数据库,建模数据准备完成。

拖拽“数据入库”组件到画布,创建“K-Means”组件到“数据入库”组件的连线

双击“数据入库”组件,数据库配置中输入团队私有数据库的参数,并点击“获取表信息”

在弹出的窗口中,选择“新建数据表”,表名称修改为“student_cluster”,并点击“确定”

运行工作流,各控件均运行成功则工作流运行成功

2.2.2 助睿 BI 可视化解读聚类结果

2.2.2.1 配置数据源与数据集

复用已配置完成的MySQL数据库连接,进入助睿BI平台新建数据集,关联聚类结果表student_cluster,统一为数据表字段添加中文备注,优化数据可读性,保存并发布数据集,为后续可视化图表制作提供数据支撑。

Ps: 如果是进入的页面是登录页面,可以关闭后,重新从实验平台进入

上一步骤输出的 student_cluster 存放于我们的团队私有数据库中,所以我们需要在助睿BI 平台中创建数据库连接

点击左边菜单中的“数据源”

 

在弹出的窗口中输入自己所在小组在 Uniplore实验平台 的数据库连接账号信息,点击“测试连接”

出现“测试连接成功”表示我们的连接正确,点击“确认”

点击新建的数据库目录,可以看到本次实验所用的学生考勤主题标签表(右键点击-查看表数据,可以预览表内数据)

数据源连接成功后,我们要将需要分析的数据表构建为数据集

点击左边菜单中的“数据集”

点击左上角“+” - “新建数据集”

在弹窗中输入数据集名称、所属分组、备注信息后点击“确认”

这个和前面一步差不多,所以就省略图片了。

数据集创建成功后,会自动跳到该数据集的配置页面,第一步需要先选择数据源,助睿BI平台为防止这个步骤遗漏,做了强提醒,点击“好的,我知道了”可关闭提醒

数据源的第一个选项选择我们刚刚新建的数据源“商业数据分析实验” ,第二个选项则选择student_cluster 所在的目录“cs_gruop10”, 数据源选择完成后,cs_gruop10目录下的数据表自动出现在画布左边,将student_cluster 拖拽至画布中

然后点击画布左上角“保存”按钮保存就行了!

在保存提示中点击“保存并发布”,因为只有发布后的数据集才能在工作表中引用

2.2.2.2 制作多维度分析工作表

进入工作表创建模块,依次制作六组两两考勤指标组合的散点分析图,分别为迟到&早退、迟到&请假、迟到&校服违规、早退&请假、早退&校服违规、请假&校服违规。选用探索器图表类型,将两组考勤指标分别对应X轴、Y轴,以聚类簇编号区分数据颜色,展示全部样本数据,并根据视觉效果微调图表配色与布局。

下面具体介绍一个样例,其他的都大差不差,可以模仿实现。

接下来我们开始制作聚类簇编号对应的考勤群体分类工作表

点击左边菜单中的“工作表”,进入工作表模块

为了方便管理,我们将本次制作的工作表集中存放在一个目录下,点击左上角的“+” - “新建分组”

在弹窗中输入分组名称、选择所属分组、填写备注信息后点击“确认”

右键或者点击聚类簇对应的考勤画像群体分类分析分组的“…”

在操作列表中点击“新建工作表”

在弹窗中输入工作表名称为“迟到早退次数的聚类簇分析”、选择所属分组、填写备注信息后点击“确认”

自动跳转到工作表设计页面,点击右上角“好的,我知道了”来关闭提醒

数据集选择刚刚创建的“聚类簇编号数据集”

图表类型选择“探索器”

将字段“late_count(迟到次数)”拖拽到X轴,“early_leave_count(早退次数)”拖拽到Y轴

点击图形设置按钮,打开设置面板

在设置面板中,点击颜色区域的“+”,在下拉框中选择“Cluster(聚类簇编号)”,并点击“确认”

点击信息区域的“+”,在下拉框中选择“student_id(学生ID)”,并点击“确认”

系统默认限额为2000条数据,因此,需要将限额设置为100%,避免数据过多不显示全部

为了区分更明显,我们可以设置聚类簇编号的颜色,点击颜色区域的设置按钮,切换对比强烈的主题

点击保存按钮,保存并发布工作表

同样的,重新新建工作表,依次两两分析5个异常考勤次数的3个聚类簇的表现情况

2.2.2.3 搭建聚类分析仪表盘

新建可视化仪表盘,添加文本组件设置仪表盘标题,将制作完成的六组散点图统一拖拽至画布,手动调整各图表的尺寸与整体布局,集中展示不同考勤指标下各类聚类群体的分布特征,便于综合对比、统一分析。

点击左边菜单“仪表盘”

同样点击左上角“+” - “新建仪表盘”

表盘名字输入“聚类簇分析”,备注信息输入“聚类簇分析”,点击“确认”

和之前依然一样的操作。

在右边组件与工作表区域,点击“基础组件”

拖拽一个文本组件到画布中

文本内容输入“聚类簇分析”,并设置字体颜色、字体大小、加粗、居中

关闭组件窗口

鼠标移至文本组件上,组件右下角可以拖动跳转组件大小

为了防止后续位置改变,可以点击右上角图钉图表,固定位置

点击工作表组件显示按钮

切换到“工作表”,将3.2.3节中制作的工作表都拖拽至画布中

拖入完毕后,可以按住图标顶部中间位置拖动图标,并使用鼠标对图表大小和布局进行调整

我的最后效果如下:

点击保存按钮,保存并发布仪表盘

2.2.2.4 聚类群体画像划分

结合多维度散点图的数据分布规律,对照学生考勤行为特征,对三类聚类群体进行业务化定义,赋予实际管理意义:

  1. C1 自律模范型:该群体学生各项考勤违规次数均处于极低水平,数据分布集中且稳定,日常出勤规范,无频繁违纪行为,纪律自律性表现优异。
  2. C2 轻微波动型:该群体学生整体考勤状态良好,基本无迟到、早退问题,仅存在偶尔请假、未按规定穿着校服等轻微违纪情况,行为波动小,整体纪律状态可控。
  3. C3 纪律高危型:该群体学生多项考勤违纪次数显著偏高,存在大量极端违纪数据,迟到、早退、请假、校服违规等问题多重叠加,是校园考勤管理中需要重点关注、重点管控的核心群体。

2.2.3 ETL 平台扩展字段与数据回写

2.2.3.1 为原始表新增字段

进入助睿数据集成ETL平台,新建数据转换工作流,添加执行SQL脚本组件,运行对应语句,在原始考勤数据表student_attendance_stats中新增cluster聚类簇编号、attendance_group考勤群体分类两个字段,用于存储聚类结果数据。

上一个实验输出的结果表学生考勤主题标签表 student_attendance_stats 中没有考勤群体分类的字段,需要增加

首先我们需要在 student_attendance_stats 中增加2个字段:

  • cluster:聚类簇编号
  • attendance_group:考勤群体分类

进入上一个实验在数据集成平台中创建的ETL项目,新建转换流“增加考勤主题扩展标签字段”,拖拽并“”组件到画布中

双击“执行一个SQL脚本”组件,在配置窗口中,数据库连接“团队私有数据库”,输入SQL脚本后点击:“确认”

SQL如下:

-- 为学生考勤统计表添加聚类结果字段

ALTER TABLE student_attendance_stats

ADD COLUMN cluster VARCHAR(10) NULL DEFAULT NULL COMMENT '聚类簇编号',

ADD COLUMN attendance_group VARCHAR(30) NULL DEFAULT NULL COMMENT '考勤群体分类';

执行转换流:

2.2.3.2 读取并筛选聚类数据

新建ETL转换流程,通过表输入组件读取student_cluster聚类结果表数据,搭配字段选择组件清理冗余字段,仅保留学生ID与聚类编号核心数据,同时统一字段数据类型,确保与原始数据表字段格式匹配,为数据更新做好准备。

接下来,我们需要使用 3.1这步骤中 AI Studio 输出的结果表 student_cluster ,xxx

打开上一个实验创建的项目,创建转换流“增加考勤群体分类标签”

拖拽“表输入”组件到画布中

双击“表输入”组件,从团队私有数据库中获取 3.1步骤中的分类结果表 student_cluster 的所有SQL 查询语句

获取的数据中,我们只需保留 student_id、Cluster 字段,拖拽“字段选择”组件到画布中,并创建“表输入”组件到“字段选择”组件的连线

双击“字段选择”组件,点击“移除”选项,并在字段名称下方空白区域右键-点击“获取字段”

选中 student_id、class_id,Cluster 字段后右键“删除选中的行”,表述除 student_id、Cluster ,class_id 外,其他字段均被移除

为了保持和 student_attendance_stats 表中字段类型一致,不影响后续数据更新到 student_attendance_stats,需要将 student_id、class_id 的类型修改为Integer,点击元数据选项,插入2行, student_id、class_id 的配置如下:

最后点击“确认”

2.2.3.3 聚类编号映射转换

添加值映射组件,设置标准化转换规则,将纯字母数字的聚类编号转化为中文群体标签,具体对应关系为:C1对应自律模范型、C2对应轻微波动型、C3对应纪律高危型,提升数据的可读性与实用性。

原始聚类簇编号以编号形式存储,可读性差,通过映射转换增加中文说明

添加“值映射”组件到画布中,并字段选择组件到值映射组件的连线,并选择“主输出步骤”

双击“值映射”组件,使用的字段名为“Cluster ”, 目标字段名为“attendance_group”

在下方字段值表格空白处右键,点击“插入”

双击插入的行,在源值中输入“C1”,目标值输入“自律模范型”,代表将原数据中的“C1”统一映射为“轻微波动型”

同样的,再插入2行,设置:

  • 源值:“C2”,目标值:“轻微波动型”
  • 源值:“C3”,目标值:“纪律高危型”

并点击“确认”'

2.2.3.4 数据更新与结果验证

拖拽数据更新组件,关联原始考勤数据表,以学生ID作为唯一匹配关键字,将聚类编号、中文群体分类标签同步更新至原始表新增字段中。运行整条转换流程,流程执行完毕后探查原始数据表,确认所有学生的聚类标签均更新成功,数据无缺失、无错误。

拖拽“更新”组件到画布中,并创建值映射组件到更新组件的连线

双击“更新”组件,在配置窗口中,数据库连接选择团队私有数据,目标模式为cs_group10

点击目标表后的“浏览”按钮,选择 student_attendance_stats,并点击“确定”

用来查询的关键字表格空白处获取字段,保留 student_id、class_id,表示更新时查询到数据表与流里的字段1相同时,执行更新操作

更新字段表格空白处获取字段,删除 student_id和class_id

最后的配置如下,表示当数据表的student_id与流里的student_id相同时,将流字段Cluster、attendance_group的值更新到表字段Cluster、attendance_group中

运行转换流

点击运行按钮

执行结果和日志:

查看结果

切换“元数据”选项,右键“团队私有数据库”,点击“加载元数据”

加载成功后点击“数据探查”

在团队私有数据库中点击 student_attendance_stats ,在点击“查询”,可以看到 cluster、attendance_group的数据已经更新成功了

2.3 本阶段实验小结

本阶段依托零代码大数据平台,完整完成了K-Means聚类建模、数据可视化解读、ETL数据加工与标签回写的全流程操作。通过算法自动聚类,打破了人工分类的主观性,精准划分出三类考勤行为差异显著的学生群体,聚类结果贴合校园日常管理实际。同时成功锁定了问题突出的纪律高危群体,明确了下一阶段专项分析的核心研究对象,完善了考勤数据集的标签体系,为后续深度分析奠定了扎实的数据与技术基础。

三、第二阶段 纪律高危型学生专项画像分析

3.1 实验思路

本阶段基于第一阶段完成聚类标注的标准化考勤数据集,聚焦C3纪律高危型学生群体开展全方位专项画像分析。首先通过指标卡统计高危群体总体人数及不同性别人数,掌握群体基础规模;再依次制作饼图、柱状图、堆叠图、水平条图等可视化图表,从性别占比、年级分布、校区年级交叉分布、班级聚集特征多个维度拆解高危群体行为规律;最后整合所有分析图表搭建综合可视化仪表盘,汇总群体核心特征,结合校园管理实际痛点,提出针对性、可落地的考勤管理优化建议。

3.2 详细实验步骤

3.2.1 进入助睿 BI 并复用数据源

登录实验平台后进入助睿BI可视化分析模块,本次实验沿用前期已配置完成的团队私有数据库连接,无需重复创建数据源,直接复用已发布的学生考勤主题数据集开展分析工作。

3.2.2 构建分析数据集

新建专属分析数据集,选定对应数据库及数据表目录,将已完成聚类标签更新的student_attendance_stats数据表拖拽至编辑画布。该数据表已提前配置中文字段备注,字段信息完整规范,无需额外调整,直接保存并发布数据集,用于后续所有可视化图表制作。

此步骤和之前的一样,唯一区别就是数据集的名字不一样。

3.2.3 制作可视化工作表

3.2.3.1 新建工作表分组

在工作表管理模块新建专属分组,将本阶段所有高危群体分析工作表统一归类收纳,规范文件管理,便于后期查看、编辑与复用。

工作表是承载可视化图表、开展数据分析的基础单元

点击左边菜单中的“工作表”,进入工作表模块

为方便管理,相同主题分析的工作表最好都放置在一个目录下,点击左上角的“+” - “新建分组”

在弹窗中输入分组名称、选择所属分组、填写备注信息后点击“确认”

3.2.3.2 整体概况指标卡制作

依次创建四张指标卡工作表,分别统计纪律高危型学生总人数、男生人数、女生人数、未知性别人数。统一选择指标卡图表类型,将学生ID字段设置为去重计数统计,通过数据筛选器限定考勤群体为纪律高危型,再根据统计需求叠加对应性别筛选条件。数据配置完成后,微调指标卡字体大小、字体颜色、组件边距等样式,完成后保存并发布所有工作表。

在操作列表中点击“新建工作表”

在弹窗中输入工作表名称为“纪律高危型人数”、选择所属分组、填写备注信息后点击“确认”

自动跳转到工作表设计页面,点击右上角“好的,我知道了”来关闭提醒

在数据集下拉框中选择广告构建的数据集“学生考勤主题数据集”

纪律高危型人数=纪律高危型中的所有学生ID去重计数

在左边基础图表中点击“指标卡”

将字段“student_id(学生ID)”拖拽到值

点开字段“student_id”的聚合类型,点击“去重计数”

点击图形设置图标打开设置面板

点击过滤器中的“+”,在下拉框中选择“attendance_group(考勤群体分类)”,并点击“确认”

点击过滤器中“attendance_group”后的“···” - “编辑”

在过滤器配置中点击“包含以下选项”,并勾选“纪律高危型”,在点击“确认”

指标卡即显示纪律高危型人数

接下来,我们可以点击“样式设置”,对指标卡样式进行调整

点开基础设置,将4个边距都改为最大值16

点开标题设置,将标题字体大小改色16,字体颜色改为红色,显示位置改为顶部居中

点开值设置,将字体大小改为30,字体颜色改为红色,粗体开关保持打开,显示位置保持水平居中

点击“保存”按钮

在保存提示中点击“保存并发布”

点击“显示分组”按钮,即可看到学生总人数指标卡已经发布成功

其他三个表也是类似操作,区别就是在筛选器中添加“gender(性别)”字段,并设置为包含 男,女,未知即可。

统计结果显示,全校纪律高危型学生共计195 人,其中男生 13 人,女生 11 人,性别信息缺失 171 人。整体群体规模偏大,性别分布差异明显,大部分学生的性别信息存在缺失,后续性别特征分析将以信息完整的样本为基础开展。3.2.3.3 性别特征分析

新建饼图工作表,以学生ID去重计数为统计数值、性别为分类维度,设置双重筛选条件,仅保留纪律高危型群体并剔除性别未知样本,开启图表百分比标签,优化样式后发布,用于展示高危群体男女占比情况。另建工作表制作全校学生性别占比饼图,仅剔除性别未知数据,不限制考勤群体,用于对照分析。

新建工作表“纪律高危型学生男女人数占比”

数据集选择“学生考勤主题数据集”,图表类型选择“饼图”

将字段“student_id”拖拽到值,“gender”拖拽到分类,并将“student_id”的聚合方式设置为“去重计数”

可以看到存在性别“未知”数据,需要将“未知”数据过滤掉,点击图像设置,并点击过滤器中的“+”,在下拉列表中选择“gender”,最后点击“确认”

点击过滤器中的“gender”后的“···”,并点击“编辑”

在过滤器设置中点击“排除以下选项”,勾选“未知”,点击“确认”

并点击过滤器中的“+”,在下拉列表中选择“attendance_group”,最后点击“确认”

点击过滤器中的“attendance_group”后的“···”,并点击“编辑”

在过滤器设置中点击“包含以下选项”,勾选“纪律高危型”,点击“确认”

系统默认的饼图没有百分比标签数据,我们可以点击“样式设置” - “图表元素设置” - “标签显示形式” - “勾选百分比”

其他样式可根据自身需求设置,例如图表元素设置中的内环大小设置为“50%”,扇形设置中的扇形圆角半径设置为“10”

还可以修改主题色

样式调整完毕后,点击“保存”按钮,“保存并发布”工作表

为了排除性别基数差异带来的误判,我们需要分析全校学生男女人数占比

新建工作表“全校学生男女人数占比”

参考纪律高危型学生男女人数占比”步骤,完成饼图制作,过滤器中只需要过滤掉性别“未知”的数据,考勤群体分类“attendance_group”无需做过滤

3.2.3.4 年级特征分析

新建柱状图工作表,以年级为横轴、高危学生人数为纵轴,筛选条件限定为纪律高危型群体。图表数据显示,高三年级高危违纪学生数量最多,高一、高二年级高危人数相对偏少。结合校园实际情况分析,高三学生面临升学备考压力,课外学习安排、外出备考情况较多,日常自主安排空间更大,部分学生对基础考勤纪律重视度降低,进而导致违纪行为频发。调整图表样式后保存发布。

在该环节,我们制作纪律高危型学生年级分布堆叠条形图,观察不同年级高危学生的情况

新建工作表“纪律高危型学生年级特征分析”

数据集选择“学生考勤主题数据集”,图表类型选择“柱状图”

将字段“grade”拖拽到X轴,“student_id”拖拽到Y轴,并将“student_id”的聚合方式设置为“去重计数”

点击图像设置按钮,在过滤器中添加字段“attendance_group”

点击“attendance_group”后的“···” - “编辑”

在过滤器配置窗口中点击“包含以下选项”,勾选“纪律高危型”,最后点击“确认”

分析:

从年级分布柱状图可以看出,纪律高危型学生在各年级的分布存在明显差异,其中高三年级的高危学生人数最多,高一和高二年级的高危学生人数相对较少。这可能与高三学生面临的升学压力、在校时间长度以及部分学生的课程安排调整有关,例如备考节奏紧张、校外培训或特殊升学路径安排,都可能导致考勤行为出现波动。

点击“保存”按钮,“保存并发布”工作表

3.2.3.5 校区与年级交叉特征分析

沿用年级分析的基础配置,在图表分组维度中添加校区类型字段,制作校区+年级堆叠柱状图,依旧仅筛选纪律高危型群体数据。分析结果表明,老校区是高危学生的主要聚集地,各年级高危人数均远超新校区,其中高三老校区高危人数达到峰值;新校区仅高一、高二存在少量高危学生,高三无高危违纪记录。推测校区通勤距离、日常管理严格程度、整体学风氛围的差异,是造成高低校区违纪情况差距显著的核心原因。

在该环节,为进一步探究高危学生在不同校区、不同年级的分布规律,我们制作纪律高危型学生校区类型 + 年级交堆叠状图,直观呈现各年级下新、老校区高危学生的人数分布情况,精准定位高危行为的高发区域

新建工作表“纪律高危型学生校区类型与年级交叉特征分析”

数据集选择“学生考勤主题数据集”,图表类型选择“柱状图”

参考纪律高危型学生年级特征分析”的步骤,先完成纪律高危型学生年级分布柱状图

接下来,将字段“campus_type”拖拽至“分组”

分析:

从校区类型 + 年级交叉柱状图可以看出,纪律高危型学生的校区分布差异显著:

老校区是高危学生的主要聚集地,各年级高危人数均明显高于新校区,其中高一 27 人、高二 51 人、高三 117 人,高三年级高危人数达到峰值。

新校区的高危学生整体规模较小,仅高一 1 人、高二 8 人有少量分布,高三年级无高危学生记录。

仅从高危群体的分布来看,老校区的违纪行为发生率远高于新校区,且高危人数随年级升高呈明显增长态势。为进一步判断这一差异是否由校区本身的学生基数导致,下一步将引入全校新、老校区的学生总人数数据进行交叉对比,排除基数干扰,分析校区管理模式、通勤条件、学风氛围等因素对学生考勤行为的真实影响。

 

然后先点击“保存”按钮,“保存并发布”工作表

3.2.3.6 全校校区及年级人数统计

新建堆叠柱状图,不添加任何考勤群体筛选条件,统计全校各校区、各年级学生总人数,用于排除学生基数差异对分析结果的干扰。结合高危群体分布数据综合判断,高三年级学生全部集中于老校区,学生基数大,对应高危违纪人数也最多;新校区整体学生体量小,违纪问题整体可控,后续考勤管理的核心重心需聚焦老校区高年级学生群体。

这个就参考“纪律高危型学生校区类型 + 年级交叉特征分析”步骤,完成不同校区类型各年级学生人数堆叠柱状图,过滤器不添加任何字段

分析:

高一:老校区 1021 人,新校区 148 人

高二:老校区 1079 人,新校区 295 人

高三:老校区 1883 人,新校区无学生分布

结合纪律高危型学生校区类型 + 年级交叉特征分析可以发现:

  • 高三老校区是高危行为的绝对高发区:高三年级学生全部集中在老校区,且高危学生人数达到 261 人,是所有校区和年级中的最高值,这一结果与高危群体年级分布特征高度吻合。
  • 新校区整体风险可控:新校区学生基数较小,高危学生人数也相应较少,且高三年级无学生分布,因此不存在高三高危学生,整体考勤纪律表现优于老校区。

综合来看,老校区,尤其是高三年级,是纪律高危型学生的核心聚集区,后续管理需重点聚焦老校区高年级学生群体,结合校区通勤条件、管理模式、学风氛围等因素,制定针对性的考勤管理措施。

3.2.3.7 班级特征分析

新建水平条图工作表,以班级名称为纵轴、高危学生人数为横轴,筛选纪律高危型群体数据,并将统计结果按人数降序排列。图表直观体现出高危学生存在明显的班级聚集性,高三(09)班、高三(08)班、高三(02)班等少数班级高危人数集中,其余班级违纪人数极少。由此可见,学生考勤违纪行为与班级管理力度、班风学风、同伴群体影响密切相关,少数薄弱班级是重点整治对象。优化图表样式后发布工作表。

接下来我们分析纪律高危型学生的班级特征,定位高危学生集中的班级

新建工作表“纪律高危型学生班级特征分析”

数据集选择“学生考勤主题数据集”,图表类型选择“水平条图”

将字段“class_name”拖拽至Y轴,“student_id”拖拽至X轴,并将“student_id”的聚合方式设置为“去重计数”

过滤器中添加字段“attendance_group”

点击“attendance_group”后的“···” - “编辑”

过滤器设置中点击“包含以下选项”。勾选“纪律高危型”,最后点击“确认”

为了方便观察高危型学生的集中班级,我们可以将“student_id”按降序排序,这样人数多的班级就排在前面

分析:

从班级水平条图可以清晰看到,纪律高危型学生高度集中在少数班级,其中高三 09 班高危人数最多(19 人),其次为高三 05 班、高三 13 班等,多数班级高危人数极少,呈现明显的班级聚集性。结合年级分布特征来看,高危学生主要集中在高三年级的部分班级,这既与高三学生升学备考节奏紧张、课程安排灵活有关,也说明高危行为与班级管理强度、班风氛围、同伴影响密切相关。少数薄弱班级需要重点整治,通过加强班主任监管、整顿班风,阻断不良风气传染。

点击“保存”按钮,“保存并发布”工作表

3.2.4 搭建综合分析仪表盘

进入仪表盘模块,新建仪表盘并命名为“纪律高危型学生用户画像分析”。首先添加文本组件设置仪表盘大标题,调整字体样式与排版;再将本阶段制作的所有指标卡、饼图、柱状图、水平条图依次拖拽至画布,手动调整各组件尺寸与整体布局。新增文本组件,整理录入各维度数据分析结论,完成整体排版优化后,保存并发布仪表盘。该仪表盘支持预览与链接分享,可便捷将分析成果同步给校园管理人员,辅助日常管理工作。

点击左边菜单栏中的“仪表盘”

点击左上角“+” - “新建仪表盘”

仪表盘名字输入“纪律高危型学生用户画像分析”,备注信息输入“纪律高危型学生用户画像分析”,点击“确认”

在右边组件与工作表区域,点击“基础组件”

拖拽一个文本组件到画布中

文本内容输入“纪律高危型学生用户画像分析”,并设置字体颜色、字体大小、加粗、居中

关闭组件窗口

上述操作和之前的基本上一样,所以就不进行重复赘述了。

点击图表组件显示按钮

切换到“工作表”,将3.4节中制作的工作表都拖拽至画布中

拖入完毕后,使用鼠标对图表大小和布局进行调整,同时将以上的分析使用“文本”组件呈现在仪表盘中,形成完成的分析仪表盘,“文本”组件可通过关闭“超出隐藏”开关来实现换行

经过调整,得到我们最后的成品。

设计完毕后,点击“发布”,保存并发布仪表盘

点击“预览”即可全屏查看仪表盘

发布成功后,可以点击“分享”,并选择不同的分享方式将仪表盘分享给其他人查看

将分享的信息复制发送给其他人,其他人即可点击仪表盘的分享链接进行查看

复制结果如下,其他人可以点击连接查看仪表盘

来自xxx分享的资源

访问地址:http://47.109.153.89/#/share/dashboard/2059627178924052480

3.3 纪律高危群体画像与管理建议

3.3.1 群体整体画像

纪律高危型学生是校园考勤管理中风险最高、影响最大的群体,该群体学生普遍存在多次迟到、早退、无故请假、校服违规等问题,大多存在多项违纪行为叠加的情况。群体整体规模不容小觑,且不良违纪行为易在学生间传播蔓延,容易弱化班级纪律、破坏校园学风,若不及时干预整治,会持续影响校园常规管理秩序,亟需开展专项管控与行为引导。

3.3.2 核心分布特征

  1. 性别特征:男生在高危群体中占比偏高,显著高于全校男生整体基数占比,是考勤违纪行为的主要发生人群,自我约束与时间管理能力普遍较弱。
  2. 年级特征:高危学生高度集中于高三高年级群体,整体呈现年级越高、违纪人数越多的规律。高年级学生学业压力大、自主时间多,对基础考勤纪律的重视程度下降,导致违纪行为频发。
  3. 校区特征:高危学生主要聚集在老校区,新校区学生考勤纪律整体表现更优。校区通勤条件、日常管理模式、学风氛围的差异,是造成两大校区违纪情况差距显著的关键因素。
  4. 班级特征:违纪学生存在明显的班级聚集效应,问题集中在少数班级,与班主任监管力度不足、班级班风涣散、同伴不良影响直接相关。

3.3.3 校园管理建议

  1. 开展针对性纪律教育,重点面向高年级男生开展考勤制度宣讲、时间管理培训,强化学生规则意识,纠正松懈散漫的纪律观念,从源头减少违纪行为。
  2. 强化老校区考勤监管力度,结合老校区通勤实际情况优化考勤管理制度,增加日常巡查频次,营造严谨规范的校园学风,压缩违纪行为发生空间。
  3. 聚焦高危学生集中的薄弱班级,压实班主任管理责任,开展班风专项整治工作,及时纠正班级不良风气,阻断违纪行为的传播蔓延。
  4. 建立高危学生专项管理台账,对违纪学生一对一建档跟踪,推行家校联动管理模式,制定个性化行为矫正方案,持续跟进学生表现,帮助学生逐步规范考勤行为。

四、问题与解决

4.1 图表无法完整显示数据点

问题现象:在助睿BI平台制作散点图工作表时,图表无法展示全部数据样本,只呈现部分数据点,无法完整观察聚类分布情况。

问题原因:助睿BI工作表默认数据展示条数存在限制,默认限额为2000条,本次实验数据集总量超出默认限制,导致部分数据被截断。

解决方法:进入工作表配置界面,找到数据展示限额设置,将数据展示范围调整为100%全量展示,刷新图表后即可完整显示所有数据点,保证分析结果真实全面。

4.2仪表盘无法引用已建工作表

问题现象:在制作综合仪表盘时,无法找到之前新建并编辑完成的工作表,无法添加图表组件。

问题原因:工作表编辑完成后仅保存未发布,未完成平台同步,仪表盘无法读取未发布的工作表数据。

解决方法:返回对应工作表编辑页面,点击保存并选择“保存并发布”,将工作表正式同步至平台资源库,发布成功后即可在仪表盘正常引用、拖拽使用。


五、实验整体总结

5.1 实验收获

本次实验完整完成了学生考勤数据K-Means聚类建模与纪律高危群体可视化专项分析的全流程操作,让我对零代码大数据分析的完整链路有了系统、完整的认识,实操收获较多。

首先,我熟练掌握了助睿AI Studio平台的机器学习建模流程,能够独立完成数据加载、字段筛选、特征处理、K-Means模型配置、聚类结果生成与数据入库等整套操作,理解了无监督聚类算法在人群分群中的实际应用逻辑。

其次,我学会了结合业务场景解读聚类结果,能够将机器生成的抽象聚类编号,转化为贴合校园管理场景的自律模范型、轻微波动型、纪律高危型三类学生画像,实现了算法结果的业务落地。

同时,我熟练掌握了助睿BI可视化平台的实操技巧,能够根据分析需求灵活制作指标卡、饼图、柱状图、水平条图等图表,并通过多维度对比分析挖掘数据规律,独立完成综合分析仪表盘的搭建与发布,具备了基础的数据可视化分析能力。

最后,我进一步熟悉了ETL数据集成工具的使用方法,掌握了新增数据表字段、数据读取、字段转换、值映射、数据更新入库等数据处理操作,能够独立完成数据表结构优化与标签数据回写,提升了数据清洗与数据治理的实操能力。

5.2 平台整体评价

助睿数智Uniplore一站式大数据智能平台,为本次实验提供了完整、流畅的技术支撑。平台采用零代码可视化操作模式,极大降低了大数据分析与机器学习的操作门槛,让使用者可以专注于数据分析逻辑与业务理解,无需依赖复杂代码,非常适合数据分析教学与实训场景。

平台各功能模块分工清晰、数据互通,AI建模、ETL数据处理、BI可视化三大模块衔接流畅,能够完整支撑从原始数据处理、算法建模、结果解读到可视化展示的全流程实验。整体操作简单直观、功能完善、运行稳定,能够有效帮助学习者建立标准化的数据分析思维,锻炼数据处理、模型应用与业务分析的综合能力。

5.3 实验感悟与反思

通过本次实验我深刻认识到,数据分析不仅是简单的图表制作,更是一个从数据处理、模型挖掘、特征分析到结论落地的完整闭环。实验过程中出现的数据更新失败、图表数据不全、工作表无法引用等问题,也让我意识到数据分析工作对字段规范、格式统一、流程严谨性有着极高的要求。

本次实验将机器学习算法与实际校园考勤管理场景相结合,不仅提升了我的平台实操能力,也让我学会了用数据视角观察问题、分析问题、解决问题。通过挖掘高危学生群体的分布特征,能够真实、客观地反映校园考勤管理的薄弱环节,也让我切实体会到大数据技术在校园精细化管理中的实用价值。未来我可以将本次实验的分析思路,迁移应用到更多校园数据、行业数据的分析场景中。

#助睿数智 #商业数据分析 #ETL 数据加工 #数据实验

Logo

一站式 AI 云服务平台

更多推荐