目录

实验一:基于K-Means聚类的学生考勤行为分群实验

1 实验说明

1.1 实验目的

1.2 实验环境

2 实验数据

2.1 数据构成

2.2 字段说明

2.3 建模思路

3 实验步骤

3.1 AI Studio 聚类建模

3.1.1 新建工作流

3.1.2 数据导入

3.1.3 K-Means 聚类建模

3.1.4 结果输出与保存

3.2 分析聚类簇编号对应的考勤群体分类

3.2.1 连接数据源

3.2.2 构建数据集

3.2.3 制作工作表

3.2.4 搭建仪表盘

3.2.5 聚类群体画像解读

3.3 将映射结果加入学生考勤主题标签表

3.3.1 新增扩展字段

3.3.2 聚类簇编号数据获取

3.3.3 字段选择

3.3.4 聚类簇编号映射

3.3.5 更新学生考勤主题标签

3.3.6 运行转换流

3.3.7 查看结果

4 实验总结

实验二:纪律高危型学生考勤行为专项画像分析

1 实验说明

1.1 实验目的

1.2 实验环境

2 实验数据

2.1 数据结构

2.2 样例数据

3 实验步骤

3.1 进入助睿BI平台

3.2 连接数据源

3.3 构建数据集

3.4 制作可视化分析工作表

3.4.1 整体概况指标卡制作

3.4.1.1 纪律高危型总人数

3.4.1.2 纪律高危型男/女/未知性别人数

3.4.1.3 整体指标分析

3.4.2 纪律高危型学生性别特征分析

3.4.2.1 纪律高危型学生男女人数占比

3.4.2.2 全校学生男女人数占比

3.4.2.3 性别特征分析结论

3.4.3 纪律高危型学生年级特征分析

3.4.4 纪律高危型学生校区+年级交叉特征分析

3.4.5 全校校区年级基数对比分析

3.4.6 纪律高危型学生班级特征分析

3.5 搭建综合仪表盘

4 纪律高危型学生画像分析总结

4.1 整体概况

4.2 核心特征

4.3 管理建议


实验一:基于K-Means聚类的学生考勤行为分群实验

1 实验说明

1.1 实验目的

基于已完成的学生考勤主题标签表(student_attendance_stats),使用 K-Means 聚类算法对学生考勤行为进行自动分群。通过迟到、早退、请假、校服违规次数等核心指标,识别不同类型的考勤群体,生成可解释的考勤画像,为校园学生管理、行为分析提供精准数据支撑。

1.2 实验环境

本次实验依托助睿数智(Uniplore)在线实验平台完成,平台访问地址:https://lab.guilan.cn/,产品官网:https://www.uniplore.com/

助睿数智(Uniplore)是AI驱动的一站式数据科学平台,覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能,无需深厚编程基础即可完成数据分析与建模工作。本次实验核心环境配置如下:

  • 功能平台:数据集成平台(助睿 ETL)、人工智能平台(助睿 AI)、助睿BI 数据可视化探索平台

  • 数据库:MySQL

  • 前置数据:学生考勤主题标签表(student_attendance_stats)

2 实验数据

2.1 数据构成

本次实验使用标准化处理后的学生考勤主题标签表,数据集整合了学生基础信息与全量考勤次数统计结果,无冗余脏数据、字段规范,能够为K-Means聚类建模提供干净、可靠的标准化特征数据。

2.2 字段说明

数据表包含学生基础属性、考勤行为统计、数据入库时间三大类字段,具体详情如下:

名称

说明

类型

id

自增主键

连续(整数)

student_id

学生 ID

连续(整数)

student_name

学生姓名

文本

class_id

班级 ID

连续(整数)

class_name

班级名称

文本

grade

年级

文本 / 分类

gender

性别

二分类

birth_date

出生日期

文本 / 日期

political_status

政治面貌

文本 / 分类

is_boarder

是否住校

二分类

campus_type

校区类型

文本 / 分类

late_count

迟到次数

连续(整数)

early_leave_count

早退次数

连续(整数)

leave_count

请假次数

连续(整数)

uniform_violate_count

没穿校服次数

连续(整数)

create_time

统计入库时间

日期时间

2.3 建模思路

结合数据特征与校园考勤业务场景,本次K-Means聚类建模思路清晰、针对性强,全程贴合业务需求,保证模型结果稳定、可解释,具体思路如下:

1. 特征维度精简有效:本次数据维度适中,无需复杂降维操作。基于考勤业务逻辑,筛选迟到、早退、请假、校服违规四类核心行为指标用于建模,各维度独立对应一类考勤特征,变量间相关性低、无冗余干扰,可有效避免模型过拟合、结果难以解释的问题。

2. 数据类型高度适配算法:建模所用的考勤次数指标均为非负整数连续变量,完全契合K-Means聚类算法的数据输入要求,无需进行哑变量编码、二值化等特殊数据转换,大幅简化预处理流程,同时保障聚类结果的稳定性与准确性。

3. 区分建模与画像变量:学生性别、年级、住校状态、校区类型等基础离散属性不参与聚类建模,仅用于后续群体画像解读、特征归因,确保聚类结果纯粹聚焦学生考勤行为本身,提升分群的专业性与贴合度。

3 实验步骤

本次建模依托平台AI Studio人工智能模块完成,该模块为零代码拖拽式建模工具,内置100+数据挖掘算法组件,无需编程即可实现数据加载、预处理、模型训练、结果输出全流程操作,适配零基础数据分析场景。

3.1 AI Studio 聚类建模

3.1.1 新建工作流

搭建独立工作流,为数据加载、聚类建模、结果保存提供专属运行编辑空间,步骤如下:

1. 登录助睿数智实验平台,点击左侧菜单栏「人工智能」,进入AI Studio用户操作空间;

2. 点击页面「+」按钮,选择「新建工作流」,创建空白建模工作流;

3. AI Studio操作页面分为三大核心区域:左侧功能菜单栏、中间算法控件列表、右侧画布编辑区,后续所有建模操作均在此完成。

3.1.2 数据导入

加载实验专属数据表,筛选建模所需核心字段,过滤冗余无效数据:

1. 在控件列表搜索「数据库加载」控件,拖拽至右侧空白画布;

2. 双击控件,在右侧参数配置窗口填写团队私有数据库信息,点击「连接」打通数据库链路;

3. 在数据表下拉选项中,选中实验前置数据「student_attendance_stats」,自动加载表结构与字段信息;

4. 按需筛选字段,仅保留student_id、class_id、late_count、early_leave_count、leave_count、uniform_violate_count,其余字段统一设置为skip(跳过),字段属性配置标准如下:

属性名称

属性类型

属性名称

属性类型

id

skip

political_status

skip

student_id

categorical

is_boarder

skip

student_name

skip

campus_type

skip

class_id

categorical

late_count

numeric

class_name

skip

early_leave_count

numeric

grade

skip

leave_count

numeric

gender

skip

uniform_violate_count

numeric

birth_date

skip

create_time

skip

5. 字段配置完成后点击「确定」,右键点击「数据库加载」控件,选择「运行该控件」;

6. 控件运行成功后,右键选择「查看输出结果」,预览清洗后的数据集,确认数据无误后进入建模环节。

3.1.3 K-Means 聚类建模

基于清洗后的考勤特征数据,搭建K-Means聚类模型,完成学生考勤行为自动分群:

1. 在控件列表拖拽「K-Means」组件至画布,绘制「数据库加载」组件到「K-Means」组件的连线,打通数据传输链路;

2. 双击「K-Means」组件进入参数配置界面,设置簇数量为固定3个,其余参数保持系统默认;

3. 右键点击K-Means组件,选择「运行该控件」,等待模型自动训练完成;

4. 运行结束后右键查看输出结果,系统自动为每位学生匹配聚类簇标签(C1/C2/C3),完成初步机器自动分群。

3.1.4 结果输出与保存

将聚类建模结果持久化存入数据库,生成专属结果表,为后续可视化分析、数据回写提供数据源支撑:

1. 拖拽「数据入库」组件至画布,绘制「K-Means」组件到「数据入库」组件的连线;

2. 双击「数据入库」组件,填写团队私有数据库配置参数,点击「获取表信息」;

3. 在弹窗中选择「新建数据表」,将数据表命名为「student_cluster」,点击「确定」;

4. 点击画布顶部运行按钮,执行完整工作流,所有控件显示运行成功即代表聚类结果保存完成。

3.2 分析聚类簇编号对应的考勤群体分类

模型输出的C1、C2、C3仅为机器编号,无业务语义,需通过助睿BI可视化平台做多维度交叉分析,将机器编号转化为可落地的学生考勤群体画像。

3.2.1 连接数据源

将聚类结果数据表接入助睿BI平台,搭建可视化分析数据源:

1. 返回实验平台首页,点击左侧菜单栏「助睿BI」,进入数据可视化探索平台;

2. 点击左侧「数据源」模块,点击左上角「+」-「新建连接」,选择数据库类型为「MySQL」;

3. 填写团队Uniplore实验平台私有数据库账号信息,点击「测试连接」,显示连接成功后点击「确认」;

4. 打开新建的数据库目录,预览student_cluster数据表,确认数据源接入正常。

3.2.2 构建数据集

基于接入的数据源创建专属分析数据集,统一字段释义,为可视化图表制作铺垫:

1. 点击左侧「数据集」模块,点击左上角「+」-「新建数据集」,填写名称、分组及备注信息后确认创建;

2. 关闭平台新手提醒,数据源选择「商业数据分析实验」,目录选择「自己的数据库名」;

3. 将student_cluster数据表拖拽至画布编辑区;

4. 统一修改字段中文备注,提升图表可读性,字段对应关系如下:

原字段名

字段备注

student_id

学生ID

class_id

班级ID

late_count

迟到次数

early_leave_count

早退次数

leave_count

请假次数

uniform_violate_count

没穿校服次数

Cluster

聚类簇编号

Silhouette

轮廓系数

5. 字段修改完成后,点击画布左上角「保存」-「保存并发布」,完成数据集创建发布。

3.2.3 制作工作表

通过多维度指标交叉分析,制作散点图工作表,直观呈现不同聚类簇的考勤行为分布特征:

1. 点击左侧「工作表」模块,新建专属分组用于存放本次分析工作表;

2. 在分组内新建工作表,命名为「迟到早退次数的聚类簇分析」,数据集选择已发布的聚类数据集,图表类型选择「探索器」;

3. 字段配置:X轴放置「迟到次数」,Y轴放置「早退次数」;

4. 图形设置:颜色维度添加「聚类簇编号」,信息维度添加「学生ID」并设置为维度属性;

5. 将数据展示限额设置为100%,完整展示全量数据,切换高对比主题色区分簇类,保存并发布工作表;

6. 按照相同操作逻辑,依次制作5组交叉分析工作表:迟到与请假次数、迟到与没穿校服次数、早退与请假次数、早退与没穿校服次数、请假与没穿校服次数的聚类簇分析。

3.2.4 搭建仪表盘

整合所有分析工作表,搭建统一可视化仪表盘,实现聚类结果集中展示:

1. 点击左侧「仪表盘」模块,新建仪表盘并命名为「聚类簇分析」;

2. 拖拽文本组件至画布,设置标题为「聚类簇分析」,调整字体大小、颜色、居中加粗并固定位置;

3. 将6组已制作完成的交叉分析工作表全部拖拽至仪表盘画布;

4. 手动调整各图表大小与布局,保证页面整洁美观,调整完成后保存并发布仪表盘。

3.2.5 聚类群体画像解读

结合6组多维散点图分布特征,为三类聚类簇赋予业务含义,完成机器编号到学生考勤画像的转化,精准划分三类学生群体:

C1(蓝色,自律模范型):所有考勤指标组合中,数据点高度集中在低频次区间,无离群值。学生出勤稳定、纪律意识强,几乎无迟到、早退、请假、校服违规等考勤异常行为,是校园考勤正面典型。

C2(青色,轻微波动型):数据整体处于低违纪区间,分布略松散,仅存在少量轻微校服违规、请假行为,无高频迟到早退记录。学生整体纪律可控,仅存在偶发考勤波动,属于日常轻微提醒群体。

C3(黄色,纪律高危型):数据呈现显著离群特征,高频迟到行为突出,同时伴随不同程度早退、请假、校服违规行为,是唯一存在多维度违纪叠加的群体,考勤问题突出,为校园重点管理对象。

群体分类汇总表如下:

聚类簇编号

颜色

群体分类名称

核心特征

C1

蓝色

自律模范型

全维度异常次数均极低,出勤表现稳定,纪律意识强

C2

青色

轻微波动型

迟到早退次数低,偶发校服违规或请假,整体纪律可控

C3

黄色

纪律高危型

全维度异常次数均偏高,高频违纪行为叠加,存在极端离群记录

3.3 将映射结果加入学生考勤主题标签表

为实现考勤群体标签持久化应用,将聚类簇编号、中文群体分类标签回写至原始学生考勤主题标签表,完善数据集维度,为后续专项分析铺垫数据基础。

3.3.1 新增扩展字段

原始数据表无聚类分类相关字段,需手动新增字段用于存储聚类结果:

1. 进入往期实验创建的ETL项目,新建转换流并命名为「增加考勤主题扩展标签字段」;

2. 拖拽「执行一个SQL脚本」组件至画布,双击配置数据库连接为团队私有数据库;

3. 输入以下SQL语句,为数据表新增聚类相关字段:

-- 为学生考勤统计表添加聚类结果字段 ALTER TABLE student_attendance_stats ADD COLUMN cluster VARCHAR(10) NULL DEFAULT NULL COMMENT '聚类簇编号', ADD COLUMN attendance_group VARCHAR(30) NULL DEFAULT NULL COMMENT '考勤群体分类';

4. 保存配置并运行转换流,完成数据表字段新增。

3.3.2 聚类簇编号数据获取

读取AI Studio建模生成的聚类结果表数据,为后续数据更新做准备:

1. 新建转换流,命名为「增加考勤群体分类标签」;

2. 拖拽「表输入」组件至画布,双击组件,从团队私有数据库中读取student_cluster数据表全部数据。

3.3.3 字段选择

精简数据字段,保证数据更新精准有效:

1. 拖拽「字段选择」组件至画布,建立「表输入」到「字段选择」的连线;

2. 双击组件,获取数据表所有字段,删除除student_id、Cluster外的全部冗余字段;

3. 进入元数据配置界面,将student_id字段类型修改为Integer,与原始数据表字段类型保持一致,避免数据更新异常,保存配置。

3.3.4 聚类簇编号映射

将机器聚类编号转换为中文业务标签,提升数据可读性:

1. 拖拽「值映射」组件至画布,连接字段选择组件主输出端口;

2. 双击组件,设置映射源字段为「Cluster」,新增目标字段「attendance_group」;

3. 新增三组映射规则:源值C1对应「轻微波动型」、C2对应「自律模范型」、C3对应「纪律高危型」,保存配置。

3.3.5 更新学生考勤主题标签

将映射后的中文标签与聚类编号批量更新至原始考勤数据表:

1. 拖拽「更新」组件至画布,连接值映射组件输出端口;

2. 双击更新组件,数据库连接选择团队私有数据库,目标模式选择labs,目标表选中student_attendance_stats;

3. 配置更新规则:以student_id为唯一关联关键字,将流数据中的cluster、attendance_group字段值,批量更新至目标数据表对应字段中。

3.3.6 运行转换流

点击画布运行按钮,执行完整数据更新转换流,等待所有组件运行成功。

3.3.7 查看结果

1. 切换至元数据界面,右键团队私有数据库,点击「加载元数据」;

2. 进入数据探查界面,打开student_attendance_stats数据表;

3. 查询表数据,可确认cluster、attendance_group字段已成功更新,数据回写完成。、

4 实验总结

本次实验依托助睿数智Uniplore零代码数据分析平台,基于学生考勤核心行为数据,通过K-Means聚类算法实现学生考勤行为自动分群。实验精准筛选四类考勤核心指标建模,保障了聚类结果的稳定性与业务可解释性。借助助睿BI可视化工具,完成机器聚类编号的语义转化,精准划分出自律模范型、轻微波动型、纪律高危型三类学生考勤群体。最终通过ETL数据处理流程完成分类标签回写,完善考勤主题标签体系,为校园学生精细化管理、违纪行为精准干预、个性化德育教育提供了坚实的数据支撑。

实验二:纪律高危型学生考勤行为专项画像分析

1 实验说明

1.1 实验目的

基于实验一已完成K-Means聚类标注的学生考勤主题标签表,聚焦纪律高危型核心群体开展专项画像分析。该群体具备高频违纪、多维度考勤异常叠加的典型特征,是校园考勤管理中风险最高、不良影响最大的学生群体。通过多维度拆解该群体的性别、年级、校区、班级分布特征,挖掘违纪行为规律,定位高危高发群体与区域,为学校开展精准干预、重点整治、精细化校园管理提供数据支撑。

1.2 实验环境

1. 实验工具:助睿数智(Uniplore)在线实验平台(https://lab.guilan.cn/

2. 核心功能:助睿BI数据可视化探索平台、MySQL数据库

3. 核心数据源:student_attendance_stats 学生考勤主题标签表(含聚类分类标签)

4. 实验设备:可正常访问助睿平台、具备数据库连接权限的计算机设备

2 实验数据

2.1 数据结构

本次实验沿用实验一更新后的student_attendance_stats学生考勤主题标签表,在原始基础上新增聚类簇编号、考勤群体分类两个扩展字段,完整数据表结构如下:

字段名

字段类型

id

int

student_id

int

student_name

varchar(50)

class_id

int

class_name

varchar(50)

grade

varchar(10)

gender

varchar(10)

birth_date

varchar(10)

political_status

varchar(20)

is_boarder

varchar(10)

campus_type

varchar(10)

late_count

int

early_leave_count

int

leave_count

int

uniform_violate_count

int

create_time

datetime

cluster

varchar(10)

attendance_group

varchar(30)

2.2 样例数据

本次实验核心分析对象为纪律高危型学生,选取部分典型样例数据如下,可直观体现该群体高频违纪特征:

id

student_id

student_name

class_id

class_name

grade

gender

birth_date

political_status

is_boarder

campus_type

late_count

early_leave_count

leave_count

uniform_violate_count

create_time

cluster

attendance_group

1

10842

马某某

672

高三(09)

高三

未知

未知

未知

老校区

1

0

3

0

2026/5/14 16:00

C3

纪律高危型

2

10844

叶某某

672

高三(09)

高三

未知

未知

未知

老校区

0

0

5

0

2026/5/14 16:00

C3

纪律高危型

3

10845

孙某某

672

高三(09)

高三

未知

未知

未知

老校区

3

0

0

0

2026/5/14 16:00

C3

纪律高危型

3 实验步骤

3.1 进入助睿BI平台

登录助睿数智在线实验平台,点击左侧菜单栏「助睿BI」,进入数据可视化探索平台首页,查看账户数据资源与数据分析功能模块,准备开展专项画像分析。

3.2 连接数据源

本次实验沿用实验一已配置完成的团队私有数据库数据源,无需重复新建连接,可直接调用student_attendance_stats数据表开展多维度画像分析。

3.3 构建数据集

基于更新后的学生考勤标签表,新建专属分析数据集,为高危群体画像分析提供数据支撑:

1. 点击助睿BI左侧「数据集」模块,点击左上角「+」-「新建数据集」,填写数据集名称、所属分组及备注信息,确认创建;

2. 关闭平台新手提醒,数据源选择「商业数据分析实验」,目录选择「自己的数据库名」;

3. 将student_attendance_stats数据表拖拽至画布编辑区,校验表结构与数据完整性;

4. 数据表已内置完整中文字段备注,无需二次修改,直接点击「保存」-「保存并发布」,完成数据集发布。

3.4 制作可视化分析工作表

3.4.1 整体概况指标卡制作

通过指标卡组件直观展示纪律高危型学生整体规模及性别分布概况,快速把控群体整体特征。

3.4.1.1 纪律高危型总人数

1. 新建专属工作表分组,在分组内新建工作表,命名为「纪律高危型人数」;

2. 数据集选择已发布的学生考勤主题数据集,图表类型选择「指标卡」;

3. 将「学生ID」字段拖拽至值维度,修改聚合方式为「去重计数」,确保人数统计精准无重复;

4. 添加过滤器,筛选规则设置为「考勤群体分类=纪律高危型」;

5. 样式优化:边距16,标题16号红色居中,数值30号红色加粗居中;

6. 保存并发布工作表,完成高危总人数指标卡制作。

3.4.1.2 纪律高危型男/女/未知性别人数

参考高危总人数制作步骤,分别新建「纪律高危型男生人数」「纪律高危型女生人数」「高危型未知性别人数」三张工作表,在高危群体筛选基础上,新增对应性别字段筛选,统一优化样式后保存发布。

3.4.1.3 整体指标分析

指标卡数据统计结果:纪律高危型学生总人数为283人,其中男生34人、女生17人、未知性别232人。高危群体整体规模可控,但性别分布差异显著,男生高危人数明显多于女生,存在突出的性别分布特征,需进一步深度分析。

3.4.2 纪律高危型学生性别特征分析

通过双层饼图对比高危群体与全校学生性别占比,排除基数干扰,精准判断性别与考勤高危行为的关联性。

3.4.2.1 纪律高危型学生男女人数占比

1. 新建工作表「纪律高危型学生男女人数占比」,图表类型选择饼图;

2. 字段配置:值维度为学生ID(去重计数),分类维度为性别;

3. 过滤器配置:排除性别「未知」数据,仅保留男女样本,同时筛选考勤群体为纪律高危型;

4. 样式优化:开启百分比标签显示,内环大小50%、扇形圆角半径10,自定义高对比主题色;

5. 保存并发布工作表。

3.4.2.2 全校学生男女人数占比

新建工作表「全校学生男女人数占比」,制作逻辑与高危群体性别占比饼图一致,仅过滤未知性别数据,不筛选考勤群体,作为全校基数对比参考。

3.4.2.3 性别特征分析结论

排除未知性别样本后,全校学生性别分布:男生占比53.03%、女生占比46.97%;纪律高危型群体性别分布:男生占比54.22%、女生占比45.78%。

数据对比可见,男生在高危群体中的占比高于全校基数占比,女生则低于全校基数占比。该差异并非由全校性别基数导致,而是真实行为差异,说明男生规则意识、时间观念相对薄弱,更易出现考勤违纪行为,是高危群体的核心构成对象。

3.4.3 纪律高危型学生年级特征分析

通过柱状图分析高危学生年级分布规律,定位考勤高危行为高发年级:

1. 新建工作表「纪律高危型学生年级特征分析」,图表类型选择柱状图;

2. 字段配置:X轴为年级,Y轴为学生ID(去重计数);

3. 过滤器筛选「考勤群体分类=纪律高危型」;

4. 统一图表主题色、取消边框,优化视觉效果后保存发布。

分析结论:纪律高危型学生年级分布差异显著,高三年级高危人数最多,高一、高二年级人数相对较少。核心原因为高三学生升学备考压力大、在校自主空间广、课程安排灵活,对考勤纪律重视度降低,导致考勤异常行为频发。

3.4.4 纪律高危型学生校区+年级交叉特征分析

通过交叉柱状图,挖掘不同校区、不同年级高危学生的分布差异,精准定位高危高发区域:

1. 新建工作表「纪律高危型学生校区类型与年级交叉特征分析」,在年级柱状图基础上,新增「校区类型」为分组维度;

2. 筛选纪律高危型群体,统一图表样式后保存发布。

分析结论:老校区为高危学生主要聚集地,各年级高危人数均远超新校区,具体分布为高一80人、高二130人、高三261人,高三年级达到峰值;新校区高危人数极少,仅高一10人、高二19人,高三无高危学生记录。整体来看,老校区考勤违纪风险远高于新校区。

3.4.5 全校校区年级基数对比分析

新建工作表「不同校区类型各年级学生人数」,制作无筛选条件的校区-年级分布柱状图,用于基数校验,排除学生基数对分析结果的干扰。

分析结论:全校数据显示,老校区高一1021人、高二1079人、高三1883人,新校区高一148人、高二295人、高三无学生。结合高危分布可知,高三老校区是绝对高危高发区,新校区整体学风、管理效果更优,违纪风险可控,校区管理模式、通勤条件、学风氛围是造成两类校区违纪差异的核心因素。

3.4.6 纪律高危型学生班级特征分析

通过水平条形图分析高危学生班级分布,定位高危学生集中的薄弱班级,完整操作步骤如下:

  1. 新建工作表「纪律高危型学生班级特征分析」,数据集选择已发布的学生考勤主题数据集,图表类型选择「水平条图」;
  2. 字段配置:Y 轴拖拽「班级名称(class_name)」字段,X 轴拖拽「学生 ID(student_id)」字段,将「学生 ID」的聚合方式设置为「去重计数」,确保统计的是每个班级的高危学生人数,无重复统计;
  3. 过滤器配置:点击图形设置按钮,在过滤器中添加「考勤群体分类(attendance_group)」字段,编辑筛选规则为「包含以下选项」,勾选「纪律高危型」,点击确认完成筛选;
  4. 排序设置:为了更直观地定位高危学生集中的班级,点击 X 轴「学生 ID」字段的排序按钮,选择「降序」排列,让高危人数最多的班级排在图表最上方;
  5. 样式优化:点击样式设置,将图表主题色设置为与前文分析图表统一的主题色,取消图表边框,调整 Y 轴班级名称的显示间距,保证长班级名称完整展示;
  6. 完成配置后,点击「保存」-「保存并发布」,完成班级特征分析工作表的制作。

分析结论:从班级水平条图可以清晰看到,纪律高危型学生高度集中在少数班级,其中高三 09 班高危人数最多(38 人),其次为高三 08 班、高三 02 班等,多数班级高危人数极少,呈现明显的班级聚集性。结合年级分布特征来看,高危学生主要集中在高三年级的部分班级,这既与高三学生升学备考节奏紧张、课程安排灵活有关,也说明高危行为与班级管理强度、班风氛围、同伴影响密切相关。少数薄弱班级需要重点整治,通过加强班主任监管、整顿班风,阻断不良风气传染。


3.5 搭建综合仪表盘

将所有高危群体分析工作表整合为统一可视化仪表盘,实现全维度分析结果集中展示、一键分享,完整操作步骤如下:

  1. 点击助睿 BI 左侧菜单栏中的「仪表盘」模块,进入仪表盘管理页面;
  2. 点击左上角「+」-「新建仪表盘」,在弹窗中输入仪表盘名称「纪律高危型学生用户画像分析」,填写备注信息后点击「确认」;
  3. 在右侧组件与工作表区域,点击「基础组件」,拖拽一个文本组件到画布中;
  4. 编辑文本组件内容为「纪律高危型学生用户画像分析」,设置字体颜色、字体大小、加粗、居中格式,调整组件大小至适配画布顶部,关闭组件编辑窗口;
  5. 点击右侧「工作表」组件显示按钮,切换到工作表列表,将 3.4 节中制作的所有分析工作表(高危总人数、性别占比、年级分布、校区年级交叉、班级分布等)全部拖拽至仪表盘画布中;
  6. 拖入完毕后,使用鼠标拖动调整各图表的位置、大小,优化整体布局,保证页面整洁、逻辑清晰;同时可通过文本组件将各维度的分析结论添加到对应图表旁,形成完整的分析看板,文本组件可通过关闭「超出隐藏」开关实现长文本换行展示;
  7. 布局与内容设计完毕后,点击画布顶部「发布」按钮,保存并发布仪表盘;
  8. 发布成功后,点击「预览」可全屏查看仪表盘效果,点击「分享」可选择不同分享方式,将分析看板分享给其他人员查看,复制分享链接后,其他人员即可通过链接直接访问仪表盘。

4 纪律高危型学生画像分析总结

4.1 整体概况

纪律高危型学生存在高频迟到、早退、请假及校服违规行为,多维度违纪叠加,是校园考勤管理中最需重点关注的群体。该群体人数占比虽可控,但行为影响大,易引发不良风气传染,需开展专项治理与精准干预。

4.2 核心特征

  1. 性别特征:男生为高危群体主体,占比显著高于女生,是高危行为的主要发生对象,核心原因与男生规则意识薄弱、时间观念不足、自我约束能力相对较弱相关。
  2. 年级特征:高度集中于高年级,随年级升高,高危学生占比明显上升。高年级学生学业压力大、自主空间广、备考心态浮躁,对考勤纪律的重视度显著下降,是违纪行为高发的核心群体。
  3. 校区特征:在不同校区呈现明显分布差异,高危学生高度集中在老校区,新校区风险极低。该差异与校区通勤条件、管理模式、学风氛围密切相关,老校区学生通勤成本更高、管理半径更大,更易出现考勤违纪行为。
  4. 班级特征:存在明显的班级聚集性,高危学生集中在少数管理薄弱、班风涣散的班级,与班级管理强度、班主任监管力度、同伴效应直接相关,不良风气在班级内的传染效应显著。

4.3 管理建议

  1. 重点关注高年级男生群体:针对性开展考勤纪律教育与时间管理培训,强化规则意识,通过主题班会、一对一谈心等方式,引导男生树立正确的纪律观念,减少违纪行为发生。
  2. 加强老校区高年级管理:针对老校区优化通勤管理、强化考勤监督机制,通过家校联动、错峰上下学等方式,降低学生通勤违纪风险;同时营造严谨的学风氛围,提升高年级学生的纪律自觉性。
  3. 整治高危学生集中班级:加强班主任监管力度,建立班级考勤责任制,对高危人数集中的班级开展专项班风整顿,通过班级公约、小组互助等方式,阻断不良风气的传染。
  4. 建立高危学生专项台账:对纪律高危型学生一对一建档,跟踪记录考勤行为变化,联合家长开展家校联动教育,制定个性化的行为矫正方案,定期跟进干预效果,防止违纪行为固化升级。

5 问题与解决

我整理了实验过程中高频出现的典型问题,每个问题都按「现象 - 原因 - 解决方法」的结构写好了:

问题 1:K-Means 聚类结果散点图不显示全量数据

  • 问题现象:在助睿 BI 制作散点图时,系统默认只显示前 2000 条数据,导致部分学生数据点未在图表中展示,聚类簇分布不完整。
  • 问题原因:平台默认对大数据集设置了 2000 条的显示限额,目的是优化图表加载性能,但本次学生考勤数据集样本量超过该阈值,导致数据截断。
  • 解决方法:在工作表的「图形设置」面板中,找到「数据限额」选项,将默认值修改为100%,确保所有数据点完整展示;同时切换高对比度主题色,避免不同簇类的颜色在大量数据点中出现混淆。

问题 2:聚类结果回写 ETL 转换流执行失败

  • 问题现象:在助睿 ETL 中运行「更新」组件时,报错提示字段类型不匹配,导致聚类簇编号和考勤群体分类无法回写到 student_attendance_stats 表中。
  • 问题原因:student_attendance_stats 表中 student_id 字段为INT类型,而 student_cluster 表中 student_id 字段为VARCHAR类型,字段类型不一致,导致更新时无法匹配关键字。
  • 解决方法:在 ETL 流程的「字段选择」组件中,进入「元数据」配置页,手动将 student_id 字段类型修改为Integer,与目标表字段类型保持一致,重新运行转换流,数据更新成功。

问题 3:助睿 BI 仪表盘工作表显示不全

  • 问题现象:发布仪表盘后,部分工作表图表在预览时显示不全,出现截断或空白区域。
  • 问题原因:工作表拖拽至仪表盘后,图表大小未适配画布尺寸,或工作表的筛选条件与仪表盘的全局设置冲突。
  • 解决方法:重新调整仪表盘布局,将工作表图表按逻辑顺序排列,手动拖拽调整每个图表的大小;同时检查每个工作表的筛选器是否存在冲突,确保所有工作表的筛选条件独立生效,调整后重新发布仪表盘。

问题 4:聚类群体画像解读困难

  • 问题现象:K-Means 输出的 C1/C2/C3 仅为机器编号,无法直接对应考勤群体的业务含义,难以解释不同簇类的行为差异。
  • 问题原因:仅通过单一指标无法区分聚类簇特征,缺乏多维度交叉对比分析,无法捕捉学生在迟到、早退、请假、校服违规等多个维度的行为模式。
  • 解决方法:制作 6 组两两指标交叉散点图,将迟到次数与早退、请假、校服违规次数分别组合分析,通过数据点的分布特征对比,为每个簇类赋予业务标签,形成可解释的学生画像。

6 实验总结

收获

  1. 掌握了 K-Means 聚类的业务落地流程:从数据筛选、参数配置、模型训练到结果解读,完整掌握了基于助睿数智平台的零代码聚类建模方法,理解了无监督学习在学生行为分群场景的应用逻辑。
  2. 提升了数据可视化与业务解读能力:学会了使用助睿 BI 制作散点图、饼图、柱状图、水平条图等多维度图表,掌握了通过图表对比分析挖掘数据背后业务规律的方法,实现了从机器结果到业务画像的转化。
  3. 熟悉了数据集成与数据治理流程:通过 ETL 平台完成了数据表字段新增、数据映射、批量更新等操作,理解了数据清洗、字段类型统一、数据回写在数据分析流程中的重要性。
  4. 建立了校园考勤管理的数据分析思维:通过高危群体专项画像分析,学会了从性别、年级、校区、班级多维度拆解群体特征,形成了从数据指标到管理建议的闭环分析思路。

对平台的整体评价

助睿数智(Uniplore)平台作为一站式数据科学平台,本次实验中表现出了显著的易用性与专业性:

  • 零代码建模门槛低:无需复杂编程基础,拖拽式操作即可完成机器学习建模与可视化分析,非常适合数据分析入门学习;
  • 全链路功能完善:从数据集成、ETL 处理、AI 建模到 BI 可视化,平台覆盖了数据分析全流程,各模块间数据互通顺畅,无需额外工具;
  • 可视化能力强大:助睿 BI 平台支持多种图表类型,仪表盘制作与分享功能便捷,能够快速将分析结果转化为可落地的管理看板;
  • 不足与优化建议:部分功能(如字段筛选、数据限额)的默认设置对新手不够友好,建议增加更详细的新手引导;同时 ETL 组件的报错提示可以更具体,方便快速定位问题。

总体而言,助睿数智平台能够高效支撑校园考勤数据分析这类实战场景,是数据分析入门与实践的优质工具。

Logo

一站式 AI 云服务平台

更多推荐