【零基础数据分析教程】【用户画像】【零基础学k-means聚类】| 学生用户画像-考勤画像可视化分析
本文介绍了一项基于K-Means聚类分析的学生考勤行为研究,重点针对纪律高危型学生群体开展多维度可视化分析。实验依托助睿BI平台,通过零代码操作完成了数据准备、多维度分析和综合展示三个环节。研究发现:纪律高危型学生共421人,男生占比高于女生;高三年级和老校区是高发区域;部分班级呈现明显聚集性。研究构建了包含10个工作表和1个综合仪表盘的可视化分析体系,为校园管理部门提供了精准的数据支持,有助于实
1.1 实验目的
本实验基于前期 K-Means 聚类完成并标注了考勤群体分类的学生考勤主题标签表,专门针对纪律高危型学生群体开展深度可视化分析。该群体具有高频违纪、多维度异常行为叠加的显著特征,是校园考勤管理中风险等级最高、负面影响最大的群体。通过构建多维度可视化分析体系,全面拆解该群体的性别、年级、校区、班级分布特征,精准定位高危行为高发区域与重点人群,为校园管理部门制定针对性干预策略、开展重点整治提供量化数据支撑,推动校园考勤管理从粗放式向精细化转型。
1.2 实验环境
本次实验在助睿在线实验平台(https://lab.guilian.cn/)上完成,核心依托Uniplore(助睿数智)AI 驱动的一站式零代码大数据智能服务平台开展可视化分析工作。该平台集成了数据接入、数据处理、机器学习建模与可视化展示全链路功能,无需编写代码即可快速完成复杂数据分析任务,广泛应用于高校数据分析教学与企业数字化转型实践,官方网站为https://www.uniplore.com/。
实验使用的核心工具与资源:
- 助睿 BI 数据可视化探索平台:负责各类图表制作、多维度分析与综合仪表盘搭建
- MySQL 8.0 数据库:存储学生考勤主题标签表及中间分析结果
- 数据源:前期实验生成的student_attendance_stats学生考勤主题标签表(已包含聚类结果字段)
- 实验设备:可正常访问助睿平台的计算机,具备团队私有数据库连接权限
本次实验采用 “数据准备 - 多维度分析 - 综合展示” 的三层架构设计,通过零代码可视化操作完成全流程分析:
1. 数据准备层
复用前期已建立的团队私有数据库连接,基于student_attendance_stats表构建标准化分析数据集,完成字段校验与发布,为后续可视化分析提供统一、规范的数据基础。
2. 多维度分析层
从整体概况、性别、年级、校区、班级五个核心维度构建分析体系,分别制作指标卡、饼图、柱状图、水平条图等多种类型的可视化图表,全面呈现纪律高危型学生群体的分布特征与行为规律。
3. 综合展示层
将所有分析图表整合至统一的综合仪表盘,添加文字说明与结论解读,形成完整的分析报告可视化载体,支持一键分享与在线查看。
3.1 数据来源
本次实验使用的数据集为前期 “学生考勤行为聚类分析” 实验的最终输出结果student_attendance_stats。该表整合了学生基础信息、每日考勤记录、请假申请等多源数据,经过清洗、去重、按学生粒度聚合统计以及 K-Means 聚类标注等处理,数据质量高、字段完整,可直接用于可视化分析。
3.2 数据结构
student_attendance_stats表共包含 18 个字段,涵盖学生基础属性、考勤统计指标与聚类标签三类信息,具体结构如下:
|
字段名 |
数据类型 |
字段含义 |
|
id |
INT |
自增主键 |
|
student_id |
INT |
学生唯一标识 |
|
student_name |
VARCHAR(50) |
学生姓名 |
|
class_id |
INT |
班级唯一标识 |
|
class_name |
VARCHAR(50) |
班级名称 |
|
grade |
VARCHAR(10) |
所在年级 |
|
gender |
VARCHAR(10) |
性别 |
|
birth_date |
VARCHAR(10) |
出生日期 |
|
political_status |
VARCHAR(20) |
政治面貌 |
|
is_boarder |
VARCHAR(10) |
是否住校 |
|
campus_type |
VARCHAR(10) |
所属校区 |
|
late_count |
INT |
统计周期内迟到次数 |
|
early_leave_count |
INT |
统计周期内早退次数 |
|
leave_count |
INT |
统计周期内请假次数 |
|
uniform_violate_count |
INT |
统计周期内校服违规次数 |
|
create_time |
DATETIME |
数据统计入库时间 |
|
cluster |
VARCHAR(10) |
聚类簇编号 |
|
attendance_group |
VARCHAR(30) |
考勤群体分类 |
3.3 样例数据
以下为student_attendance_stats表中纪律高危型学生的部分样例数据:
|
id |
student_id |
student_name |
class_id |
class_name |
grade |
gender |
is_boarder |
campus_type |
late_count |
early_leave_count |
leave_count |
uniform_violate_count |
cluster |
attendance_group |
|
1 |
10842 |
马某某 |
672 |
高三 (09) |
高三 |
未知 |
否 |
老校区 |
1 |
0 |
3 |
0 |
C3 |
纪律高危型 |
|
2 |
10844 |
叶某某 |
672 |
高三 (09) |
高三 |
未知 |
否 |
老校区 |
0 |
0 |
5 |
0 |
C3 |
纪律高危型 |
|
3 |
10845 |
孙某某 |
672 |
高三 (09) |
高三 |
未知 |
否 |
老校区 |
3 |
0 |
0 |
0 |
C3 |
纪律高危型 |
4.1 进入助睿 BI 平台
- 登录助睿在线实验平台,在左侧导航栏点击 “助睿 BI” 选项,进入助睿 BI 可视化探索平台。

- 进入平台首页后,可查看当前账户下的数据源列表、已创建的数据集与工作表、平台支持的数据源类型等基础信息。

4.2 连接数据源
由于前期 “聚类簇编号对应的考勤群体分类” 实验中已成功创建团队私有 MySQL 数据库的连接,本次实验可直接复用该数据源,无需重新配置连接信息。
4.3 构建分析数据集
- 在左侧导航栏点击 “数据集” 选项,进入数据集管理页面。

- 点击左上角 “+” 按钮,选择 “新建数据集”,在弹出的窗口中输入数据集名称 “学生考勤主题数据集”,选择所属分组并填写备注信息,点击 “确认” 完成创建。


- 进入数据集配置页面,关闭平台弹出的强提醒窗口。

- 在数据源选择区域,第一个下拉框选择已创建的 “商业数据分析实验数据集” 数据源,第二个下拉框选择student_attendance_stats表所在的目录。

- 将左侧列表中的student_attendance_stats表拖拽至画布中央,系统自动加载表结构与数据。

- 由于前期建表时已为所有字段添加了中文备注,无需再次配置,直接点击画布左上角 “保存” 按钮,在弹出的保存提示中点击 “保存并发布”,只有发布后的数据集才能被工作表引用。
4.4 制作多维度分析工作表
工作表是助睿 BI 平台中承载可视化图表、开展数据分析的核心单元。本次实验将从五个维度制作多个工作表,全面分析纪律高危型学生群体的特征。
4.4.1 整体概况指标卡制作
指标卡用于直观展示核心统计数值,帮助快速把握高危群体的整体规模。
4.4.1.1纪律高危型总人数指标卡
- 在左侧导航栏点击 “工作表” 选项,进入工作表管理页面。

- 点击左上角 “+” 按钮,选择 “新建分组”,输入分组名称 “学生考勤画像分析”,点击 “确认” 完成创建。


- 右键点击 “学生考勤画像分析” 分组,选择 “新建工作表”,输入工作表名称 “纪律高危型总人数”,点击 “确认”。


- 进入工作表设计页面,关闭平台弹出的提示窗口。

- 在数据集下拉框中选择已发布的 “学生考勤主题数据集”。

- 在左侧基础图表列表中点击 “指标卡”
。
- 将字段 “student_id(学生 ID)” 拖拽至 “行” 区域,点击该字段右侧的下拉箭头,将聚合类型修改为 “去重计数”。


- 点击图形设置图标打开设置面板,在 “过滤器” 区域点击 “+”,选择 “attendance_group(考勤群体分类)” 字段,点击 “确认”。

- 点击过滤器中 “attendance_group” 右侧的 “・・・” 按钮,选择 “编辑”,在配置窗口中选择 “包含以下选项”,勾选 “纪律高危型”,点击 “确认”。


- 此时指标卡将显示纪律高危型学生的总人数。

- 点击 “样式设置”,对指标卡进行美化:
- 基础设置:将四个边距均调整为最大值 16
- 标题设置:字体大小设为 16,字体颜色设为红色,显示位置设为顶部居中
- 值设置:字体大小设为 30,字体颜色设为红色,保持粗体开关打开,显示位置设为水平居中



- 点击 “保存” 按钮,选择 “保存并发布” 工作表。

4.4.1.2分性别人数指标卡
参考上述步骤,分别创建以下三个指标卡:
- 纪律高危型男生人数:在过滤器中额外添加 “gender(性别)” 字段,设置为包含 “男”

- 纪律高危型女生人数:在过滤器中额外添加 “gender(性别)” 字段,设置为包含 “女”

- 高危型未知性别人数:在过滤器中额外添加 “gender(性别)” 字段,设置为包含 “未知”

所有指标卡均采用与总人数指标卡相同的样式设置,保持视觉风格统一。
4.4.1.3整体指标分析
从上述指标卡可以看出,本次统计范围内纪律高危型学生总人数为 195人,其中男生 13 人、女生 11人、未知性别 171人。排除性别未知数据后,男生人数多于女生,表明高危群体存在一定的性别分布特征,需进一步深入分析。
4.4.2 性别特征分析
通过制作饼图对比纪律高危型群体与全校学生的性别分布,排除基数差异的影响,分析高危行为的性别倾向。
4.4.2.1纪律高危型学生性别占比饼图
- 新建工作表 “纪律高危型学生男女人数占比”,选择 “学生考勤主题数据集”,图表类型选择 “饼图”。


- 将 “student_id” 拖拽至 “值” 区域,聚合类型设为 “去重计数”;将 “gender” 拖拽至 “分类” 区域。

- 点击图形设置,添加 “gender” 过滤器,选择 “排除以下选项”,勾选 “未知”,点击 “确认”。


- 再次添加 “attendance_group” 过滤器,选择 “包含以下选项”,勾选 “纪律高危型”,点击 “确认”。


- 点击 “样式设置”→“图表元素设置”,勾选 “百分比” 标签显示;将内环大小设为 50%,扇形圆角半径设为 10;调整主题色使其更醒目。


- 保存并发布工作表。

4.4.2.2全校学生性别占比饼图
新建工作表 “全校学生男女人数占比”,参考上述步骤制作饼图,仅添加 “gender” 过滤器排除未知数据,不筛选考勤群体分类。

4.4.2.3性别特征分析结论
排除性别未知数据后:
- 全校学生中男生占比 56%,女生占比44%,男生基数略高于女生
- 纪律高危型学生中男生占比 54.17%,女生占比 45.83%
- 对比可知,男生在高危群体中的占比高于其全校基数占比,女生则相反,说明男生发生考勤违纪行为的风险确实更高,与男生规则意识、时间观念相对薄弱的特点相符。
4.4.3 年级特征分析
通过柱状图展示纪律高危型学生在不同年级的分布情况,分析年级与违纪风险的关联。
- 新建工作表 “纪律高危型学生年级特征分析”,选择 “学生考勤主题数据集”,图表类型选择 “柱状图”。

- 将 “grade” 拖拽至 X 轴,将 “student_id” 拖拽至 Y 轴,聚合类型设为 “去重计数”。

- 添加 “attendance_group” 过滤器,设置为包含 “纪律高危型”。


- 调整图表样式,统一主题色,取消边框显示。

- 保存并发布工作表。
- 分析结论:纪律高危型学生人数随年级升高呈明显增长趋势,高三年级人数最多,高一、高二年级相对较少。这与高三学生面临更大升学压力、自主时间更多、心态更为浮躁等因素密切相关。

4.4.4 校区与年级交叉特征分析
通过堆叠柱状图展示不同校区、不同年级高危学生的分布情况,精准定位高危行为高发区域。
- 新建工作表 “纪律高危型学生校区类型与年级交叉特征分析”,选择 “学生考勤主题数据集”,图表类型选择 “柱状图”。

- 参考年级特征分析步骤,完成基础柱状图制作。

- 将 “campus_type” 字段拖拽至 “分组” 区域,生成堆叠柱状。

- 统一主题色与样式,保存并发布工作表。

- 为排除基数影响,新建工作表 “不同校区类型各年级学生人数”,制作全校学生校区 - 年级分布堆叠柱状图(不添加任何过滤器)。

- 交叉分析结论:
- 老校区是高危学生的主要聚集地,各年级高危人数均显著高于新校区
- 高三年级学生全部集中在老校区,且高危人数达到 1883人,是绝对的高发区
- 新校区学生基数小,且无高三学生,整体考勤风险较低
4.4.5 班级特征分析
通过水平条图展示纪律高危型学生在各个班级的分布情况,定位管理薄弱班级。
- 新建工作表 “纪律高危型学生班级特征分析”,选择 “学生考勤主题数据集”,图表类型选择 “水平条图”。

- 将 “class_name” 拖拽至 Y 轴,将 “student_id” 拖拽至 X 轴,聚合类型设为 “去重计数”。

- 添加 “attendance_group” 过滤器,设置为包含 “纪律高危型”。

- 点击 X 轴字段 “student_id” 右侧的下拉箭头,选择 “降序” 排序,使高危人数多的班级排在上方。

- 统一主题色与样式,保存并发布工作表。

- 分析结论:纪律高危型学生呈现明显的班级聚集性,少数班级集中了大量高危学生,其中高三 09 班人数最多(19人)。这表明班级管理强度、班风氛围与同伴效应对学生考勤行为具有重要影响。
4.5 搭建综合分析仪表盘
将所有分析图表整合至统一仪表盘,形成完整的可视化分析报告。
- 在左侧导航栏点击 “仪表盘” 选项,进入仪表盘管理页面。

- 点击左上角 “+” 按钮,选择 “新建仪表盘”,输入名称 “纪律高危型学生用户画像分析”,点击 “确认”。


- 在右侧组件面板中点击 “基础组件”,拖拽一个 “文本” 组件至画布顶部,输入标题 “纪律高危型学生用户画像分析”,设置字体为加粗、红色、24 号字并居中显示。


- 切换至 “工作表” 标签,将 4.4 节中制作的所有工作表依次拖拽至画布,调整为合理的布局。
- 再次拖拽 “文本” 组件至每个图表下方,输入对应的分析结论与解读文字,关闭 “超出隐藏” 开关以实现自动换行。
- 调整所有组件的大小与位置,使仪表盘整体美观、逻辑清晰。点击右上角 “发布” 按钮,保存并发布仪表盘。

- 点击 “预览” 按钮可全屏查看仪表盘效果;点击 “分享” 按钮可生成分享链接,支持他人在线访问查看。

- 整体规模结果:本次实验共识别出纪律高危型学生 421 人,占全校学生总数的一定比例。该群体虽人数不多,但行为影响大,是校园考勤管理的重点对象。
- 性别特征结果:男生在纪律高危型群体中的占比高于其全校基数占比,是高危行为的主要发生对象,性别差异显著。
- 年级特征结果:高危学生人数随年级升高呈明显上升趋势,高三年级占比最高,升学压力与自主管理能力下降是主要原因。
- 校区特征结果:老校区高危学生人数远高于新校区,且高三年级全部集中在老校区,是管理的核心区域。
- 班级特征结果:高危学生高度集中在少数班级,呈现明显的聚集性,班级管理水平与班风建设是关键影响因素。
- 可视化成果:成功制作了 10 个分析工作表和 1 个综合仪表盘,全面、直观地展示了纪律高危型学生群体的各项特征,形成了可分享、可展示的可视化分析报告。
- 数据集发布后无法引用
- 现象:新建工作表时找不到已创建的数据集
- 原因:数据集未成功发布或发布过程中出现错误
- 解决:返回数据集管理页面,重新点击 “保存并发布”;若仍无法解决,删除原有数据集重新创建并发布
- 图表数据显示不全
- 现象:柱状图、水平条图仅显示部分班级或年级数据
- 原因:平台默认数据限额为 2000 条,当数据量超过限额时会自动截断
- 解决:在工作表设计页面底部,将数据限额从 “2000” 修改为 “100%”
- 过滤器配置错误导致数据为空
- 现象:配置过滤器后图表无数据显示
- 原因:过滤器条件设置错误(比如将 “包含” 设为 “排除”)或字段值拼写错误
- 解决:检查过滤器配置,确认条件与字段值正确;可先移除过滤器查看原始数据,再逐步添加条件
本次实验基于助睿 BI 平台,以零代码方式完成了纪律高危型学生群体的多维度可视化分析,构建了完整的考勤画像分析体系。通过从整体概况、性别、年级、校区、班级五个维度深入挖掘数据,精准定位了高危行为的高发人群与重点区域,得出了一系列具有实际指导意义的结论,并形成了可分享的综合分析仪表盘。
通过本次实验,我熟练掌握了助睿 BI 平台的操作方法,包括数据集构建、各类图表制作、过滤器配置与仪表盘搭建等核心技能,深刻理解了数据可视化在用户画像构建与业务决策中的重要作用。同时也认识到,在数据分析过程中,不能仅看表面数据,还需要结合业务背景进行交叉分析,排除基数差异等干扰因素,才能得出客观、准确的结论。
本次实验也存在一些可以改进之处。一是未对数据中的异常值进行处理,可能对部分统计结果产生轻微影响;二是分析维度相对有限,未结合住校状态、政治面貌等属性进行更深入的挖掘。在后续的学习中,我将进一步完善分析方法,拓展分析维度,提升数据分析的深度与广度。
更多推荐



所有评论(0)