助睿实验作业 - 学生考勤行为聚类分析与用户画像构建
技术能力提升:我熟练掌握了助睿数智零代码平台的使用方法,能够独立完成从数据加载、机器学习建模、可视化分析到数据回写的全流程操作。同时,我也深入理解了 K-Means 聚类算法的原理和应用场景,学会了如何根据业务需求选择合适的特征和参数。数据分析思维培养:我学会了如何从业务问题出发,设计合理的数据分析方案。特别是在将机器生成的抽象聚类结果转化为具有业务可解释性的用户画像过程中,我深刻体会到了数据与业
标签:# 助睿数智 #商业数据分析 #机器学习 #用户画像 #K-Means 聚类
一、实验背景
1.1 实验目的
本次实验使用助睿数智(Uniplore)一站式数据科学实验平台完成,旨在达成以下目标:
-
掌握零代码平台下 K-Means 无监督聚类算法的完整操作流程,理解聚类分析的基本原理与业务应用场景
-
学会基于业务需求进行特征选择与数据预处理,能够独立完成从数据加载到模型训练的全流程操作
-
熟练使用助睿 BI 平台进行多维度数据可视化分析,能够将机器生成的抽象聚类结果转化为具有业务可解释性的用户画像
-
掌握数据回写与标签体系构建的方法,能够将分析结果落地到业务数据表中,为后续业务应用提供支撑
-
培养数据驱动的思维方式,学会运用数据分析方法解决校园管理中的实际问题
1.2 实验环境
- 实验平台
:助睿数智(Uniplore)一站式数据科学实验平台
-
平台定位:覆盖数据接入、ETL 处理、机器学习建模到可视化分析的全链路 Agentic 零代码数据智能平台
-
产品官网:https://www.uniplore.com/
-
实验平台地址:https://lab.guilan.cn/
-
- 核心功能模块
-
数据集成平台(助睿 ETL)
-
人工智能平台(助睿 AI Studio)
-
助睿 BI 数据可视化探索平台
-
- 数据库
:MySQL 8.0
- 前置数据
:经过预处理的学生考勤主题标签表(
student_attendance_stats) - 浏览器要求
:Google Chrome 90 及以上版本(推荐)
1.3 整体处理流程
本次实验遵循 "数据准备→模型构建→可视化分析→结果落地" 的标准数据分析流程,整体逻辑如下:
-
从 MySQL 数据库加载预处理好的学生考勤数据
-
使用 K-Means 聚类算法对学生考勤行为进行自动分群
-
通过助睿 BI 平台制作多维度可视化图表,对聚类结果进行解读
-
构建学生考勤用户画像标签体系,将标签回写到原始数据表中
-
验证数据更新结果,完成实验总结
二、实验步骤
2.1 AI Studio 聚类建模
人工智能平台(AI Studio)提供了可视化拖拽式的机器学习开发环境,内置 200 + 数据挖掘与 AI 算法组件,无需编写代码即可完成复杂的机器学习任务。
2.1.1 新建实验工作流
-
登录助睿数智实验平台,在左侧导航栏中找到并点击 "人工智能" 选项,进入 AI Studio 模块
-

-
在用户空间页面,点击右上角的 "+" 按钮,在下拉菜单中选择 "新建工作流"
-
在弹出的 "新建工作流" 对话框中,输入工作流名称 "学生考
-
勤聚类分析_20260525",选择保存到 "我的实验" 文件夹,点击 "确定"
-
进入工作流编辑界面,该界面由顶部菜单栏、左侧控件列表和中央画布三部分组成

2.1.2 数据导入与字段配置
-
在左侧控件列表的搜索框中输入 "数据库加载",找到该控件后将其拖拽至中央画布
-

-
双击 "数据库加载" 控件,打开右侧的参数配置面板
-
数据库类型选择 "MySQL",依次输入团队私有数据库的地址、端口、数据库名、用户名和密码,点击 "测试连接" 按钮
-

-
当出现 "连接成功" 提示后,点击 "选择表" 下拉框,找到并选择
student_attendance_stats表 -

-
在字段配置区域,按照以下规则进行字段筛选与类型设置:
-
保留字段:
student_id(categorical)、class_id(categorical)、late_count(numeric)、early_leave_count(numeric)、leave_count(numeric)、uniform_violate_count(numeric) -
其余所有字段均选择 "skip" 跳过
-
-
点击 "确定" 按钮保存配置

右键点击画布中的 "数据库加载" 控件,在弹出的菜单中选择 "运行该控件"
-
运行完成后,再次右键点击控件,选择 "查看输出结果",确认数据加载正确且字段无误
-

配置要点:
-
确保数据库连接信息准确无误,特别是端口号和数据库名
-
字段类型设置必须正确,数值型字段要设置为 numeric,否则会影响后续聚类算法的运行
-
只保留与聚类分析相关的字段,减少无关数据对模型的干扰
2.1.3 K-Means 聚类算法配置
-
在左侧控件列表中搜索 "K-Means",将该控件拖拽至画布
-
将鼠标悬停在 "数据库加载" 控件上,点击右侧出现的连接点,拖动鼠标至 "K-Means" 控件的左侧连接点,创建两者之间的连线
-

-
双击 "K-Means" 控件,打开参数配置面板:
-
簇数量:选择 "固定",值为 3(结合校园管理实际需求,将学生分为三类)
-
初始化方法:k-means++(该方法能够有效避免随机初始化导致的局部最优解问题)
-
重新运行次数:10(取多次运行的最优结果,提高模型稳定性)
-
最大迭代次数:200(确保算法有足够的迭代次数收敛)
-
距离度量:欧氏距离(默认值,适用于本次实验的数值型数据)
-
其余参数保持默认值
-
-
点击 "确定" 按钮保存配置
-

-
右键点击 "K-Means" 控件,选择 "运行该控件"
-

-
运行完成后,查看输出结果,可以看到每条学生记录都被分配了对应的聚类簇编号(C1/C2/C3)和轮廓系数
-

配置要点:
-
簇数量的选择需要结合业务需求和数据特征,本次实验选择 3 类是因为符合校园管理中 "优秀 - 良好 - 待改进" 的分类逻辑
-
轮廓系数是评估聚类质量的重要指标,取值范围为 [-1,1],值越接近 1 表示聚类效果越好
2.1.4 聚类结果保存
-
在左侧控件列表中搜索 "数据入库",将该控件拖拽至画布
-
创建从 "K-Means" 控件到 "数据入库" 控件的连线
-
双击 "数据入库" 控件,打开参数配置面板
-
输入与之前相同的数据库连接信息,点击 "获取表信息" 按钮
-
在弹出的对话框中选择 "新建数据表",将表名设置为
student_cluster -
勾选 "清空重建表" 选项,确保每次运行都会生成新的结果表
-


-
点击 "确定" 按钮保存配置
-
点击画布顶部的 "保存" 按钮保存整个工作流
-
点击 "运行" 按钮执行整个工作流,等待所有控件运行成功
-

2.2 聚类结果可视化与群体画像分析
通过助睿 BI 平台对聚类结果进行多维度可视化分析,将抽象的数字转化为直观的图表,从而为每个聚类簇赋予明确的业务含义。
2.2.1 连接 BI 数据源
-
返回实验平台首页,点击左侧导航栏中的 "助睿 BI" 选项,进入 BI 可视化平台
-


-
点击左侧导航栏中的 "数据源" 选项
-
点击左上角的 "+" 按钮,在下拉菜单中选择 "新建连接"→"MySQL"
-
在弹出的连接配置窗口中,输入团队私有数据库的连接信息:
-

-
连接名称:考勤聚类实验数据库
-
主机:[团队数据库地址]
-
端口:3306
-
数据库:labs
-
用户名:[团队数据库用户名]
-
密码:[团队数据库密码]
-
-
点击 "测试连接" 按钮,当出现 "测试连接成功" 提示后,点击 "确定" 按钮完成数据源创建
-

-
在数据源列表中找到刚刚创建的连接,点击展开可以看到
student_cluster -

2.2.2 构建分析数据集
-
点击左侧导航栏中的 "数据集" 选项
-
点击左上角的 "+" 按钮,选择 "新建数据集"
-
在弹出的对话框中,输入数据集名称 "聚类簇编号数据集",选择所属分组为 "根目录",点击 "确定"
-

-
在数据集配置页面,点击 "请选择数据源" 提示,选择刚刚创建的 "考勤聚类实验数据库" 数据源
-

-
在左侧的表列表中找到
student_cluster,将其拖拽至右侧画布 -

-
系统会自动加载表结构,为每个字段添加中文备注:
student_id:学生 ID
class_id:班级 ID
late_count:迟到次数
early_leave_count:早退次数
leave_count:请假次数
uniform_violate_count:未穿校服次数
Cluster:聚类簇编号
Silhouette:轮廓系数
-
点击画布左上角的 "保存" 按钮
-

-
在弹出的保存提示中,选择 "保存并发布",只有发布后的数据集才能在工作表中引用
-


2.2.3 制作多维度可视化分析图表
工作表是助睿 BI 平台中用于承载可视化图表的核心单元,我们将创建 7 个不同维度的分析图表来全面解读聚类结果。
-
点击左侧导航栏中的 "工作表" 选项
-
点击左上角的 "+" 按钮,选择 "新建分组",输入分组名称 "考勤聚类分析图表",点击 "确定"
-


-
右键点击该分组,选择 "新建工作表",开始创建第一个图表:
图表 1:迟到 - 早退次数散点图

数据集:迟到早退次数的聚类簇分析
-
图表类型:探索器(散点图)
-

-
X 轴:late_count(迟到次数)
-
Y 轴:early_leave_count(早退次数)
-

点击图形设置按钮,打开设置面板

-
颜色:Cluster(聚类簇编号)
-

-
信息:student_id(学生 ID)
-

-
将“student_id(学生ID)”设置为“维度”
-

-
系统默认限额为2000条数据,因此,需要将限额设置为:100%
-

-
点击 "保存" 按钮,选择 "保存并发布"
按照同样的方法,依次创建以下 6 个图表:
- 图表 2:迟到 - 请假次数散点图
:X 轴 = late_count,Y 轴 = leave_count

- 图表 3:迟到 -没穿 校服次数散点图
:X 轴 = late_count,Y 轴 = uniform_violate_count

- 图表 4:早退 - 请假次数散点图
:X 轴 = early_leave_count,Y 轴 = leave_count

- 图表 5:早退 - 没穿校服次数散点图
:X 轴 = early_leave_count,Y 轴 = uniform_violate_count

- 图表 6:请假 - 没穿校服次数散点图
:X 轴 = leave_count,Y 轴 = uniform_violate_count

2.2.4 搭建综合分析仪表盘
为了更直观地对比和分析所有图表,我们将它们整合到一个仪表盘中。
-
点击左侧导航栏中的 "仪表盘" 选项
-
点击左上角的 "+" 按钮,选择 "新建仪表盘"
-

-
输入仪表盘名称 "学生考勤聚类综合分析",点击 "确定"
-

-
在右侧 "组件和工作表" 面板中,先拖拽一个 "文本" 组件到画布顶部
-
编辑文本内容为 "学生考勤行为聚类分析结果",设置字体大小为 24 号、加粗、居中对齐
-

-
鼠标移至文本组件上,组件右下角可以拖动跳转组件大小,为了防止后续位置改变,可以点击右上角图钉图表,固定位置
-

-
切换到 "工作表" 标签,将刚才创建的 6个工作表依次拖拽至画布
-

-
调整图表大小和布局:将雷达图放在第一行居中位置,6 个散点图分成3行,每行 32个
-
点击每个图表右上角的图钉图标,固定图表位置,防止误操作移动
-
点击画布顶部的 "保存" 按钮,选择 "保存并发布"
-

2.2.5 聚类群体画像解读
结合 7 个可视化图表的分析结果,我们可以为三个聚类簇赋予清晰的业务含义:
|
聚类簇编号 |
代表颜色 |
群体分类名称 |
核心特征描述 |
占比 |
管理建议 |
|---|---|---|---|---|---|
|
C1 |
蓝色 |
自律模范型 |
所有考勤异常指标均远低于平均水平,平均迟到 0.2 次、早退 0.1 次、请假 1.5 次、校服违规 0.3 次。数据点高度集中在原点附近,无明显离群值。这类学生纪律意识极强,出勤表现稳定,是班级考勤的标杆。 |
65% |
树立为班级榜样,邀请其分享自律经验,可适当赋予班级纪律管理职责,培养其领导能力 |
|
C2 |
青色 |
轻微波动型 |
整体考勤表现良好,平均迟到 1.8 次、早退 0.5 次、请假 3.2 次、校服违规 1.3 次。主要问题集中在偶发的校服违规和病假请假,迟到早退次数极少。这类学生纪律意识尚可,仅存在个别轻微违纪行为。 |
28% |
进行常规提醒,重点关注其请假原因,及时了解学生的身体和心理状况,给予必要的关心和帮助 |
|
C3 |
黄色 |
纪律高危型 |
考勤问题突出,平均迟到 8.5 次、早退 3.1 次、请假 6.2 次、校服违规 4.7 次。存在多维度违纪叠加现象,部分学生迟到次数超过 25 次,是唯一出现极端离群值的群体。这类学生纪律意识薄弱,需要重点关注。 |
7% |
进行一对一深度谈话,深入了解违纪背后的原因,联合家长制定个性化改进计划,每周跟踪考勤表现,及时给予反馈和鼓励 |
2.3 考勤画像标签回写与数据整合
将聚类分析得到的群体标签回写到原始学生考勤主题标签表中,完成考勤主题标签体系的扩展,便于后续业务系统直接调用。
2.3.1 为原始表新增扩展字段
-
返回实验平台首页,点击左侧导航栏中的 "数据集成",进入 ETL 平台
-
打开之前创建的 "学生考勤数据处理" 项目
-
点击 "新建转换流",命名为 "增加考勤主题扩展标签字段"
-

-
在左侧控件列表中搜索 "执行 SQL 脚本",将其拖拽至画布
-
双击该控件,选择团队私有数据库连接
- 在 SQL 脚本输入框中输入以下语句:
-- 为学生考勤主题标签表添加聚类分析结果字段
ALTERTABLE student_attendance_stats
ADDCOLUMN cluster_code VARCHAR(10)NULLDEFAULTNULLCOMMENT'聚类簇编号',
ADDCOLUMN attendance_type VARCHAR(30)NULLDEFAULTNULLCOMMENT'考勤群体类型',
ADDCOLUMN label_update_time TIMESTAMPDEFAULTCURRENT_TIMESTAMPONUPDATECURRENT_TIMESTAMPCOMMENT'标签更新时间'; -
点击 "确定" 按钮保存配置
-
右键点击控件,选择 "运行该控件"
-
运行成功后,原始表已新增三个扩展字段
-


2.3.2 读取聚类结果数据
-
在同一项目中新建转换流,命名为 "增加考勤群体分类标签"
-
拖拽 "表输入" 控件至画布
-

-
双击 "表输入" 控件,选择团队私有数据库连接,选择分类结果表 student_cluster 的所有SQL 查询语句
-

2.3.3 字段选择与类型转换
-
拖拽 "字段选择" 控件至画布
-
创建从 "表输入" 控件到 "字段选择" 控件的连线
-

-
双击 "字段选择" 控件,切换到 "移除" 标签页
-
右键点击空白处,选择 "获取字段"
-

-
选中除
student_id和cluster外的所有字段,点击 "删除选中的行" -

-
切换到 "元数据" 标签页,点击 "插入" 按钮,添加两行配置:
-
第一行:字段名 = student_id,类型 = Integer,长度 = 10
-
第二行:字段名 = cluster_code,类型 = String,长度 = 10
-
-


-
点击 "确定" 按钮保存配置
2.3.4 聚类簇编号映射转换
-
拖拽 "值映射" 控件至画布
-
创建从 "字段选择" 控件到 "值映射" 控件的连线
-

-
双击 "值映射" 控件,进行如下配置:
-
使用的字段名:cluster_code
-
目标字段名:attendance_type
-
不匹配时的默认值:未知
-
-
在字段值映射表中右键点击空白处,选择 "插入",添加以下映射关系:
-
源值:C1,目标值:自律模范型
-
源值:C2,目标值:轻微波动型
-
源值:C3,目标值:纪律高危型
-

-
-
点击 "确定" 按钮保存配置
2.3.5 配置数据更新操作
-
拖拽 "更新" 控件至画布
-
创建从 "值映射" 控件到 "更新" 控件的连线
-
双击 "更新" 控件,进行如下配置:
-
数据库连接:团队私有数据库
-
目标模式:labs
-
目标表:student_attendance_stats
-
提交记录数量:1000(提高批量更新效率)
-

-
-
在 "用来查询的关键字" 区域,点击 "获取字段" 按钮,保留以下条件:
-
表字段:student_id,比较符:=,流里的字段 1:student_id
-
表字段:class_id,比较符:=,流里的字段 1:class_id
-
-
在 "更新字段" 区域,点击 "获取字段" 按钮,删除除以下字段外的所有字段:
-
表字段:cluster_code,流字段:cluster_code
-
表字段:attendance_type,流字段:attendance_type
-
-
点击
-

2.3.6 运行转换流并验证结果
-
点击画布顶部的 "保存" 按钮保存转换流
-
点击 "运行" 按钮执行转换流
-
运行完成后,查看执行日志,确认更新的记录数量与学生总数一致
-

-
切换到 "元数据" 选项卡,右键点击团队私有数据库,选择 "加载元数据"
-
点击 "数据探查",找到
student_attendance_stats表,点击 "查询" -
查看表数据,确认
cluster_code、attendance_type和label_update_time字段已正确填充 -

三、实验结果
3.1 聚类结果统计
本次实验共对 1256 名学生的考勤数据进行了聚类分析,最终将学生划分为三类群体,统计结果如下:
|
考勤群体类型 |
学生人数 |
占比 |
平均迟到次数 |
平均早退次数 |
平均请假次数 |
平均校服违规次数 |
|---|---|---|---|---|---|---|
|
自律模范型 |
816 |
65.0% |
0.2 |
0.1 |
1.5 |
0.3 |
|
轻微波动型 |
352 |
28.0% |
1.8 |
0.5 |
3.2 |
1.3 |
|
纪律高危型 |
88 |
7.0% |
8.5 |
3.1 |
6.2 |
4.7 |
|
总计 |
1256 |
100.0% |
1.2 |
0.4 |
2.3 |
0.9 |
3.2 可视化分析结果
-
散点图分析:从 6 组两两指标散点图可以清晰地看到三个聚类簇的分布特征。C1 群体的数据点高度集中在原点附近,几乎没有异常值;C2 群体的数据点分布范围略大,但仍集中在低频次区域;C3 群体的数据点则明显分散在高频次区域,且存在多个极端离群值。[图片位置:6 组散点图组合截图]
-
雷达图分析:聚类群体特征雷达图直观地展示了三类群体在四个考勤维度上的差异。C1 群体的雷达图面积最小,说明其在所有维度上的表现都很好;C2 群体的雷达图面积中等,主要在请假和校服违规两个维度上略有突出;C3 群体的雷达图面积最大,且在所有维度上都明显高于其他两个群体。
3.3 标签回写结果
通过 ETL 工具,我们成功将聚类结果回写到了原始学生考勤主题标签表中。所有 1256 条学生记录都正确添加了cluster_code和attendance_type字段,label_update_time字段也自动记录了标签更新的时间。数据验证结果显示,各类群体的人数和占比与聚类结果完全一致,说明数据回写过程准确无误。
四、问题与解决
在本次实验过程中,我遇到了以下几个问题,通过查阅平台文档和尝试不同的解决方法,最终都成功解决了。
问题 1:数据库连接失败
问题现象:在配置 "数据库加载" 控件时,输入数据库连接信息后点击 "测试连接",提示 "连接失败,请检查网络和连接信息"。
问题原因:
-
数据库地址输入错误
-
端口号填写不正确
-
数据库用户名或密码错误
-
网络问题导致无法连接到数据库服务器
解决方法:
-
仔细核对数据库连接信息,确保地址、端口、用户名和密码都准确无误
-
检查网络连接是否正常,可以尝试 ping 数据库服务器地址
-
如果仍然无法连接,联系实验平台管理员,确认数据库服务器是否正常运行
问题 2:K-Means 控件运行报错
问题现象:运行 K-Means 控件时,提示 "数据类型不匹配,无法进行聚类分析"。
问题原因:在 "数据库加载" 控件中,将数值型字段(如 late_count)错误地设置为了 categorical 类型,导致 K-Means 算法无法处理。
解决方法:
-
双击 "数据库加载" 控件,打开参数配置面板
-
检查所有数值型字段的类型,确保都设置为 numeric
-
重新运行 "数据库加载" 控件,然后再运行 K-Means 控件
问题 3:BI 中数据集发布失败
问题现象:在保存数据集时,选择 "保存并发布",提示 "数据集发布失败,请检查表结构是否正确"。
问题原因:数据表中存在空值或特殊字符,导致数据集无法正常发布。
解决方法:
-
回到 AI Studio,检查聚类结果表中是否存在空值
-
如果存在空值,可以使用 "缺失值填充" 控件进行处理
-
重新生成聚类结果表,然后在 BI 中重新创建数据集并发布
问题 4:数据更新失败
问题现象:运行 "更新" 控件时,提示 "更新失败,字段类型不匹配"。
问题原因:在 "字段选择" 控件中,没有正确设置字段类型,导致流中的字段类型与目标表中的字段类型不一致。
解决方法:
-
双击 "字段选择" 控件,切换到 "元数据" 标签页
-
检查所有字段的类型,确保与目标表中的字段类型一致
-
重新运行转换流
五、实验总结
5.1 实验收获
通过本次实验,我收获颇丰,主要体现在以下几个方面:
- 技术能力提升
:我熟练掌握了助睿数智零代码平台的使用方法,能够独立完成从数据加载、机器学习建模、可视化分析到数据回写的全流程操作。同时,我也深入理解了 K-Means 聚类算法的原理和应用场景,学会了如何根据业务需求选择合适的特征和参数。
- 数据分析思维培养
:我学会了如何从业务问题出发,设计合理的数据分析方案。特别是在将机器生成的抽象聚类结果转化为具有业务可解释性的用户画像过程中,我深刻体会到了数据与业务结合的重要性。
- 问题解决能力增强
:在实验过程中遇到了多个问题,通过自己的思考和尝试,最终都成功解决了。这不仅提高了我的问题解决能力,也增强了我面对困难时的信心。
- 团队协作意识
:在实验过程中,我与小组成员互相帮助,共同解决遇到的问题,分享实验经验和心得,这让我深刻认识到了团队协作的重要性。
5.2 对平台的整体评价
助睿数智(Uniplore)一站式数据科学实验平台给我留下了非常深刻的印象,它具有以下几个显著的优点:
- 零代码操作
:平台采用可视化拖拽式的操作方式,无需编写复杂的代码,即使是没有编程基础的人也能快速上手,大大降低了数据分析的门槛。
- 功能全面
:平台集成了数据集成、机器学习、可视化分析等多个功能模块,能够满足从数据准备到结果展示的全流程需求,无需在多个工具之间切换。
- 界面友好
:平台的界面设计简洁美观,操作逻辑清晰,各个功能模块的布局合理,用户体验很好。
- 学习资源丰富
:平台提供了详细的文档和实验指导,还有丰富的案例和教程,能够帮助用户快速掌握平台的使用方法。
当然,平台也存在一些可以改进的地方:
- 运行速度有待提升
:在处理较大数据集时,平台的运行速度会变慢,特别是在运行机器学习算法和生成可视化图表时,需要等待较长时间。
- 错误提示不够详细
:当出现错误时,平台的错误提示信息比较简单,有时候难以快速定位问题所在。
- 自定义功能有限
:虽然平台提供了丰富的内置组件,但对于一些特殊的需求,自定义功能还不够灵活。
5.3 未来改进方向
本次实验虽然取得了不错的成果,但仍然存在一些不足之处,未来可以从以下几个方面进行改进:
- 多维度数据融合
:本次实验仅使用了考勤数据进行分析,未来可以整合学生的学习成绩、消费行为、图书馆借阅等多维度数据,构建更全面、更立体的学生用户画像。
- 算法优化与对比
:本次实验仅使用了 K-Means 一种聚类算法,未来可以尝试使用 DBSCAN、层次聚类等其他算法进行对比分析,选择最适合的算法。
- 动态画像构建
:本次实验构建的是静态的用户画像,未来可以引入时间序列分析技术,构建动态更新的学生考勤画像,实时监测学生行为变化,实现对异常行为的提前预警。
- 业务系统集成
:将构建好的学生考勤画像标签体系与学校的教务管理系统、学生管理系统集成,开发自动化的学生行为预警和干预系统,真正实现数据驱动的智慧校园管理。
更多推荐



所有评论(0)