零代码实现 K-Means 聚类：基于助睿数智平台的学生考勤行为分群实战

选择后会自动加载表信息，我们主要是分析各类异常考勤占比的特征，所以只需保留 student_id 、class_id、late_count、early_leave_count、leave_count、uniform_violate_count，其他字段跳过（skip）；在该模块页面中，主要包括三个模块，分别是菜单栏，控件列表以及画布（用于工作流构建）。可以看到存在性别“未知”数据，需要将“未知”数

2301_80418516

57人浏览 · 2026-05-24 17:17:00

2301_80418516 · 2026-05-24 17:17:00 发布

实验背景
1实验说明
基于已完成的学生考勤主题标签表（student_attendance_stats），使用 K-Means 聚类算法对学生考勤行为进行自动分群。通过迟到、早退、请假、校服违规次数等核心指标，识别不同类型的考勤群体，生成可解释的考勤画像，为校园学生管理、行为分析提供精准数据支撑。

2 实验数据
2.1 数据构成
本次实验使用上一实验输出的学生考勤主题标签表，数据包含学生基础信息与考勤次数统计结果，为聚类建模提供干净、标准化的特征数据。
2.2 字段说明

2.3 建模思路

二、实验步骤
人工智能平台（AI Studio）是一站式大数据智能应用平台，以零代码拖拽的方式简化机器学习全流程，提供从数据加载、预处理、特征工程到模型训练与评估的完整解决方案。平台内置 100 + 数据挖掘算法组件，支持主流深度学习框架，同时具备可视化建模、智能一键分析、协作共享与精细版本管理能力，无需深厚编程知识，即可高效实现数据价值挖掘与智能分析。
3.1 AI Studio 聚类建模
3.1.1 新建工作流
在该环节，我们使用 AI Studio 搭建从数据加载到聚类建模、结果输出的完整流程，为后续建模提供独立运行空间。
点击左边菜单“人工智能”，进入人工智能平台（AI Studio），进入人工智能模块用户空间
点击“+” - “新建工作流”

人工智能模块页面是集构建、运行、编辑、查看于一体的工作区域。在该模块页面中，主要包括三个模块，分别是菜单栏，控件列表以及画布（用于工作流构建）。如下图所示：
3.1.2 数据导入
首先，我们需要将 student_attendance_stats 的数据载入，搜索“数据库加载”控件，拖拽至画布
双击“数据库加载”控件，右边会出现参数配置窗口，将团队私有数据库的信息填入，并点击“连接”

在弹出的窗口中，点击下拉框，选择 student_attendance_stats

选择后会自动加载表信息，我们主要是分析各类异常考勤占比的特征，所以只需保留 student_id 、class_id、late_count、early_leave_count、leave_count、uniform_violate_count，其他字段跳过（skip）；为保留的字段选择对应的属性类型，最后点击“确定”

字段对应的属性类型参考如下：

右键数据库加载空间，点击“运行该控件”
运行成功后可右键点击“查看输出结果”
可以看到保留下来的数据

3.1.3 K-Means 聚类建模
拖入“K-Means”组件，创建数据库加载组件到“K-Means”组件的连线
双击“K-Means”组件，配置窗口中，簇数量选择固定3个，其他保持不变

右键运行该控件，查看输出结果，可以看到每个学生分别标记了对应的簇类C1/C2/C3

3.1.4 结果输出与保存
聚类后的数据我们需要保存到数据库中，以便后续使用
拖拽“数据入库”组件到画布，创建“K-Means”组件到“数据入库”组件的连线
双击“数据入库”组件，数据库配置中输入团队私有数据库的参数，并点击“获取表信息”
在弹出的窗口中，选择“新建数据表”，表名称修改为“student_cluster”，并点击“确定”

运行工作流，各控件均运行成功则工作流运行成功

3.2 分析聚类簇编号对应的考勤群体分类
上一步骤输出的聚类簇编号无法确定对应的考勤群体分类，可要通过助睿BI 可视化分析来确定
点击实验平台左边菜单“助睿BI”，进入助睿BI平台
如果是进入的页面是登录页面，可以关闭后，重新从实验平台进入

3.2.1 连接数据源
上一步骤输出的 student_cluster 存放于我们的团队私有数据库中，所以我们需要在助睿BI 平台中创建数据库连接
点击左边菜单中的“数据源”
点击左上角“+” - “新建连接” - “MySQL”

在弹出的窗口中输入自己所在小组在 Uniplore实验平台的数据库连接账号信息，点击“测试连接”

出现“测试连接成功”表示我们的连接正确，点击“确认”

点击新建的数据库目录，可以看到本次实验所用的学生考勤主题标签表（右键点击-查看表数据，可以预览表内数据）

3.2.2 构建数据集
数据源连接成功后，我们要将需要分析的数据表构建为数据集
点击左边菜单中的“数据集”
点击左上角“+” - “新建数据集”

在弹窗中输入数据集名称、所属分组、备注信息后点击“确认”

数据集创建成功后，会自动跳到该数据集的配置页面，第一步需要先选择数据源，助睿BI平台为防止这个步骤遗漏，做了强提醒，点击“好的，我知道了”可关闭提醒
数据源的第一个选项选择我们刚刚新建的数据源“商业数据分析实验” ，第二个选项则选择student_cluster 所在的目录“se_group_15”

数据源选择完成后，labs目录下的数据表自动出现在画布左边，将student_cluster 拖拽至画布中

3.2.3 制作工作表
工作表是助睿BI 平台中用于承载可视化图表、完成数据探索与分析的核心单元，是实现数据可视化展示的基础载体。
接下来我们开始制作聚类簇编号对应的考勤群体分类工作表
点击左边菜单中的“工作表”，进入工作表模块
为了方便管理，我们将本次制作的工作表集中存放在一个目录下，点击左上角的“+” - “新建分组”

在弹窗中输入分组名称、选择所属分组、填写备注信息后点击“确认”

右键或者点击聚类簇对应的考勤画像群体分类分析分组的“…”

在操作列表中点击“新建工作表”
在弹窗中输入工作表名称为“迟到早退次数的聚类簇分析”、选择所属分组、填写备注信息后点击“确认”

自动跳转到工作表设计页面，点击右上角“好的，我知道了”来关闭提醒

数据集选择刚刚创建的“聚类簇编号数据集”

图表类型选择“探索器”
将字段“late_count（迟到次数）”拖拽到X轴，“early_leave_count（早退次数）”拖拽到Y轴

点击图形设置按钮，打开设置面板
在设置面板中，点击颜色区域的“+”，在下拉框中选择“Cluster（聚类簇编号）”，并点击“确认”

点击信息区域的“+”，在下拉框中选择“student_id（学生ID）”，并点击“确认”
将“student_id（学生ID）”设置为“维度”
系统默认限额为2000条数据，因此，需要将限额设置为100%，避免数据过多不显示全部

为了区分更明显，我们可以设置聚类簇编号的颜色，点击颜色区域的设置按钮，切换对比强烈的主题

颜色设置后需要点击一下颜色区域外的地方才会生效

点击保存按钮，保存并发布工作表

同样的，重新新建工作表，依次两两分析4个异常考勤次数的3个聚类簇的表现情况
迟到与请假次数的聚类簇分析：

迟到与没穿校服次数的聚类簇分析

早退与请假次数的聚类簇分析：

早退与没穿校服次数的聚类簇分析：

请假与没穿校服次数的聚类簇分析：

3.2.4 搭建仪表盘
为了更好地观察分析以上制作的6个工作表，我们可以将它们放在一起
点击左边菜单“仪表盘”
点击左上角“+” - “新建仪表盘”

仪表盘名字输入“聚类簇分析”，备注信息输入“聚类簇分析”，点击“确认”

在右边组件与工作表区域，点击“基础组件”
拖拽一个文本组件到画布中
文本内容输入“聚类簇分析”，并设置字体颜色、字体大小、加粗、居中

关闭组件窗口
鼠标移至文本组件上，组件右下角可以拖动跳转组件大小
为了防止后续位置改变，可以点击右上角图钉图表，固定位置

点击工作表组件显示按钮
切换到“工作表”，将3.2.3节中制作的工作表都拖拽至画布中

拖入完毕后，可以按住图标顶部中间位置拖动图标，并使用鼠标对图表大小和布局进行调整

预期效果如下：

点击保存按钮，保存并发布仪表盘

双击“字段选择”组件，点击“移除”选项，并在字段名称下方空白区域右键-点击“获取字段”
选中 student_id、Cluster 字段后右键“删除选中的行”，表述除 student_id、Cluster 外，其他字段均被移除

将 student_id、class_id 的类型修改为Integer，点击元数据选项，插入2行， student_id、class_id 的配置如下：

最后点击“确认”
3.3.4 聚类簇编号映射
原始聚类簇编号以编号形式存储，可读性差，通过映射转换增加中文说明
添加“值映射”组件到画布中，并字段选择组件到值映射组件的连线，并选择“主输出步骤”
双击“值映射”组件，使用的字段名为“Cluster ”，目标字段名为“attendance_group”
在下方字段值表格空白处右键，点击“插入”
并点击“确认”

3.3.5 更新学生考勤主题标签
拖拽“更新”组件到画布中，并创建值映射组件到更新组件的连线

双击“更新”组件，在配置窗口中，数据库连接选择团队私有数据，目标模式为se_group_15

点击目标表后的“浏览”按钮，选择 student_attendance_stats，并点击“确定”

用来查询的关键字表格空白处获取字段，保留 student_id、class_id，表示更新时查询到数据表与流里的字段1相同时，执行更新操作
更新字段表格空白处获取字段，删除 student_id，这里需要注意，我们在增加扩展字段时，聚类簇编号的字段为cluster，所以在表字段的 Cluster 字段中需要双击后点击下拉框选择正确的表字段
最后的配置如下，表示当数据表的student_id与流里的student_id相同时，将流字段Cluster、attendance_group的值更新到表字段cluster、attendance_group中

3.3.6 运行转换流
点击运行按钮

执行结果和日志：

三、实验结果
查看结果
切换“元数据”选项，右键“团队私有数据库”，点击“加载元数据”
加载成功后点击“数据探查”
在团队私有数据库中点击 student_attendance_stats ，在点击“查询”，可以看到 cluster、attendance_group的数据已经更新成功了

四、问题解决
问题1：更新组件查询字段错误

错误信息：找不到查询关键字字段
原因：更新组件中配置了目标表不存在的字段（如 Cluster 大写 vs cluster 小写）
解决：只使用 student_id 作为唯一查询条件

五、实验总结
本次实验基于学生考勤次数数据，通过 K-Means 聚类算法完成学生考勤群体自动划分，利用次数特征建模保证了聚类结果的稳定性与可解释性。借助助睿BI 平台实现可视化分析，为机器生成的聚类簇赋予明确的业务含义，精准划分出自律模范型、轻微波动型、纪律高危型三类学生群体。最终将聚类标签回写至原始考勤表，完成考勤主题扩展标签构建，为校园学生精细化管理、行为干预和个性化教育提供了可靠的数据支撑。
学生用户画像-考勤主题扩展标签可视化
一、实验背景
1 实验说明

2 实验数据
数据结构
student_attendance_stats 学生考勤主题标签表的数据结构如下：

样例数据

二、实验步骤
3.1 进入助睿BI
进入实验平台后，点击左边菜单的“助睿BI”，进入助睿BI可视化探索平台

进入助睿BI 平台的首页，可以看到该账户下的数据情况、数据分析处理流程、支持的数据源有哪些

3.2 连接数据源
student_attendance_stats 存放于我们的团队私有数据库中，而上一个实验在“分析聚类簇编号对应的考勤群体分类”时已经创建了团队私有数据库的连接，因此，我们可以直接使用这个数据源，无需再连接数据源。
3.3 构建数据集
接下来，我们使用 student_attendance_stats 构建数据集，用于后续分析
点击左边菜单中的“数据集”
点击左上角“+” - “新建数据集”

在弹窗中输入数据集名称、所属分组、备注信息后点击“确认”

数据集创建成功后，会自动跳到该数据集的配置页面，第一步需要先选择数据源，助睿BI 平台为防止这个步骤遗漏，做了强提醒，点击“好的，我知道了”可关闭提醒
数据源的第一个选项选择我们刚刚新建的数据源“商业数据分析实验” ，第二个选项则选择student_attendance_stats 所在的目录“labs”

数据源选择完成后，labs目录下的数据表自动出现在画布左边，将student_attendance_stats拖拽至画布中
查看数据的表结构及数据，由于我们之前实验中的建表语句中已经包含了字段的中文备注，因此，这里我们不需要设置字段备注，直接点击画布左上角“保存”按钮

在保存提示中点击“保存并发布”，只有发布后的数据集才能在工作表中引用
3.4 制作工作表
工作表是承载可视化图表、开展数据分析的基础单元
点击左边菜单中的“工作表”，进入工作表模块
为方便管理，相同主题分析的工作表最好都放置在一个目录下，点击左上角的“+” - “新建分组”

在弹窗中输入分组名称、选择所属分组、填写备注信息后点击“确认”

3.4.1 整体概况指标卡
指标卡是助睿BI 平台中用于直观展示核心统计数值的基础组件，能够快速呈现关键指标，便于整体把控高危群体概况。
3.4.1.1 纪律高危型总人数
右键或者点击学生考勤主题分析分组的“…”

在操作列表中点击“新建工作表”
在弹窗中输入工作表名称为“自律模范型人数”、选择所属分组、填写备注信息后点击“确认”

自动跳转到工作表设计页面
在数据集下拉框中选择广告构建的数据集“学生考勤主题数据集”
自律模范型人数=自律模范型中的所有学生ID去重计数
在左边基础图表中点击“指标卡”

将字段“student_id（学生ID）”拖拽到值
点开字段“student_id”的聚合类型，点击“去重计数”

点击图形设置图标打开设置面板
点击过滤器中的“+”，在下拉框中选择“attendance_group（考勤群体分类）”，并点击“确认”
点击过滤器中“attendance_group”后的“···” - “编辑”

在过滤器配置中点击“包含以下选项”，并勾选“纪律高危型”，在点击“确认”

指标卡即显示纪律高危型人数

接下来，我们可以点击“样式设置”，对指标卡样式进行调整
点开基础设置，将4个边距都改为最大值16

点开标题设置，将标题字体大小改色16，字体颜色改为红色，显示位置改为顶部居中

点开值设置，将字体大小改为30，字体颜色改为红色，粗体开关保持打开，显示位置保持水平居中

点击“保存”按钮
在保存提示中点击“保存并发布”
点击“显示分组”按钮，即可看到学生总人数指标卡已经发布成功

3.4.1.2 纪律高危型男生人数
参考“3.4.1.1 纪律高危型总人数”步骤，重新新建工作表“纪律高危型男生人数”，完成指标卡的制作，只需要多一步操作：在筛选器中添加“gender（性别）”字段，并设置为包含“男

再调整一下样式即可

3.4.1.2 纪律高危型女生人数
参考“3.4.1.1 自律模范型人数”步骤，只需要多一步操作：在筛选器中添加“gender（性别）”字段，并设置为包含“女”

再调整一下样式即可

3.4.1.4 纪律高危型未知性别人数
参考“3.4.1.1 自律模范型人数”步骤，只需要多一步操作：在筛选器中添加“gender（性别）”字段，并设置为包含“未知”

再调整一下样式即可

3.4.1.5 整体指标分析

3.4.2 纪律高危型学生性别特征分析
在该环节，我们制作纪律高危型学生性别占比饼图，同时结合全校性别基数数据，分析高危群体的性别倾向
3.4.2.1 纪律高危型学生男女人数占比
新建工作表“纪律高危型学生男女人数占比”

数据集选择“学生考勤主题数据集”，图表类型选择“饼图”
将字段“student_id”拖拽到值，“gender”拖拽到分类，并将“student_id”的聚合方式设置为“去重计数”
可以看到存在性别“未知”数据，需要将“未知”数据过滤掉，点击图像设置，并点击过滤器中的“+”，在下拉列表中选择“gender”，最后点击“确认”
点击过滤器中的“gender”后的“···”，并点击“编辑”
在过滤器设置中点击“排除以下选项”，勾选“未知”，点击“确认”

并点击过滤器中的“+”，在下拉列表中选择“attendance_group”，最后点击“确认”
点击过滤器中的“attendance_group”后的“···”，并点击“编辑”
在过滤器设置中点击“包含以下选项”，勾选“纪律高危型”，点击“确认”

系统默认的饼图没有百分比标签数据，我们可以点击“样式设置” - “图表元素设置” - “标签显示形式” - “勾选百分比”
其他样式可根据自身需求设置，例如图表元素设置中的内环大小设置为“50%”，扇形设置中的扇形圆角半径设置为“10”
修改主题色

样式调整完毕后，点击“保存”按钮，“保存并发布”工作表
3.4.2.2 全校学生男女人数占比
为了排除性别基数差异带来的误判，我们需要分析全校学生男女人数占比
新建工作表“全校学生男女人数占比”

参考“3.4.2.1 纪律高危型学生男女人数占比”步骤，完成饼图制作，过滤器中只需要过滤掉性别“未知”的数据，考勤群体分类“attendance_group”无需做过滤
3.4.2.3 性别特征分析

3.4.3 纪律高危型学生年级特征分析
在该环节，我们制作纪律高危型学生年级分布堆叠条形图，观察不同年级高危学生的情况
新建工作表“纪律高危型学生年级特征分析”
数据集选择“学生考勤主题数据集”，图表类型选择“柱状图”
将字段“grade”拖拽到X轴，“student_id”拖拽到Y轴，并将“student_id”的聚合方式设置为“去重计数”