零代码玩转 K-Means 聚类｜学生考勤画像完整实现流程

2301_79496003

418人浏览 · 2026-05-26 18:34:26

2301_79496003 · 2026-05-26 18:34:26 发布

不用手写 Python 代码，借助一站式数据平台，就能完成聚类建模、数据分析、可视化与数据更新全流程。本文详细记录学生考勤画像实验全过程，包含操作步骤、常见报错处理，干货满满。

本次实验基于已构建完成的学生考勤主题标签数据表，依托助睿数智平台，运用K-Means聚类无监督机器学习算法，对学生考勤行为数据进行智能化分群分析。实验以学生迟到、早退、请假、校服违规四大核心考勤指标为建模依据，自动挖掘学生考勤行为的潜在规律与群体特征，实现学生考勤行为的精细化分类。

同时，通过数据可视化工具对聚类结果进行可视化解析，将机器生成的抽象聚类编号转化为具备校园管理业务意义的学生画像标签，最终把分类标签回写入原始考勤数据表，完成考勤主题扩展标签的搭建。本次实验成果可为校园学生日常管理、违纪行为预警、针对性行为干预、个性化德育管理提供精准的数据支撑，助力校园智慧化学生管理落地。

二、实验环境

2.1 硬件与网络环境

电脑设备正常联网，可稳定访问助睿数智（Uniplore）在线实验平台，无网络卡顿、页面加载异常等问题，满足大数据建模、数据处理与可视化分析的运行条件。

2.2 软件与平台环境

本次实验全程基于助睿数智（Uniplore）一站式数据科学平台完成，核心使用平台三大功能模块：

数据集成平台（助睿ETL）：用于数据表字段新增、数据筛选、字段映射、数据更新与批量同步处理；

人工智能平台（AI Studio）：零代码拖拽式完成数据加载、K-Means聚类建模、模型运行、结果数据入库全流程操作；

助睿BI数据可视化平台：用于数据源连接、数据集构建、可视化图表制作、仪表盘搭建与聚类结果业务解读。

2.3 数据与数据库环境

数据库采用MySQL，依托团队私有数据库开展实验，核心前置数据为上一实验输出的学生考勤主题标签表（student_attendance_stats），数据表字段规范、数据干净无冗余，可直接用于聚类建模分析。

三、实验步骤

3.1 AI Studio平台K-Means聚类建模

3.1.1 新建实验工作流

登录助睿数智平台，点击左侧菜单栏【人工智能】进入AI Studio智能建模平台，在用户空间中点击【+】-【新建工作流】，创建空白建模工作流，为后续数据处理、算法建模、结果存储提供独立运行画布。

3.1.2 加载实验数据源

在左侧控件列表搜索并拖拽【数据库加载】控件至画布，双击控件进入参数配置页面，填写团队私有MySQL数据库的地址、端口、库名、账号密码，点击连接测试，确保数据库连接成功。

连接成功后，在数据表列表中选中student_attendance_stats学生考勤标签表，进行字段筛选与属性配置。仅保留建模所需的学生ID、班级ID、迟到次数、早退次数、请假次数、校服违规次数字段，其余基础信息、时间字段统一跳过。同时将四类考勤次数字段设置为数值型，学生ID、班级ID设置为分类型，完成数据预处理配置。

配置完成后右键点击控件，选择【运行该控件】，运行成功后可查看清洗后的标准化实验数据。

3.1.3 配置并运行K-Means聚类模型

在控件列表拖拽【K-Means聚类】组件至画布，将数据库加载控件与K-Means组件建立数据连线。双击K-Means组件进行参数配置，固定聚类簇数量为3，初始化方式选择k-means++，最大迭代次数设置为200次，其余参数保持平台默认值，保证聚类结果稳定、精准。

参数配置完成后运行控件，模型自动根据四类考勤行为指标，将所有学生数据划分为C1、C2、C3三个聚类簇，每条学生数据都会生成对应的簇类标签，完成学生考勤行为的自动分群。

3.1.4 聚类结果数据入库保存

拖拽【数据入库】组件至画布，连接K-Means组件与数据入库组件。双击数据入库控件，填写团队私有数据库参数，选择新建数据表，将数据表命名为student_cluster，用于专门存储本次聚类建模的结果数据。

配置完成后运行完整工作流，所有控件均显示运行成功，即代表聚类结果数据已成功存入数据库，为后续可视化分析与标签回写提供数据基础。

3.2 助睿BI可视化分析与聚类画像解读

3.2.1 新建数据库数据源连接

返回平台首页，点击左侧【助睿BI】进入可视化分析平台，选择【数据源】模块，点击【+新建连接】，选择MySQL数据库类型，填写团队私有数据库账号信息，点击测试连接，提示连接成功后完成数据源创建，实现BI平台与聚类结果数据表的打通。

3.2.2 创建并发布分析数据集

在助睿BI平台进入【数据集】模块，新建数据集并命名为“聚类簇编号数据集”，选择已创建的MySQL数据源，选中labs目录下的student_cluster聚类结果表，将数据表拖拽至画布中。

为提升数据可读性，统一修改字段中文备注：student_id改为学生ID、late_count改为迟到次数、early_leave_count改为早退次数、leave_count改为请假次数、uniform_violate_count改为没穿校服次数、Cluster改为聚类簇编号、Silhouette改为轮廓系数。配置完成后点击【保存并发布】，确保数据集可用于后续图表制作。

3.2.3 制作多维度聚类分析工作表

接下来我们开始制作聚类簇编号对应的考勤群体分类工作表

点击左边菜单中的“工作表”，进入工作表模块

为了方便管理，我们将本次制作的工作表集中存放在一个目录下，点击左上角的“+” - “新建分组”

在弹窗中输入分组名称、选择所属分组、填写备注信息后点击“确认”

右键或者点击聚类簇对应的考勤画像群体分类分析分组的“…”

在操作列表中点击“新建工作表”

在弹窗中输入工作表名称为“迟到早退次数的聚类簇分析”、选择所属分组、填写备注信息后点击“确认”

自动跳转到工作表设计页面，点击右上角“好的，我知道了”来关闭提醒

数据集选择刚刚创建的“聚类簇编号数据集”

图表类型选择“探索器”

将字段“late_count（迟到次数）”拖拽到X轴，“early_leave_count（早退次数）”拖拽到Y轴

点击图形设置按钮，打开设置面板

在设置面板中，点击颜色区域的“+”，在下拉框中选择“Cluster（聚类簇编号）”，并点击“确认”

点击信息区域的“+”，在下拉框中选择“student_id（学生ID）”，并点击“确认”

将“student_id（学生ID）”设置为“维度”

系统默认限额为2000条数据，因此，需要将限额设置为100%，避免数据过多不显示全部

为了区分更明显，我们可以设置聚类簇编号的颜色，点击颜色区域的设置按钮，切换对比强烈的主题

颜色设置后需要点击一下颜色区域外的地方才会生效

点击保存按钮，保存并发布工作表

同样的，重新新建工作表，依次两两分析4个异常考勤次数的3个聚类簇的表现情况

迟到与请假次数的聚类簇分析：

迟到与没穿校服次数的聚类簇分析

早退与请假次数的聚类簇分析：

早退与没穿校服次数的聚类簇分析：

请假与没穿校服次数的聚类簇分析：

3.2.4 搭建可视化汇总仪表盘

进入【仪表盘】模块，新建仪表盘并命名为“聚类簇分析”。拖拽文本组件至画布，设置标题为“聚类簇分析”，调整字体大小、加粗、居中，固定组件位置。随后将制作完成的六组散点图工作表依次拖拽至仪表盘画布，合理调整图表大小与排版，实现所有聚类分析结果的集中展示，最后保存并发布仪表盘。

3.2.5 聚类群体业务画像解读

结合六组散点图的数据分布特征，对三类聚类簇进行业务释义，完成机器编号到学生考勤画像的转化：

C1 自律模范型：各类考勤异常次数均处于极低区间，数据分布集中无离群值，学生出勤稳定、纪律意识良好，无迟到、早退、违纪等不良行为，是校园考勤标杆群体。

C2 轻微波动型：迟到、早退次数基本保持低位，仅存在少量偶发的请假、校服违规行为，整体考勤状态稳定，纪律问题轻微，仅需日常常规提醒管理。

C3 纪律高危型：存在高频迟到行为，且伴随早退、请假、校服违规等多维度违纪叠加问题，数据离群特征明显，考勤问题突出，是校园学生纪律管理的重点干预对象。

3.3 ETL扩展标签回写与数据更新

3.3.1 原数据表新增扩展字段

进入数据集成ETL平台，新建转换流“增加考勤主题扩展标签字段”，拖拽【执行SQL脚本】组件，编写并执行SQL语句，为学生考勤主题标签表新增两个扩展字段：cluster聚类簇编号、attendance_group考勤群体分类，用于存储聚类分析结果。执行脚本后运行转换流，完成数据表结构升级。

-- 为学生考勤统计表添加聚类结果字段

ALTER TABLE student_attendance_stats

ADD COLUMN cluster VARCHAR(10) NULL DEFAULT NULL COMMENT '聚类簇编号',

ADD COLUMN attendance_group VARCHAR(30) NULL DEFAULT NULL COMMENT '考勤群体分类';

3.3.2 读取聚类结果并筛选有效字段

新建转换流“增加考勤群体分类标签”，拖拽【表输入】组件，读取student_cluster聚类结果表全部数据。再拖拽【字段选择】组件，连接表输入数据链路，仅保留学生ID、班级ID、聚类簇编号核心字段，删除冗余数据，并统一校准字段数据类型，保证与原始考勤表字段类型匹配，避免数据更新报错。

3.3.3 聚类编号中文语义映射

拖拽【值映射】组件，绑定Cluster聚类编号字段，新建映射规则：C1对应自律模范型、C2对应轻微波动型、C3对应纪律高危型，自动将抽象的字母簇类编号转化为可直接解读的中文学生考勤画像标签，生成attendance_group字段数据。

3.3.4 数据更新与结果校验

拖拽【更新】组件，绑定团队私有数据库与student_attendance_stats原始考勤表，设置以学生ID、班级ID为唯一匹配关键字，将聚类簇编号、中文考勤群体分类标签批量更新至原始数据表中。运行完整转换流，待执行成功后，加载数据库元数据并进行数据探查，可查询到原数据表已成功新增并填充考勤画像扩展标签，实验数据处理流程全部完成。

四、问题与解决

4.1 数据库连接失败问题

问题描述：配置数据库加载、数据入库组件时，输入账号密码后出现连接失败、无法读取数据表的情况。

解决方法：核对数据库地址、端口、库名、账号密码信息是否准确，确认网络连接稳定；若信息无误仍连接失败，重新刷新平台页面，重启组件配置，再次测试连接即可成功连通。

4.2 数据集无法发布、字段不显示问题

问题描述：创建BI数据集后，部分字段缺失，且无法正常保存发布，提示数据集异常。

解决方法：重新检查数据源绑定关系，确认正确选中目录下的student_cluster数据表；重新手动获取全部字段，修正错误的字段属性与备注，清除无效配置后，重新保存并发布数据集。

4.3 聚类散点图数据展示不全问题

问题描述：制作散点图时，平台默认限额2000条数据，导致部分学生数据无法展示，聚类分布不完整。

解决方法：在图表设置面板中，将数据展示限额修改为100%，解除数据条数限制，刷新图表后可展示全部实验数据，保证聚类分析结果完整准确。

4.4 数据更新报错、标签无法回写问题

问题描述：ETL数据更新环节，出现字段类型不匹配、数据无法同步更新到原始考勤表的问题。

解决方法：统一上下游数据表字段类型，将学生ID、班级ID统一设置为Integer整型；核对更新匹配关键字，确保以学生ID+班级ID为唯一匹配条件，修正字段映射关系后，重新运行转换流，数据即可正常更新。

五、实验总结

本次实验依托助睿数智零代码数据平台，完整完成了从数据预处理、K-Means聚类建模、可视化分析、业务画像解读到标签回写的全流程数据分析实验。实验以学生四类核心考勤违规数据为建模特征，成功将全体学生划分为自律模范型、轻微波动型、纪律高危型三类群体，解决了原始考勤数据杂乱、无分类、无业务释义的问题。

通过AI Studio平台实现了零代码机器学习建模，简化了传统聚类算法的代码编写流程，同时借助助睿BI可视化工具，将抽象的机器聚类结果转化为直观、可落地的校园管理画像，有效提升了数据分析结果的可读性与实用性。最后通过ETL数据处理工具，将聚类扩展标签成功回写入原始数据表，完善了学生考勤主题标签体系。

本次实验不仅熟练掌握了K-Means聚类算法的实际业务应用、零代码数据建模与可视化操作技巧，也实现了数据技术与校园管理业务的结合。实验产出的学生考勤画像标签，能够为学校开展分层学生管理、违纪学生精准干预、常态化考勤督导提供科学的数据支撑，充分体现了大数据分析在智慧校园建设中的应用价值。