助睿实验作业3.1-考勤主题扩展标签构建

通过本次实验，我完整掌握了助睿数智平台零代码数据分析全流程操作，熟练掌握了数据导入、字段筛选、K-Means聚类建模、BI可视化图表制作、仪表盘搭建、SQL字段新增、ETL数据批量更新等实操技能。同时，我深入理解了K-Means无监督聚类算法的实际业务应用，学会将机器生成的抽象聚类编号，结合校园考勤业务场景进行人工释义，实现算法结果的业务落地。此外，我掌握了数据治理的基础方法，能够独立完成数据表结

睡一觉559

102人浏览 · 2026-05-25 22:55:26

睡一觉559 · 2026-05-25 22:55:26 发布

本次实验应用助睿数智平台

平台全称：助睿数智（Uniplore）一站式数据科学实验平台
平台定位：覆盖数据接入、ETL处理、机器学习建模到可视化分析的全链路Agentic零代码数据智能。
产品官网：Uniplore iDIS-大数据智能全流程服务平台-BI数据可视化工具
实验平台地址：数据智能平台

一、实验背景

1.1 实验目的

本次实验依托助睿数智（Uniplore）一站式数据科学实验平台，以学生考勤数据为研究对象，完成零代码机器学习聚类建模与数据可视化分析全流程实操。我通过本次实验，熟练掌握平台数据接入、K-Means聚类建模、BI可视化图表制作、仪表盘搭建、ETL数据更新、数据表结构修改等核心技能。

本次实验核心任务为：基于学生迟到、早退、请假、校服违规四类考勤异常数据，利用K-Means算法自动划分学生考勤群体，结合业务场景解读聚类结果，将机器聚类编号转化为可落地的学生考勤画像，并将分类标签回写至原始数据表，完善学生考勤主题标签体系，实现学生考勤行为的精细化数据分析。

从业务视角看，本实验属于“学生用户画像”系列中的标签扩展环节：在已有考勤主题统计表基础上，通过无监督聚类发现行为模式，再把算法输出沉淀为可查询、可统计、可联动的结构化标签字段，为后续针对特定群体（如纪律高危型）的专项画像分析提供数据基础。

1.2 实验环境

本次实验全程采用助睿数智（Uniplore）一站式数据科学实验平台完成，该平台可实现数据接入、ETL处理、机器学习建模、可视化分析的全链路零代码智能分析，无需编程基础即可完成大数据挖掘与建模实验。

实验数据采用预处理完成的student_attendance_stats学生考勤主题统计表，数据包含学生ID、班级ID、迟到次数、早退次数、请假次数、校服违规次数等核心字段，数据规整、无严重缺失值，可直接用于聚类建模分析。

除建模字段外，表中还保留学生姓名、班级、年级、性别、政治面貌、是否住校、校区类型等基础属性，这些离散信息不参与K-Means距离计算，但在聚类完成后可用于解释“某一簇学生是谁、分布在哪些班级”，体现“算法分群 + 业务释义”的完整画像思路。

主要字段说明：late_count（迟到次数）、early_leave_count（早退次数）、leave_count（请假次数）、uniform_violate_count（没穿校服次数）均为非负整数；student_id、class_id为关联键。

1.3 整体处理流程

本次实验整体分为四大核心流程，逻辑清晰、层层递进：第一，在AI Studio模块新建工作流，导入考勤数据并筛选有效字段，完成K-Means聚类建模，输出学生聚类簇结果并保存至数据库；第二，依托助睿BI平台连接聚类结果数据源，构建数据集、制作多维度考勤聚类分析散点图，搭建整合仪表盘；第三，结合可视化图表特征，对三类聚类簇进行业务解读，划分不同学生考勤群体；第四，通过ETL流程修改原始数据表结构，新增聚类标签字段，完成聚类编号与考勤群体的映射，并将结果批量回写至原始考勤表，完善学生考勤画像数据。

1.4 实验数据与建模思路

数据维度清晰、变量数量适中，聚焦考勤行为核心指标，无需复杂降维。基于校园考勤业务理解，将建模变量限定在迟到、早退、请假、校服违规四类行为次数上——每一维直接对应一类可解释的违纪表现，变量间业务含义相对独立，适合直接输入K-Means。学生性别、年级、住校状态等基础属性不参与聚类，避免“人口统计学差异”掩盖“行为模式差异”；次数型连续特征满足K-Means对数值变量的要求，无需哑变量编码，预处理链路更短、结果更稳定。

二、实验步骤

2.1 AI Studio聚类建模

2.1.1 新建工作流

进入平台人工智能模块，创建全新工作流，搭建独立的聚类建模运行环境。

登录实验平台，点击左侧“人工智能”进入 AI Studio 并新建工作流。

点击左侧菜单“人工智能”进入AI Studio模块，点击页面左上角“+”，选择“新建工作流”。人工智能操作页面主要由菜单栏、控件列表、画布三部分组成，后续所有建模操作均在画布中完成。

2.1.2 数据导入与筛选

导入学生考勤数据集，筛选建模所需核心字段，配置字段属性类型并运行校验数据。

搜索“数据库加载”控件并拖拽至工作流画布。

双击“数据库加载”，配置团队私有数据库并完成连接。

选择数据表 student_attendance_stats。

配置字段保留与属性类型（skip/categorical/numeric）

右键运行“数据库加载”控件，加载成功

查看输出结果，确认考勤建模字段已正确载入

在控件列表搜索“数据库加载”控件并拖拽至画布，双击控件填入团队私有数据库信息并完成连接，选择数据表student_attendance_stats。结合实验需求，仅保留学生ID、班级ID、迟到次数、早退次数、请假次数、校服违规次数字段，其余字段统一设置为skip跳过。将学生ID、班级ID设置为离散型（categorical），四类考勤次数字段设置为数值型（numeric）。配置完成后右键运行控件，查看输出结果，确认数据导入无误。

设计说明：AI Studio 以拖拽式工作流承载“数据加载→算法组件→结果入库”的标准机器学习流水线，本实验刻意只保留与行为强度相关的字段，相当于在入模前完成特征选择与类型声明，保证后续轮廓系数、簇内方差等指标反映的是“违纪频次结构”而非无关文本字段噪声。

2.1.3 K-Means聚类建模

添加K-Means算法组件，配置聚类参数，完成学生考勤数据自动聚类。

拖拽“K-Means”组件至画布，建立数据库加载组件与K-Means组件的连线。

双击组件进行参数配置，固定聚类簇数量为3，其余参数保持平台默认值。配置完成后右键运行控件，运行成功后查看结果

右键运行 K-Means 聚类控件

查看聚类输出，每条记录生成 C1/C2/C3 簇编号

聚类结果预览，可观察三类簇的分布情况，每条学生数据均生成C1、C2、C3对应的聚类簇编号。

簇数固定为3，对应业务上“优秀稳定—轻微波动—高危叠加”三类典型考勤画像；其余超参保持默认，便于在教学中突出“特征工程 + 可视化释义”而非调参技巧。运行成功后，输出表除原始次数外，还会附带Cluster（簇编号）及Silhouette（轮廓系数）等模型诊断信息，可用于侧面评估聚类紧密度。

2.1.4 聚类结果输出与保存

将聚类建模结果持久化保存至数据库，为后续可视化分析提供数据源。

拖拽“数据入库”组件并连接 K-Means 输出。

配置“数据入库”的数据库连接信息。

新建结果表 student_cluster。

确认入库字段与目标表映射关系。

运行完整工作流，各控件依次执行成功。

工作流运行完成，聚类结果已写入数据库。

产出表student_cluster是连接“算法世界”和“BI/ETL世界”的桥梁：BI侧据此做散点图释义，ETL侧据此回写标签，形成闭环数据资产。

2.2 助睿BI可视化聚类结果分析

2.2.1 连接数据源

进入助睿BI模块，连接团队私有数据库，绑定聚类结果数据表。

点击左侧“助睿BI”，进入数据源管理页面。

新建 MySQL 数据源连接。

选择MySQL连接

填写数据库配置

测试数据库连接

点击“确认”按钮，添加数据库。

在数据库目录中找到聚类结果表student_cluster。

助睿BI在本阶段承担“给机器编号讲故事”的职责：通过探索器散点图把高维行为差异投影到二维平面，让人眼观察簇的分离度与离群点，为C1/C2/C3命名提供证据，而不是仅凭算法输出直接写标签。

2.2.2 构建分析数据集

新建数据集，导入聚类数据表，统一修改字段中文备注并发布。

在数据集模块新建数据集

选择对应数据源与labs目录

将student_cluster数据表拖拽至画布。为所有字段修改中文备注，student_id改为学生ID、late_count改为迟到次数、Cluster改为聚类簇编号等。

字段修改完成后，点击“保存并发布”，确保数据集可用于工作表制作。

2.2.3 制作多维度聚类分析工作表

新建分组分类管理工作表，制作六组考勤指标两两对比的聚类散点图。

新建专属分组用于存放本次实验工作表，在分组内新建工作表

选择已发布的聚类数据集，图表类型设置为探索器。

依次将两类考勤异常指标分别拖拽至X、Y轴

将聚类簇编号设为颜色区分字段

学生ID设为维度字段

将数据展示限额调整为100%，保证全量数据展示。

自定义配色区分三类聚类簇，完成单张图表后保存发布。

按照相同流程，依次制作迟到&早退、迟到&请假、迟到&校服违规、早退&请假、早退&校服违规、请假&校服违规六组分析工作表。

六张工作表两两组合四类异常指标，形成“迟到—早退”“迟到—请假”“迟到—校服”“早退—请假”“早退—校服”“请假—校服”全面对照视角。颜色绑定聚类簇编号、信息提示绑定学生ID，可在同一视角下同时看到群体分布与个体位置；限额调至100%是为避免默认2000条上限造成“只见局部、误判整体”的风险。

若某簇在多数组合图中都贴近原点，说明多维违纪均少；若仅在“迟到×其他指标”图中出现长尾离群，则说明迟到是主要矛盾且可能伴随复合违纪。

2.2.4 搭建可视化仪表盘

新建仪表盘，整合所有分析工作表，完成排版布局与固化保存。

新建命名为“聚类簇分析”的仪表盘

添加文本组件设置标题、字体样式并固定位置。

将制作完成的六组分析工作表全部拖拽至仪表盘画布，手动调整图表大小与排版布局，保证页面规整美观，最终保存并发布仪表盘，实现聚类结果的一体化可视化展示。

仪表盘将六张散点图与标题组件集中排版，便于指导教师或管理者一次性审阅聚类质量。发布后的仪表盘支持分享链接，利于实验汇报与跨组对照。

2.3 聚类标签回写原始数据表

2.3.1 数据表新增扩展字段

通过ETL流程执行SQL语句，为原始考勤表新增聚类相关字段。

新建ETL转换流，添加“执行SQL脚本”组件

绑定团队私有数据库，执行以下SQL语句，为student_attendance_stats表新增聚类字段：

-- 为学生考勤统计表添加聚类结果字段 
ALTER TABLE student_attendance_stats 
ADD COLUMN cluster VARCHAR(10) NULL DEFAULT NULL COMMENT '聚类簇编号', 
ADD COLUMN attendance_group VARCHAR(30) NULL DEFAULT NULL COMMENT '考勤群体分类';

运行转换流，完成数据表结构修改。

cluster保存机器簇号（C1/C2/C3），attendance_group保存中文群体名，实现“技术标识 + 业务语义”双轨存储，方便SQL筛选与报表展示各取所需。

2.3.2 数据获取与字段筛选

读取聚类结果数据，筛选有效字段并统一数据格式。

新建ETL转换流“增加考勤群体分类标签”。

添加表输入组件，读取student_cluster全量数据。

拖拽字段选择组件，仅保留student_id、Cluster两个核心字段，删除所有冗余字段。

修改字段数据类型，统一字段格式，保证与原始数据表字段类型兼容。

2.3.3 聚类编号业务映射

通过值映射组件，将机器聚类编号转化为中文考勤群体标签。

添加值映射组件并连接字段选择组件

设置映射字段为Cluster，新增目标字段attendance_group。配置映射规则：C1对应自律模范型、C2对应轻微波动型、C3对应纪律高危型，完成机器编码到业务标签的转化。（映射关系须与BI散点图解读结论保持一致，避免标签与可视化特征脱节。）

2.3.4 数据更新与结果校验

将聚类标签批量更新至原始考勤表，校验数据更新结果。

添加数据更新组件

绑定团队私有数据库与目标数据表student_attendance_stats。设置student_id为关联匹配主键，将Cluster聚类编号、attendance_group群体分类标签同步更新至数据表对应字段。

运行整条转换流，刷新数据库元数据，查询数据表确认字段数据更新成功。

回写策略：以student_id为匹配键，将聚类结果左连接式更新进student_attendance_stats，保证上一实验积累的统计指标不被破坏，仅增量补充画像标签，符合数据仓库缓慢扩展维度的实践。

三、实验结果

3.1 核心实验输出结果

本次实验最终生成多项有效成果，具体如下：

成功训练并输出聚类结果数据表student_cluster，为每一位学生匹配唯一聚类簇编号（C1/C2/C3）；
完成6组学生考勤指标聚类分析散点图，可直观展示三类学生群体的考勤行为分布特征；
搭建完成一体化聚类分析仪表盘，实现多维度考勤聚类结果的集中可视化展示；
成功修改原始学生考勤数据表结构，新增聚类簇编号、考勤群体分类两个扩展字段，并完成全量数据回写更新。

3.2 聚类结果业务分析与验证

下表归纳三类群体的可视化证据与命名逻辑（颜色以平台默认主题为准，可在BI中自定义）：

聚类簇编号	代表色	群体名称	核心特征
C1	蓝色	自律模范型	各维度异常次数均极低，散点贴近原点，几乎无离群
C2	青色	轻微波动型	整体仍处低位，但较C1略散，偶发请假或校服问题
C3	黄色	纪律高危型	迟到频次高且常与其他异常叠加，存在明显离群点

需要强调的是：聚类标签一旦写回主题表，即可作为过滤器服务下游实验——例如仅抽取attendance_group='纪律高危型'的记录，继续做性别、年级、校区、班级等维度的穿透分析，这正是“主题标签构建 → 画像可视化”实验链条的价值所在。

结合六组可视化散点图的数据分布特征，可精准划分三类学生考勤群体，结果符合校园考勤业务逻辑，聚类效果有效、可解释性强：

C2 自律模范型（蓝色）：数据点集中在各类考勤异常低频次区间，学生迟到、早退、请假、校服违规次数极少，出勤规范、纪律意识良好，是校园考勤优秀群体。
C1 轻微波动型（青色）：整体考勤异常频次偏低，仅存在少量偶发的请假、校服违规行为，无高频迟到早退问题，整体考勤状态稳定，仅需常规日常管理提醒。
C3 纪律高危型（黄色）：数据存在明显离群特征，高频迟到问题突出，同时叠加早退、请假、着装违规等多项异常行为，考勤问题频发，属于重点管控、针对性干预的学生群体。

3.3 结果验证

通过数据库数据探查功能查询原始考勤表，数据表已成功新增聚类相关字段，且每一条学生数据均匹配对应的聚类编号与中文群体标签，数据无缺失、无错乱，数据更新流程完全成功。聚类结果区分度明显，三类群体行为特征差异显著，无严重分类重叠现象，建模与分析结果有效可靠。

从方法复盘看，本次实验完整走通了“特征聚焦→无监督分群→可视化释义→标签回写”的用户画像标准路径，体现了数据科学项目中“模型输出必须转化为业务语言”的关键原则。

四、问题与解决

4.1 数据可视化不全，部分样本无法展示

问题现象：制作散点图时，图表仅展示部分学生数据，无法呈现全量样本，聚类分布不完整。

问题原因：平台图表默认数据展示限额为2000条，实验数据集样本量超出默认限额，导致部分数据被过滤隐藏。

解决方法：在图表设置页面，将数据展示限额由默认值修改为100%，开启全量数据展示，刷新图表后所有样本数据正常显示。

4.2 聚类颜色修改后页面无变化

问题现象：手动修改聚类簇配色主题后，图表颜色无更新，配色区分效果未生效。

问题原因：平台可视化组件存在交互缓存，修改配色参数后不会自动刷新，需要手动触发更新。

解决方法：完成配色设置后，点击画布空白区域确认参数生效，图表配色即可正常更新，三类聚类簇颜色对比清晰。

4.3 数据更新失败，字段匹配报错

问题现象：运行ETL数据更新流程时，组件运行报错，无法将聚类标签回写至原始数据表。

问题原因：流数据字段类型与目标数据表字段类型不统一，同时更新字段映射关系选择错误，导致数据无法匹配写入。

解决方法：在字段选择组件中统一修改字段数据类型，保证上下游表结构一致；重新核对更新映射关系，将流字段Cluster、attendance_group精准匹配数据表新增字段cluster、attendance_group，重新运行流程后数据更新成功。

五、实验总结

5.1 实验收获

通过本次实验，我完整掌握了助睿数智平台零代码数据分析全流程操作，熟练掌握了数据导入、字段筛选、K-Means聚类建模、BI可视化图表制作、仪表盘搭建、SQL字段新增、ETL数据批量更新等实操技能。

同时，我深入理解了K-Means无监督聚类算法的实际业务应用，学会将机器生成的抽象聚类编号，结合校园考勤业务场景进行人工释义，实现算法结果的业务落地。此外，我掌握了数据治理的基础方法，能够独立完成数据表结构修改、数据关联匹配、标签体系构建，提升了自身数据分析、问题排查与数据落地的综合实践能力。

5.2 平台整体评价

对比官方实验设计，平台在AI Studio、助睿BI、数据集成（ETL）三大模块间分工明确：AI Studio负责算法，BI负责可解释性探索，ETL负责生产化落库，三者组合可支撑从实验性分析到可重复数据管道的教学场景。

助睿数智（Uniplore）一站式数据科学实验平台整体操作便捷、功能完善，依托零代码拖拽式操作，降低了大数据建模与数据分析的技术门槛，让无编程基础的学习者也能快速完成机器学习建模、可视化分析与数据治理实操。平台覆盖数据接入、ETL处理、AI建模、可视化分析全链路功能，模块划分清晰、交互逻辑合理，实验流程流畅稳定。

同时平台具备完善的可视化与数据处理能力，能够满足教学实验、数据挖掘、用户画像构建等多种场景需求，非常适合大数据相关课程的实操教学，有效帮助学习者建立完整的大数据分析思维体系。

EazyDevelop社区

一站式 AI 云服务平台

更多推荐

助睿实验作业3.2-考勤画像可视化分析

EazyDevelop社区

Unsloth Studio 实战：可视化微调 Qwen3.5-4B，零代码训练专属小模型

EazyDevelop社区

彻底告别Token付费！Ollama+CCSwitch+Claude Code 纯本地AI编程环境全套配置

模型，该模型为轻量化代码专用模型，硬件适配门槛低，可满足日常代码补全、基础故障修复、简短代码编写等轻度开发场景，8G内存设备可流畅运行。，全程零Token费用、无需联网、无调用限制，数据本地留存，Windows/Mac/Linux全平台可用，新手可一键部署。打开官网后，根据自己电脑系统，点击对应桌面安装包，双击默认下一步安装即可，全程零配置、零代码，自动完成环境部署。持续更新各类AI本地部署、开发