本次实验应用助睿数智平台

一、实验背景

1.1 实验目的

本次实验依托助睿数智(Uniplore)一站式数据科学实验平台,以学生考勤数据为研究对象,完成零代码机器学习聚类建模与数据可视化分析全流程实操。我通过本次实验,熟练掌握平台数据接入、K-Means聚类建模、BI可视化图表制作、仪表盘搭建、ETL数据更新、数据表结构修改等核心技能。

本次实验核心任务为:基于学生迟到、早退、请假、校服违规四类考勤异常数据,利用K-Means算法自动划分学生考勤群体,结合业务场景解读聚类结果,将机器聚类编号转化为可落地的学生考勤画像,并将分类标签回写至原始数据表,完善学生考勤主题标签体系,实现学生考勤行为的精细化数据分析。

从业务视角看,本实验属于“学生用户画像”系列中的标签扩展环节:在已有考勤主题统计表基础上,通过无监督聚类发现行为模式,再把算法输出沉淀为可查询、可统计、可联动的结构化标签字段,为后续针对特定群体(如纪律高危型)的专项画像分析提供数据基础。

1.2 实验环境

本次实验全程采用助睿数智(Uniplore)一站式数据科学实验平台完成,该平台可实现数据接入、ETL处理、机器学习建模、可视化分析的全链路零代码智能分析,无需编程基础即可完成大数据挖掘与建模实验。

实验数据采用预处理完成的student_attendance_stats学生考勤主题统计表,数据包含学生ID、班级ID、迟到次数、早退次数、请假次数、校服违规次数等核心字段,数据规整、无严重缺失值,可直接用于聚类建模分析。

除建模字段外,表中还保留学生姓名、班级、年级、性别、政治面貌、是否住校、校区类型等基础属性,这些离散信息不参与K-Means距离计算,但在聚类完成后可用于解释“某一簇学生是谁、分布在哪些班级”,体现“算法分群 + 业务释义”的完整画像思路。

主要字段说明:late_count(迟到次数)、early_leave_count(早退次数)、leave_count(请假次数)、uniform_violate_count(没穿校服次数)均为非负整数;student_id、class_id为关联键。

1.3 整体处理流程

本次实验整体分为四大核心流程,逻辑清晰、层层递进:第一,在AI Studio模块新建工作流,导入考勤数据并筛选有效字段,完成K-Means聚类建模,输出学生聚类簇结果并保存至数据库;第二,依托助睿BI平台连接聚类结果数据源,构建数据集、制作多维度考勤聚类分析散点图,搭建整合仪表盘;第三,结合可视化图表特征,对三类聚类簇进行业务解读,划分不同学生考勤群体;第四,通过ETL流程修改原始数据表结构,新增聚类标签字段,完成聚类编号与考勤群体的映射,并将结果批量回写至原始考勤表,完善学生考勤画像数据。

1.4 实验数据与建模思路

数据维度清晰、变量数量适中,聚焦考勤行为核心指标,无需复杂降维。基于校园考勤业务理解,将建模变量限定在迟到、早退、请假、校服违规四类行为次数上——每一维直接对应一类可解释的违纪表现,变量间业务含义相对独立,适合直接输入K-Means。学生性别、年级、住校状态等基础属性不参与聚类,避免“人口统计学差异”掩盖“行为模式差异”;次数型连续特征满足K-Means对数值变量的要求,无需哑变量编码,预处理链路更短、结果更稳定。

二、实验步骤

2.1 AI Studio聚类建模

2.1.1 新建工作流

进入平台人工智能模块,创建全新工作流,搭建独立的聚类建模运行环境。

登录实验平台,点击左侧“人工智能”进入 AI Studio 并新建工作流。

点击左侧菜单“人工智能”进入AI Studio模块,点击页面左上角“+”,选择“新建工作流”。人工智能操作页面主要由菜单栏、控件列表、画布三部分组成,后续所有建模操作均在画布中完成。

 

2.1.2 数据导入与筛选

导入学生考勤数据集,筛选建模所需核心字段,配置字段属性类型并运行校验数据。

搜索“数据库加载”控件并拖拽至工作流画布。

 

双击“数据库加载”,配置团队私有数据库并完成连接。

 

选择数据表 student_attendance_stats。

 

配置字段保留与属性类型(skip/categorical/numeric)

 

右键运行“数据库加载”控件,加载成功

 

查看输出结果,确认考勤建模字段已正确载入

 

在控件列表搜索“数据库加载”控件并拖拽至画布,双击控件填入团队私有数据库信息并完成连接,选择数据表student_attendance_stats。结合实验需求,仅保留学生ID、班级ID、迟到次数、早退次数、请假次数、校服违规次数字段,其余字段统一设置为skip跳过。将学生ID、班级ID设置为离散型(categorical),四类考勤次数字段设置为数值型(numeric)。配置完成后右键运行控件,查看输出结果,确认数据导入无误。

设计说明:AI Studio 以拖拽式工作流承载“数据加载→算法组件→结果入库”的标准机器学习流水线,本实验刻意只保留与行为强度相关的字段,相当于在入模前完成特征选择与类型声明,保证后续轮廓系数、簇内方差等指标反映的是“违纪频次结构”而非无关文本字段噪声。

2.1.3 K-Means聚类建模

添加K-Means算法组件,配置聚类参数,完成学生考勤数据自动聚类。

拖拽“K-Means”组件至画布,建立数据库加载组件与K-Means组件的连线。

 

 

双击组件进行参数配置,固定聚类簇数量为3,其余参数保持平台默认值。配置完成后右键运行控件,运行成功后查看结果

 

右键运行 K-Means 聚类控件

 

查看聚类输出,每条记录生成 C1/C2/C3 簇编号

 

聚类结果预览,可观察三类簇的分布情况,每条学生数据均生成C1、C2、C3对应的聚类簇编号。

 

簇数固定为3,对应业务上“优秀稳定—轻微波动—高危叠加”三类典型考勤画像;其余超参保持默认,便于在教学中突出“特征工程 + 可视化释义”而非调参技巧。运行成功后,输出表除原始次数外,还会附带Cluster(簇编号)及Silhouette(轮廓系数)等模型诊断信息,可用于侧面评估聚类紧密度。

2.1.4 聚类结果输出与保存

将聚类建模结果持久化保存至数据库,为后续可视化分析提供数据源。

拖拽“数据入库”组件并连接 K-Means 输出。

 

配置“数据入库”的数据库连接信息。

 

新建结果表 student_cluster。

 

确认入库字段与目标表映射关系。

 

运行完整工作流,各控件依次执行成功。

 

工作流运行完成,聚类结果已写入数据库。

 

产出表student_cluster是连接“算法世界”和“BI/ETL世界”的桥梁:BI侧据此做散点图释义,ETL侧据此回写标签,形成闭环数据资产。

2.2 助睿BI可视化聚类结果分析

2.2.1 连接数据源

进入助睿BI模块,连接团队私有数据库,绑定聚类结果数据表。

点击左侧“助睿BI”,进入数据源管理页面。

 

新建 MySQL 数据源连接。

 

选择MySQL连接

 

填写数据库配置

 

测试数据库连接

 

点击“确认”按钮,添加数据库。

 

在数据库目录中找到聚类结果表student_cluster。

 

助睿BI在本阶段承担“给机器编号讲故事”的职责:通过探索器散点图把高维行为差异投影到二维平面,让人眼观察簇的分离度与离群点,为C1/C2/C3命名提供证据,而不是仅凭算法输出直接写标签。

2.2.2 构建分析数据集

新建数据集,导入聚类数据表,统一修改字段中文备注并发布。

在数据集模块新建数据集

 

 

 

选择对应数据源与labs目录

 

将student_cluster数据表拖拽至画布。为所有字段修改中文备注,student_id改为学生ID、late_count改为迟到次数、Cluster改为聚类簇编号等。

字段修改完成后,点击“保存并发布”,确保数据集可用于工作表制作。

 

 

2.2.3 制作多维度聚类分析工作表

新建分组分类管理工作表,制作六组考勤指标两两对比的聚类散点图。

新建专属分组用于存放本次实验工作表,在分组内新建工作表

 

 

 

 

 

选择已发布的聚类数据集,图表类型设置为探索器。

 

依次将两类考勤异常指标分别拖拽至X、Y轴

 

将聚类簇编号设为颜色区分字段

 

学生ID设为维度字段

 

将数据展示限额调整为100%,保证全量数据展示。

 

自定义配色区分三类聚类簇,完成单张图表后保存发布。

 

 

 

 

按照相同流程,依次制作迟到&早退、迟到&请假、迟到&校服违规、早退&请假、早退&校服违规、请假&校服违规六组分析工作表。

 

六张工作表两两组合四类异常指标,形成“迟到—早退”“迟到—请假”“迟到—校服”“早退—请假”“早退—校服”“请假—校服”全面对照视角。颜色绑定聚类簇编号、信息提示绑定学生ID,可在同一视角下同时看到群体分布与个体位置;限额调至100%是为避免默认2000条上限造成“只见局部、误判整体”的风险。

若某簇在多数组合图中都贴近原点,说明多维违纪均少;若仅在“迟到×其他指标”图中出现长尾离群,则说明迟到是主要矛盾且可能伴随复合违纪。

2.2.4 搭建可视化仪表盘

新建仪表盘,整合所有分析工作表,完成排版布局与固化保存。

新建命名为“聚类簇分析”的仪表盘

 

 

 

添加文本组件设置标题、字体样式并固定位置。

 

 

 

将制作完成的六组分析工作表全部拖拽至仪表盘画布,手动调整图表大小与排版布局,保证页面规整美观,最终保存并发布仪表盘,实现聚类结果的一体化可视化展示。

 

 

仪表盘将六张散点图与标题组件集中排版,便于指导教师或管理者一次性审阅聚类质量。发布后的仪表盘支持分享链接,利于实验汇报与跨组对照。

2.3 聚类标签回写原始数据表

2.3.1 数据表新增扩展字段

通过ETL流程执行SQL语句,为原始考勤表新增聚类相关字段。

新建ETL转换流,添加“执行SQL脚本”组件

 

绑定团队私有数据库,执行以下SQL语句,为student_attendance_stats表新增聚类字段:

-- 为学生考勤统计表添加聚类结果字段 
ALTER TABLE student_attendance_stats 
ADD COLUMN cluster VARCHAR(10) NULL DEFAULT NULL COMMENT '聚类簇编号', 
ADD COLUMN attendance_group VARCHAR(30) NULL DEFAULT NULL COMMENT '考勤群体分类';

 

 

运行转换流,完成数据表结构修改。

cluster保存机器簇号(C1/C2/C3),attendance_group保存中文群体名,实现“技术标识 + 业务语义”双轨存储,方便SQL筛选与报表展示各取所需。

2.3.2 数据获取与字段筛选

读取聚类结果数据,筛选有效字段并统一数据格式。

新建ETL转换流“增加考勤群体分类标签”。

 

 

添加表输入组件,读取student_cluster全量数据。

 

 

 

 

拖拽字段选择组件,仅保留student_id、Cluster两个核心字段,删除所有冗余字段。

 

 

 

修改字段数据类型,统一字段格式,保证与原始数据表字段类型兼容。

2.3.3 聚类编号业务映射

通过值映射组件,将机器聚类编号转化为中文考勤群体标签。

添加值映射组件并连接字段选择组件

 

 

设置映射字段为Cluster,新增目标字段attendance_group。配置映射规则:C1对应自律模范型、C2对应轻微波动型、C3对应纪律高危型,完成机器编码到业务标签的转化。(映射关系须与BI散点图解读结论保持一致,避免标签与可视化特征脱节。)

 

2.3.4 数据更新与结果校验

将聚类标签批量更新至原始考勤表,校验数据更新结果。

添加数据更新组件

 

绑定团队私有数据库与目标数据表student_attendance_stats。设置student_id为关联匹配主键,将Cluster聚类编号、attendance_group群体分类标签同步更新至数据表对应字段。

 

 

运行整条转换流,刷新数据库元数据,查询数据表确认字段数据更新成功。

 

回写策略:以student_id为匹配键,将聚类结果左连接式更新进student_attendance_stats,保证上一实验积累的统计指标不被破坏,仅增量补充画像标签,符合数据仓库缓慢扩展维度的实践。

三、实验结果

3.1 核心实验输出结果

本次实验最终生成多项有效成果,具体如下:

  1. 成功训练并输出聚类结果数据表student_cluster,为每一位学生匹配唯一聚类簇编号(C1/C2/C3);

  2. 完成6组学生考勤指标聚类分析散点图,可直观展示三类学生群体的考勤行为分布特征;

  3. 搭建完成一体化聚类分析仪表盘,实现多维度考勤聚类结果的集中可视化展示;

  4. 成功修改原始学生考勤数据表结构,新增聚类簇编号、考勤群体分类两个扩展字段,并完成全量数据回写更新。

3.2 聚类结果业务分析与验证

下表归纳三类群体的可视化证据与命名逻辑(颜色以平台默认主题为准,可在BI中自定义):

聚类簇编号

代表色

群体名称

核心特征

C1

蓝色

自律模范型

各维度异常次数均极低,散点贴近原点,几乎无离群

C2

青色

轻微波动型

整体仍处低位,但较C1略散,偶发请假或校服问题

C3

黄色

纪律高危型

迟到频次高且常与其他异常叠加,存在明显离群点

需要强调的是:聚类标签一旦写回主题表,即可作为过滤器服务下游实验——例如仅抽取attendance_group='纪律高危型'的记录,继续做性别、年级、校区、班级等维度的穿透分析,这正是“主题标签构建 → 画像可视化”实验链条的价值所在。

结合六组可视化散点图的数据分布特征,可精准划分三类学生考勤群体,结果符合校园考勤业务逻辑,聚类效果有效、可解释性强:

  1. C2 自律模范型(蓝色):数据点集中在各类考勤异常低频次区间,学生迟到、早退、请假、校服违规次数极少,出勤规范、纪律意识良好,是校园考勤优秀群体。

  2. C1 轻微波动型(青色):整体考勤异常频次偏低,仅存在少量偶发的请假、校服违规行为,无高频迟到早退问题,整体考勤状态稳定,仅需常规日常管理提醒。

  3. C3 纪律高危型(黄色):数据存在明显离群特征,高频迟到问题突出,同时叠加早退、请假、着装违规等多项异常行为,考勤问题频发,属于重点管控、针对性干预的学生群体。

3.3 结果验证

通过数据库数据探查功能查询原始考勤表,数据表已成功新增聚类相关字段,且每一条学生数据均匹配对应的聚类编号与中文群体标签,数据无缺失、无错乱,数据更新流程完全成功。聚类结果区分度明显,三类群体行为特征差异显著,无严重分类重叠现象,建模与分析结果有效可靠。

从方法复盘看,本次实验完整走通了“特征聚焦→无监督分群→可视化释义→标签回写”的用户画像标准路径,体现了数据科学项目中“模型输出必须转化为业务语言”的关键原则。

四、问题与解决

4.1 数据可视化不全,部分样本无法展示

问题现象:制作散点图时,图表仅展示部分学生数据,无法呈现全量样本,聚类分布不完整。

问题原因:平台图表默认数据展示限额为2000条,实验数据集样本量超出默认限额,导致部分数据被过滤隐藏。

解决方法:在图表设置页面,将数据展示限额由默认值修改为100%,开启全量数据展示,刷新图表后所有样本数据正常显示。

4.2 聚类颜色修改后页面无变化

问题现象:手动修改聚类簇配色主题后,图表颜色无更新,配色区分效果未生效。

问题原因:平台可视化组件存在交互缓存,修改配色参数后不会自动刷新,需要手动触发更新。

解决方法:完成配色设置后,点击画布空白区域确认参数生效,图表配色即可正常更新,三类聚类簇颜色对比清晰。

4.3 数据更新失败,字段匹配报错

问题现象:运行ETL数据更新流程时,组件运行报错,无法将聚类标签回写至原始数据表。

问题原因:流数据字段类型与目标数据表字段类型不统一,同时更新字段映射关系选择错误,导致数据无法匹配写入。

解决方法:在字段选择组件中统一修改字段数据类型,保证上下游表结构一致;重新核对更新映射关系,将流字段Cluster、attendance_group精准匹配数据表新增字段cluster、attendance_group,重新运行流程后数据更新成功。

五、实验总结

5.1 实验收获

通过本次实验,我完整掌握了助睿数智平台零代码数据分析全流程操作,熟练掌握了数据导入、字段筛选、K-Means聚类建模、BI可视化图表制作、仪表盘搭建、SQL字段新增、ETL数据批量更新等实操技能。

同时,我深入理解了K-Means无监督聚类算法的实际业务应用,学会将机器生成的抽象聚类编号,结合校园考勤业务场景进行人工释义,实现算法结果的业务落地。此外,我掌握了数据治理的基础方法,能够独立完成数据表结构修改、数据关联匹配、标签体系构建,提升了自身数据分析、问题排查与数据落地的综合实践能力。

5.2 平台整体评价

对比官方实验设计,平台在AI Studio、助睿BI、数据集成(ETL)三大模块间分工明确:AI Studio负责算法,BI负责可解释性探索,ETL负责生产化落库,三者组合可支撑从实验性分析到可重复数据管道的教学场景。

助睿数智(Uniplore)一站式数据科学实验平台整体操作便捷、功能完善,依托零代码拖拽式操作,降低了大数据建模与数据分析的技术门槛,让无编程基础的学习者也能快速完成机器学习建模、可视化分析与数据治理实操。平台覆盖数据接入、ETL处理、AI建模、可视化分析全链路功能,模块划分清晰、交互逻辑合理,实验流程流畅稳定。

同时平台具备完善的可视化与数据处理能力,能够满足教学实验、数据挖掘、用户画像构建等多种场景需求,非常适合大数据相关课程的实操教学,有效帮助学习者建立完整的大数据分析思维体系。

Logo

一站式 AI 云服务平台

更多推荐