一、实验背景

1.1 实验目的

本次实验使用助睿数智(Uniplore)一站式数据科学实验平台完成学生考勤多维画像及高危群体的全流程分析。实验重点是通过机器学习中的无监督 K-Means 聚类算法对全校学生的考勤行为进行自动特征凝聚与分群,并利用高效的零代码 ETL 标签转换流,将带有业务语义的画像标签回写到底层物理大表中。最终,本实验将专门聚焦、锁定校园考勤管理中风险相对最高的“纪律高危型”群体,在 BI 可视化端搭建并交付两大分层架构的专业探索看板,为校园管理体系的精细化学生引导、薄弱班级精准治理提供科学的数据决策支撑。

1.2 实验环境

本次实验环境及核心资源配置如下:

项目 内容
实验平台 助睿数智(Uniplore)一站式数据科学实验平台
平台定位 覆盖数据接入、ETL处理、机器学习建模到可视化分析的全链路Agentic零代码数据智能平台
产品官网 https://www.uniplore.com/
实验平台地址 https://lab.guilan.cn/
核心子平台 人工智能平台(AI Studio)、数据集成平台(助睿 ETL)、助睿BI 数据可视化探索平台
数据库环境 MySQL 关系型数据库
输入数据源 学生考勤主题标签表(student_attendance_stats),共包含 3058 条完备的学生考勤基础统计结果

1.3 整体处理流程

本次闭环实验在技术与逻辑上分为以下四个紧密递进的核心阶段:

  1. AI 聚类建模落盘: 导入考勤大表,过滤非数值型属性,运用 K-Means 计算输出三个机器编码簇(C1、C2、C3),并以物理表 student_cluster 保存到 MySQL 中。
  2. 聚类簇大盘解译(第一个仪表盘开发): 在 BI 端连接算法中间表,构建两两考勤指标交叉散点探索图,搭建并发布第一个《聚类簇分析》仪表盘,用于解构并赋予机器冷编码明确的中文业务画像语义。
  3. ETL 主题表标签写回: 运行 SQL 扩充目标表列空间,在数据集成平台中建立转换流,利用“字段选择”组件强制转换对齐主键元数据,通过“值映射”将 C1/C2/C3 转换为中文业务标签,最后主键关联更新写回原始大表。
  4. 高危群体多维专项画像(第二个仪表盘开发): 引入“考勤群体分类=‘纪律高危型’”强过滤器,从整体规模、纯净性别占比、时空交叉(年级+校区类型)以及班级降维排序等维度开发 7 个核心组件,组装最终的综合画像分析大屏。

二、实验步骤

阶段一:人工智能平台(AI Studio)聚类建模与结果保存

步骤1:新建人工智能工作流

首先需要进入人工智能平台(AI Studio)建立图形化算法流,为后续的机器学习计算提供独立的画布空间。

  • 操作过程:
    1. 进入实验平台左侧功能菜单的“人工智能”模块;
    2. 点击右上角的“+” - “新建工作流”;

在这里插入图片描述

步骤2:配置数据库加载与特征字段过滤

将 MySQL 中的学生考勤原始数据载入流中,并剔除离散文本字段,仅保留符合欧氏距离计算要求的数值型连续变量。

  • 操作过程:

    1. 在左侧算法控件列表中搜索并拖拽“数据库加载”控件到中央主画布上;
      在这里插入图片描述

    2. 双击打开该控件,配置私有数据库连接,在表下拉框中选择数据表 student_attendance_stats
      在这里插入图片描述

    3. 进入字段设置列表,将 idstudent_namegradegendercampus_typebirth_datepolitical_statusis_boardercreate_time 等基础属性配置选择为 skip(跳过);

    4. 将关联主键 student_idclass_id 配置选择为 categorical(分类属性);

    5. 将连续变量 late_countearly_leave_countleave_countuniform_violate_count 配置选择为 numeric(数值型);
      在这里插入图片描述在这里插入图片描述

    6. 保存配置并右键点击该组件,在弹出的菜单中选择“运行该控件”。
      在这里插入图片描述

    7. 运行成功后可右键点击“查看输出结果”
      在这里插入图片描述

  • 配置要点:
    非计算用的学生基础文本字段必须全部配置为 skip。仅保留核心考勤频次指标,能够有效简化特征矩阵,防止非数值变量干扰距离算法的运行。

步骤3:配置 K-Means 聚类组件进行模型训练

引入无监督机器学习算法组件,对过滤清洗后的数值度量进行多维特征凝聚计算,使考勤特征相近的学生自动划分至相同的机器分类簇中。

  • 操作过程:

    1. 在算法组件库中搜索并拖入“K-Means”算法组件,建立从“数据库加载”输出端到“K-Means”输入端的物理连线;‘
      在这里插入图片描述

    2. 双击打开“K-Means”组件参数配置面板,将簇数量单选框固定选择为 3

    3. 系统初始化方法保持默认的 k-means++,重新运行次数配置为 10 次,最大迭代次数配置为 200 次,点击确定;
      在这里插入图片描述

    4. 右键点击 K-Means 组件选择运行,等待系统为每个学生样本自动追加 Cluster 编码列。
      在这里插入图片描述

  • 配置要点:
    基于我们对将全校学生划分成三大类的业务预期,在此将 K 值固定设置为 3;保持 k-means++ 初始化能够有效优化初始质心的选择,提高模型收敛的效率。

步骤4:预测分群结果本地入库落盘

模型计算完毕后,需要将追加了预测簇类的完整数据集进行物理入库落盘,以便后续在 BI 探索和 ETL 环节中引用。

  • 操作过程:

    1. 搜索并拖拽“数据入库”组件到工作区,创建“K-Means”到“数据入库”的输出连线;
      在这里插入图片描述

    2. 双击该组件配置私有数据库参数,点击“获取表信息”按钮;
      在这里插入图片描述

    3. 在建表弹窗中下拉切换选择为“新建数据表”,并在表名称输入框中覆盖键入 student_cluster
      在这里插入图片描述

    4. 确认字段格式映射后,点击工具栏上的“运行”三角形按钮执行整条算法工作流,等待中间物理表创建完成。
      在这里插入图片描述

  • 配置要点:
    生成的 student_cluster 物理表将包含原始 ID 与新增的 Cluster 及轮廓系数列。通过全量执行工作流,确保分群结果稳定落盘。


阶段二:基于助睿 BI 的聚类簇多维散点探索(第一个仪表盘开发)

步骤5:建立 BI 数据源物理连接

登录商业智能子平台(助睿 BI),与刚才存放算法结果表的私有 MySQL 数据库建立连接,打通可视化探索的数据渠道。

  • 操作过程:

    1. 点击左上角大菜单切换进入“助睿BI”平台;

    2. 选择左侧的“数据源”功能,点击左上角“+”号选择“新建连接” - “MySQL”;
      在这里插入图片描述

    3. 在连接配置弹窗中填入物理主机的连接账号、地址、端口、用户名和强密码,将连接名称设置为“商业数据分析实验”;
      在这里插入图片描述

    4. 点击下方的“测试连接”,提示成功后点击右下角“确认”保存;
      在这里插入图片描述

    5. 在主目录可以看见上一步骤输出的 student_cluster。
      在这里插入图片描述

  • 配置要点:
    在保存连接前必须执行“测试连接”以确认网络握手成功,确保后续数据集能够直接抽取到最新的物理表元数据。

步骤6:构建聚类数据集与中文字段别名汉化

将底层的模型预测表转化为可在 BI 画布中直接引用的数据集,并统一对英文字段名配置中文别名。

  • 操作过程:

    1. 点击“数据集”模块,点击左上角“+” - “新建数据集”,重命名数据集名称为 聚类簇编号数据集 并确认;
      在这里插入图片描述
      在这里插入图片描述

    2. 进入到数据集的配置界面以后,选择新建的数据源“商业数据分析实验”,以及se_group_4 ,目录下找到并将物理表 student_cluster 用鼠标拖拽铺设在主画布中;
      在这里插入图片描述
      在这里插入图片描述

    3. 点击底部的“字段集合”控制台,批量双击每一行字段的“字段备注”列进行手工汉化输入:将 student_id 备注为“学生ID”、class_id 备注为“班级ID”、late_count 备注为“迟到次数”、early_leave_count 备注为“早退次数”、leave_count 备注为“请假次数”、uniform_violate_count 备注为“没穿校服次数”、Cluster 备注为“聚类簇编号”、Silhouette 备注为“轮廓系数”;
      在这里插入图片描述

    4. 别名汉化处理完毕后,点击画布左上角的磁盘保存图标,在弹出框中点击选择 “保存并发布” 按钮。
      在这里插入图片描述
      在这里插入图片描述

  • 配置要点:
    数据集字段别名修改完毕后,必须点击“保存并发布”而非仅保存;只有进入发布态后的元数据才能在后续工作表的图形设计中被正常引用。

步骤7:制作指标交叉散点探索工作表

利用探索器组件,横向与纵向两两交叉比对四大考勤频次指标在不同机器编码下的空间分布边界。

  • 操作过程:

    1. 点击“工作表”功能,新建名为 聚类簇对应的考勤画像群体分类分析 的分组目录;
      在这里插入图片描述
      在这里插入图片描述

    2. 右键点击该目录新建工作表,命名为 迟到早退次数的聚类簇分析
      在这里插入图片描述

    3. 右侧绑定数据集切换到 聚类簇编号数据集基础图表类型菜单中,双击选中“探索器(散点图)”控件作为渲染模板;

    4. 将连续度量字段 late_count(迟到次数) 拖拽投放至行(X轴),将 early_leave_count(早退次数) 拖拽投放至列(Y轴);
      在这里插入图片描述

    5. 点击行列框下方的图形设置齿轮打开配置面板:颜色区域引入 Cluster(聚类簇编号),信息区域引入 student_id(学生ID)
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

    6. 右键点击信息槽中的 student_id,将其属性强制切换勾选为**“维度”**;
      在这里插入图片描述

    7. 向下滚动面板到“设置”区域,将系统默认的 2000 条限额滑块向右拉满修改调整为 100%,点击左上角保存并发布;
      在这里插入图片描述

    8. 为了使得颜色区分更明心,因此我们点击颜色区域的设置按钮,切换对比强烈的主题;
      在这里插入图片描述

    9. 颜色设置后需要点击一下颜色区域外的地方才会生效;
      在这里插入图片描述

    10. 点击保存按钮,保存并发布工作表;
      在这里插入图片描述

    11. 重复上述逻辑,通过变换行、列度量字段,依次新建并发布剩余 5 组两两计数散点探索工作表(具体包括:“迟到与请假次数分析”、“迟到与没穿校服次数分析”、“早退与请假次数分析”、“早退与没穿校服次数分析”、“请假与没穿校服次数分析”)。
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

  • 配置要点:
    散点图中的 student_id 必须由默认的度量强制转换为“维度”,且下方设置里的加载限额必须手动修改改为“100%”。这是防止零代码图表因行数限制产生截断、确保全局散点完整铺设的关键核心。

步骤8:搭建并发布聚类簇解译仪表盘(仪表盘一交付)

将设计发布的 6 组两两指标散点图整合组装在同一个大屏看板中,实现对聚类群体业务语义的集中宏观解译。

  • 操作过程:

    1. 选择进入“仪表盘”菜单,点击左上角“+” - “新建仪表盘”,命名输入 聚类簇分析
      在这里插入图片描述
      在这里插入图片描述

    2. 从右侧组件库中拖入“文本”组件到画布最顶端,双击输入大标题“聚类簇分析”,设置字号为 32、加粗、居中;
      在这里插入图片描述
      在这里插入图片描述

    3. 调整高度后点击该文本组件右上角的图钉图标,将其位置固定在顶部网格中;
      在这里插入图片描述
      在这里插入图片描述

    4. 点击切换到“工作表”标签页,将前面制作的 6 个散点工作表依次拖入网格排版区中;
      在这里插入图片描述

    5. 按住边缘调整图表长宽大小,整齐排布为 2×3 的六宫格结构,点击左上角磁盘保存并选择“保存并发布”。
      在这里插入图片描述
      在这里插入图片描述

  • 配置要点:
    顶部大标题组件必须点击图钉锁死,防止后续其他图表组件在执行网格拖拽和自适应缩放时产生位置挤压或错位。


阶段三:使用数据集成平台(助睿 ETL)进行标签映射与数据回写

步骤9:新建 ETL 转换流并使用 SQL 脚本进行目标表字段结构扩容

进入数据集成平台(助睿 ETL),使用数据库脚本组件在原始 MySQL 目标考勤表上提前开辟全新的标签承载空间。

  • 操作过程:

    1. 点击系统大菜单切换进入“数据集成”平台;

    2. 在当前项目下新建一条名为 增加考勤主题扩展标签字段 的数据转换流,并拖入“执行一个SQL脚本”组件到画布正中央;
      在这里插入图片描述

    3. 双击打开该组件,数据库连接下拉框精准选择 团队私有数据库

    4. 在建表文本编辑框内,手工准确录入字段扩容 DDL 变更脚本:

      ALTER TABLE student_attendance_stats
      ADD COLUMN cluster VARCHAR(10) NULL DEFAULT NULL COMMENT '聚类簇编号',
      ADD COLUMN attendance_group VARCHAR(30) NULL DEFAULT NULL COMMENT '考勤群体分类';
      

      在这里插入图片描述

    5. 点击确认关闭组件,并点击左上角三角形“运行”按钮物理执行流,完成表结构的扩容。
      在这里插入图片描述

  • 配置要点:
    在回写中文业务标签之前,必须提前在物理大表上通过 ALTER 脚本初始化 clusterattendance_group 两列,为下一步的数据回写对齐开辟数据承载空间。

步骤10:创建标签回写转换流与元数据格式对齐

新建主要的核心清洗转换流,加载算法数据,并利用字段选择组件对两表关联主键的元数据格式进行强制对齐强转。

  • 操作过程:
    1. 在当前项目中新建第二条主要转换流,重命名为 增加考勤群体分类标签 并确认;
      在这里插入图片描述

    2. 从组件库中拖入“表输入”组件,配置私有数据库连接,输入抽取语句 SELECT * FROM se_group_4.student_cluster 全量加载算法数据;
      在这里插入图片描述
      在这里插入图片描述

    3. 搜索并拖入“字段选择”组件,将其与“表输入”相连;
      在这里插入图片描述

    4. 双击打开“字段选择”进入“移除”选项卡,右键获取字段,将流中不需要的连续计数特征字段(如 late_count、early_leave_count、leave_count、uniform_violate_count、Silhouette)执行整行移除;
      在这里插入图片描述

    5. 切换进入元数据选项卡,手工点击插入 2 行元数据格式强制修改对齐规则:将流字段 student_id 的类型强制修改重新选择为 Integer,长度设为 10;将流字段 class_id 的类型同样强制强转选择为 Integer,长度设为 10;
      在这里插入图片描述

    6. 核对格式参数后,点击右下角确定保存该组件。

  • 配置要点:
    必须在字段选择组件的“元数据”页下,手动将主键列强制由算法衍生的 Double 或 Text 格式转换对齐定义为 Integer。这一步能够有效根除后续跨平台组件间多维数据更新关联时引发的主键格式不兼容报错。
步骤11:配置值映射组件实现编码业务汉化

引入值映射组件对上游流中的机器簇代码进行业务定义转换,将其翻译为高可读性的中文考勤群体分类标签。

  • 操作过程:
    1. 从组件库中搜索“值映射(Value Mapper)”组件平铺拖入画布,建立从“字段选择”到“值映射”的物理连线(选用主输出步骤);
      在这里插入图片描述

    2. 双击打开组件,将“使用的字段名”下拉切换选择为流中首字母大写的 Cluster 字段;

    3. 在下方的“目标字段名”输入框中手工录入输出新列名 attendance_group

    4. 在字段值对照表格中,右键点击选择“插入”,连续配置并创建以下三行映射对照转换规则:

      • 源值输入 C1 —— 目标值映射输入 自律模范型
      • 源值输入 C2 —— 目标值映射输入 轻微波动型
      • 源值输入 C3 —— 目标值映射输入 纪律高危型
        在这里插入图片描述
    5. 点击确认保存组件。

  • 配置要点:
    此处值映射的源值 C1/C2/C3 应与第一个大盘仪表盘探查出的空间散点聚类边界特征保持高度统一,确保冷编码转换后的中文业务标签精准契合管理语义。
步骤12:配置更新组件执行数据回写与数据探查验证

配置双关键字主键锁定条件,将清洗转化的中文业务标签全量覆盖更新回写至 MySQL 原始考勤大表中,并通过平台工具进行在线抽样验证。

  • 操作过程:

    1. 搜索并拖入“更新”仓库组件,连线建立从“值映射”到“更新”组件的最终连接;
      在这里插入图片描述

    2. 双击进入组件,数据库连接绑定私有库,目标表路径浏览选中扩容后的 student_attendance_stats 物理表;
      在这里插入图片描述

    3. 在中间“用来查询的关键字”对照表中,配置两组复合主键唯一定位匹配条件:设定表字段 student_id = 流字段 student_id,且表字段 class_id = 流字段 class_id
      在这里插入图片描述

    4. 在下方的“更新字段”表格中点击获取字段,执行核心对齐校正:**手动双击原本表字段列里大写的 Cluster 输入框,在弹出的下拉列清单中,精准将其修改切换选择为物理表里实际小写的物理列名 cluster,第二行表字段对齐小写 attendance_group
      在这里插入图片描述

    5. 点击转换流工具栏左上角的三角形“运行”按钮执行项目,观察日志面板提示成功且无红色报错;
      在这里插入图片描述

    6. 选择元数据节点加载物理变动,点击转换画布顶部功能区的“数据探查”标签页,找到目标大表并点击右侧网格上的“查询”按钮,向右滚动表格确认末尾两列中文标签非空且精准写入。
      在这里插入图片描述
      在这里插入图片描述

  • 配置要点:
    在更新组件的高级控制表格中,必须手动双击表字段列,将系统默认带入的大写 Cluster 修改变更为物理表对应的小写物理列名 cluster。这是防止流、表字段因大小写不匹配产生对敲错位、确保中文标签避免写回变为 NULL 值的关键细节。


阶段四:纪律高危型学生画像多维分析(第二个仪表盘开发)

步骤13:构建包含扩展标签的学生考勤主题数据集

再次进入 BI 探索端,为包含回写标签的全新考勤大表建立独立的可复用数据集,以便开展多维下钻画像设计。

  • 操作过程:

    1. 点击 BI 可视化系统的“数据集”菜单,点击左上角“+” - “新建数据集”;
      在这里插入图片描述

    2. 输入数据集全名 学生考勤主题数据集,所属分组指定根目录并确认进入建模画布;
      在这里插入图片描述

    3. 数据源的第一个选项选择我们刚刚新建的数据源“商业数据分析实验” ,第二个选项则选择student_attendance_stats 所在的目录“se_group_4”,在结构目录下将最新回写完备的物理大表 student_attendance_stats 用鼠标整体拖拽铺设在中央主画布中;
      在这里插入图片描述
      在这里插入图片描述

    4. 直接点击画布左上角磁盘保存按钮并点击 “保存并发布”
      在这里插入图片描述
      在这里插入图片描述

  • 配置要点:
    由于目标物理大表已通过上一阶段 ETL 执行了物理列扩容与数据汉化写回,此处直接引入数据集即可自动加载备注,无需二次在 BI 控制台内手动汉化。

步骤14:开发专项概况核心指标卡组件阵列

构建一组以红色为主体色调的数字看板指标卡,引入下钻强过滤器,用以从总规模和性别底数上对高危学生进行体量监控。

  • 操作过程:

    1. 学生考勤画像分析 分组目录下新建工作表,命名输入 纪律高危型总人数,右侧绑定数据集切换至 学生考勤主题数据集
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

    2. 在右侧基础图表清单中点击选用“指标卡”组件,将左侧度量字段 student_id(学生ID) 拖拽投放至值轴槽内;
      在这里插入图片描述

    3. 点开该值轴字段旁的聚合选项菜单,将系统默认的求和手动切换勾选为“去重计数”
      在这里插入图片描述

    4. 点击图形设置齿轮打开过滤器面板,添加字段 attendance_group(考勤群体分类) 并编辑,条件设置为包含 “纪律高危型” 选项并确认;
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

    5. 切换进入“样式设置”面板,点开标题设置与值设置,在字体颜色面板中统一点击选择醒目的红色,将数值的字体大小配置放大到 30 并居中,保存并发布工作表;
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

    6. 保持底层“包含纪律高危型”的过滤器条件不变,通过复制该指标表并在过滤器槽中分别叠加引入 gender(性别) 字段,依次开发并发布:纪律高危型男生人数(过滤器叠加 gender 包含“男”)、纪律高危型女生人数(过滤器叠加 gender 包含“女”)、高危型未知性别人数(过滤器叠加 gender 包含“未知”)三个独立的指标卡工作表。
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

  • 配置要点:
    核心配置在于必须将指标卡值槽的 student_id 聚合方式强制修改切换为“去重计数”,且必须通过图形设置将过滤器条件锁定为“纪律高危型”,由此实现高危体量的精准下钻统计。

步骤15:开发高危型与全校学生性别结构对比饼图

构建高危学生纯净内部的性别结构百分比,同时镜像开发全校大盘的性别占比,通过双图并列对照组设计排除全校总人口基数带来的业务误判。

  • 操作过程:

    1. 新建工作表命名为 纪律高危型学生男女人数占比,数据集选择“学生考勤主题数据集”,基础图表选用“饼图”,将度量 student_id 拖入值轴(去重计数),将维度 gender 拖入分类轴;
      在这里插入图片描述
      在这里插入图片描述

    2. 点击图形设置过滤器面板:添加 gender 字段并设置为 “排除以下选项”,勾选“未知”以剔除脏数据干扰;再次添加 attendance_group 设置为包含“纪律高危型”并确认;
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

    3. 切换进入“样式设置”面板,点开图表元素设置,手动勾选“显示百分比”标签,将内环大小滑块手动调整为 50% 呈现中空环状效果,将圆角半径配置固定为 10,保存并发布;
      在这里插入图片描述
      在这里插入图片描述

    4. 新建工作表命名为 全校学生男女人数占比,其饼图模板、值轴、分类轴及内环圆角样式完全镜像对照前一个工作表;
      在这里插入图片描述

    5. 调整过滤器配置:在过滤器面板中,仅保留排除性别未知的过滤规则,删除移除任何关于 attendance_group 的下钻过滤条件,加载学校最底层的性别人口原始大基数比例并发布。
      在这里插入图片描述

  • 配置要点:
    零代码饼图画布默认隐藏百分比数据。我们必须在样式设置下的图表元素配置内手动勾选“显示百分比”;同时,双饼图必须在一张有高危过滤、一张无高危过滤的口径下开发,以此组建严谨的业务对比组。

步骤16:开发时空交叉特征堆叠柱状图与大盘对照图

将新老校区地理空间维度投入分组轴,与年级时间走势重叠构建交叉切面,立体识别违纪高发的网格热点,并配备无过滤的大盘基数图作为基准。

  • 操作过程:

    1. 新建工作表命名为 纪律高危型学生年级特征分析,类型选用“柱状图”,X轴引入 grade(年级),Y轴引入 student_id(去重计数),过滤器设置为包含“纪律高危型”,样式设置中更换主题色,并且将边框色选用为“无边框色”并发布;
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

    2. 新建工作表命名为 纪律高危型学生校区类型与年级交叉特征分析,图表类型、行、列及高危过滤器设置完全承袭延续上一个年级柱状图的基础配置;
      在这里插入图片描述
      在这里插入图片描述

    3. 在图形标记设置面板内,找到 “分组” 选项配置框,将左侧的汉化维度字段 campus_type(校区类型) 用鼠标精准拖拽投放至该分组框内,使画布自衍生形成年级+校区的双色交叉堆叠柱状图,将主题色设置成与上一个图表的主题色,并取消边框色,保存并发布;
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

    4. 新建工作表命名为 不同校区类型各年级学生人数,其柱状图类型、X轴、Y轴以及分组轴的拖拽位置完全镜像参考步骤3的双维堆叠图;
      在这里插入图片描述

    5. 在过滤器面板中保持完全空白,不添加任何考勤群体下钻的过滤条件,全量完整渲染出全校基础总人口底数堆叠图,取消边框色后点击保存并发布。
      在这里插入图片描述

  • 配置要点:
    将维度字段校区类型(campus_type)精准投入图形设置的“分组”槽内,是让柱状图自衍生为交叉堆叠效果的关键操作;对照图必须清空所有高危过滤,以展现学校各学段真实的物理基础底数。

步骤17:开发基于降维排序的薄弱班级聚集水平条形图

下钻下沉至具体管理的最后一公里,通过班级粒度统计高危分布,并配置降序强规则,实现薄弱班级的直观排查。

  • 操作过程:

    1. 新建工作表命名为 纪律高危型学生班级特征分析,数据集选择“学生考勤主题数据集”,图表类型中双击切换选中 “水平条图”
      在这里插入图片描述

    2. 将维度的汉化字段 class_name(班级名称) 拖拽投放至 Y 轴,将度量字段 student_id(学生ID) 拖拽投放至 X 轴,并配置其聚合方式为“去重计数”;
      在这里插入图片描述

    3. 进入图形设置过滤器,添加 attendance_group 并编辑设置为包含“纪律高危型”;
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

    4. 在 X 轴配置槽内,用鼠标左键点击 student_id 字段旁的倒三角交互菜单,在弹出的高级选项列表中选择“排序” —— 手工勾选切换为“降序排序”
      在这里插入图片描述

    5. 调整水平条图组件的主题色与整体项目色系保持一致,点击左上角磁盘保存并发布工作表。
      在这里插入图片描述
      在这里插入图片描述

  • 配置要点:
    在水平条形图中,必须点击 X 轴计数主键并手动开启高级选项中的“降序排序”。该配置能强制将高危违纪学生人数聚集最多的前列薄弱班级自动强制置顶呈现,极方便教务精准排查。

步骤18:组装并发布纪律高危型学生用户画像分析综合仪表盘(第二个仪表盘交付)

将前面步骤发布的 7 个核心工作表组件在全新大屏画布中完成综合拼装,并利用文本图钉与自适应换行完成大屏交付。

  • 操作过程:

    1. 选择进入“仪表盘”模块,点击左上角“+” - “新建仪表盘”,输入仪表盘全名 纪律高危型学生用户画像分析 并确认;
      在这里插入图片描述
      在这里插入图片描述

    2. 拖入“基础组件-文本”到画布最顶端作为标题,输入内容“纪律高危型学生用户画像分析”,设置字号 24、加粗、居中,调整好高度后点击右上角图钉图标锁定其相对网格绝对位置;
      在这里插入图片描述
      在这里插入图片描述

    3. 切换进入工作表标签页,进行栅格对齐拼装:看板第一横排并排横向平铺 4 个红色概况数字指标卡;中部左侧并列排放男女高危占比与全校基数对比饼图;中部右侧并列放置时空交叉特征堆叠柱状图与全校总人数大盘对照柱状图;看板最下半部整体横向拉长、水平平铺薄弱班级聚集降序排行水平条图;
      在这里插入图片描述

    4. 在图表组件网格空隙内拉入数个辅助说明的“文本组件”,双击录入数据解读结论。随后逐一在右侧的组件设置面板中,点击关闭“超出隐藏”这一功能开关,激活文本在网格内的自适应换行与完整展现;
      在这里插入图片描述

    5. 长屏执行精细化网格吸附对齐排版后,点击左上角磁盘保存,并在弹出框中点击 “保存并发布”
      在这里插入图片描述

    6. 发布成功后,可以点击“分享”,并选择不同的分享方式将仪表盘分享给其他人查看。
      在这里插入图片描述

  • 配置要点:
    固化嵌入大屏看板、承担叙事功能的文本组件,必须在右侧高级设置里将“超出隐藏”这一默认打开的控制开关手动点击关闭。该配置能够打破行高截断限制,让辅助分析文字依据栅格宽度实现自动弹性换行与长效完整显现。


三、实验结果与数据深度解读

3.1 实验产生的数据与可视化成果物列表

本次全链路零代码数据智能实验在助睿一站式平台的支撑下,最终成功高标准产生了以下三项可复用、可交付的核心成果物:

  1. MySQL 物理主题扩展标签表: 经过 ETL 批量加工并执行覆盖更新后的 MySQL 实体大表 student_attendance_stats。该表在保持学生原始基础维度的同时间,全量新增并持久化落盘了 clusterattendance_group 两维衍生列,完成了底层数据资产的标签化升级。
  2. 大盘特征解译看板: 在助睿 BI 上在线交付并发布的《聚类簇分析仪表盘》。看板包含 6 组两两度量指标交叉散点探索图,客观解构并论证了无监督分类算法对全校特征提取的边界分布,实现了从机器硬编码到业务定义的逻辑桥接。
  3. 管理专项决策大屏: 在助睿 BI 上在线发布的交互式大屏《纪律高危型学生用户画像分析综合仪表盘》。看板固化了所有的多维交叉走势、大盘基础对照以及薄弱班级明细,为校园的精准行为矫正提供了直接、现成的数据支撑。

3.2 仪表盘一:全局聚类簇散点边界规律探查解读

结合第一个大盘仪表盘沉淀的 6 组交叉散点探索器的客观空间分布,将机器编号对应的特征边界与业务定义归纳如下:

  • C1(蓝色,自律模范型): 在涉及迟到、早退、请假、未穿校服的所有两两交叉散点图中,蓝色数据点表现出了高密度的稳定性,均高度堆叠在原点附近(零频次或极低频次绝对区间),没有任何向外的离群趋势。这证明该群体出勤稳定、合规意识极强,是校园管理的正面基本盘。
  • C2(青色,轻微波动型): 其整体数据点的分布基调同样维持在低频次范围内,但相较于 C1 而言,青色散点在局部轴向上表现出了一定程度的离散性。具体表现在局部工作表中,青色散点在请假次数或校服违规次数轴上轻微向外伸展,但在迟到与早退次数轴上始终死死穿梭在低位。这表明该群体纪律态势总体温和可控,属于日常提醒关注对象。
  • C3(黄色,纪律高危型): 在 6 组多指标交叉图中均表现出了极强烈的 “负面极端离群特征”。特别是在迟到次数与其他三个维度的交叉坐标轴中,黄色散点表现出了大范围向外纵深发散的喇叭状轨迹。这意味着该群体绝非单一指标的偶尔违纪,而是高频次的迟到行为与频繁的早退、未穿校服或高频请假在个体身上产生了严重的多维度负面叠加,是校园精细化治理绝对的核心关注群体。

3.3 仪表盘二:纪律高危型群体专项下钻画像深度数据解读

通过对第二个专项大屏看板所固化的去重计数、百分比数据以及排查出的交叉走势执行深度探查,提炼出了以下四条面向校园精细化管理的画像结论:

  • 整体规模与基础体量清晰: 看板顶部指标卡去重计数统计表明,全校“纪律高危型”学生的绝对总人数为 914 人。在这项大盘底数中,明确标注为男生的有 133 人,明确标注为女生的有 117 人,而有 664 人由于前期采集缺失暂时表现为未知性别。整体看高危群体已具备相当的规模。
  • 性别结构比对特征:打破“男生必然高危”的直觉误判,男女考勤违纪发生率在统计学上平齐。
    在完全排除 664 人未知性别数据、聚焦 250 名纯净高危学生集合的切面上:高危群体内部的真实男女结构为男生占比 53.03%(133人),女生占比 46.97%(117人)。为了判断该差异是否由性别总基数导致,我们引入全校数据集的纯净基数饼图进行严格横向比对:全校大盘中男生本身基数就偏高,占比为 53.2%,全校女生基数为 46.8%。
    交叉对比结果表明: 高危群体内的净男生占比(53.03%)相较于其在全校的总基数(53.2%)甚至出现了微弱的下降;而高危群体内的净女生占比(46.97%)相较于其在全校的总基数(46.8%)反而表现出了微弱的爬升。这一用客观数字比对得出的重要画像特征科学地论证了:在严重的考勤违纪异动行为上,学校男女学生的真实发生率和违纪风险完全均等。因此,后续的校园纪律引导和行为干预必须男女同等重视。
  • 时空交叉聚集特征:高危行为随年级阶梯式恶化,且老校区高年级成为核心风险源。
    通过将校区类型与年级堆叠交叉图结合全校总人数底数对照图进行横向对比分析,我们解构出了两极分化的时空规律:
    1. 新校区整体风控极佳: 新校区本身学生人口大盘底数较小(高一老251/新26,高二老350/新61,高三老491/新0),其对应的新校区高危学生规模也处于极低位(高一仅10人、高二19人、高三为0),整体态势优良可控。
    2. 老校区呈现大规模聚集且行为随学段拉升呈明显增长态势: 老校区集中了绝大多数高危型学生。老校区高一高危人数为 80 人(占该年级该校区总基数的31.8%),高二上升至 130 人(占比达37.1%),而老校区高三年级的高危人数见顶,达到了 261 人!由于全校高三年级 491 名学生全部百分之百集中在老校区,这意味着全校高三毕业班中有超过一半的学生(占比达53.1%)处于多维异常叠加的高危异动状态。这清晰表明老校区高年级的学风建设、通勤条件或日常管理模式存在薄弱点。
  • 班级分布聚集特征:高危学生呈现极其强烈的单班“班级聚集性”,同伴影响和班风效应显著。
    从执行了降维降序排序的班级水平条形图中可以极其直观地观察到,914 名高危学生并非松散、均匀散落在全校上百个班级中,而是表现出了强烈的聚集热点。绝大多数班级的高危人数接近于零,而风险几乎全量挤压在极个别特定的班级里。其中,高三 09 班的高危人数高居全校榜首,单班聚集了 38 名高危学生!紧随其后的是高三 08 班、高三 02 班。单个班级密集聚集近 40 名高危学生,数据证明严重的考勤违纪在班级内部存在极其强烈的同伴效应与交叉影响,这也直接映射出这些薄弱班级的班风氛围、班主任日常精细化监管存在缺失。

四、问题与解决

问题1:元数据类型冲突导致 ETL 更新组件报错中断

  • 问题现象: 在数据集成平台(助睿 ETL)中配置完毕值映射并连接到最终的“更新”组件时,点击运行项目转换流直接弹出红色报错并异常中断,系统日志抛出主键查询失败、无法匹配或关联列字段不兼容的底层错误。
  • 问题原因: 第一阶段在 AI Studio 中通过机器学习算法自动生成并物理入库的中间表 student_cluster,其在物理建表时系统默认将关联主键 student_idclass_id 识别并存储为了文本类(TEXT)或双精度浮点类(DOUBLE)格式。而我们需要回写更新的目标物理表 student_attendance_stats 中,这两列在 MySQL 底层是以标准整数(Integer)格式存储的。两表建立关联时由于元数据类型发生冲突,导致底层索引失效,从而引发更新流报错中断。
  • 解决方法: 在配置过程中发现,这个问题可以通过在流中合理插入字段选择组件来解决。我们在“表输入”组件与“值映射”组件之间,及时连线关联了一个“字段选择”组件。双击打开该组件并切换进入关键的“元数据”选项卡,手动配置插入两行格式强制对齐转换规则:显式将流中的 student_id 的数据类型由浮点强转修改选择为 Integer,长度限定配置为 10;将 class_id 的数据类型同样强制修改转换选择为 Integer,长度设为 10。点击确定保存该配置后重新全量运行转换流,组件间的主键流格式彻底对齐,报错彻底解决。

问题2:更新组件提示执行成功但目标物理表标签内容全为 NULL

  • 问题现象: 数据集成平台提示转换流完全执行成功,各组件均带有代表顺利运行的绿色小对勾。但当我们在 BI 探索系统进行“数据探查”或直接在 MySQL 中执行查询语句时,发现目标大表中新扩展的机器码 cluster 字段有数据,但至关重要的中文业务标签列 attendance_group 下的数据内容却全部表现为 NULL
  • 问题原因: 发现在数据表扩展字段时,底层 MySQL 中的列名是以纯小写的 clusterattendance_group 命名的。而在“更新”组件的详细高级配置表中,当点击“获取字段”时,系统默认带入的表字段框里,直接错误地继承了算法流里首字母大写的 Cluster 字段名。由于大小写敏感以及映射字段对敲错位,导致流里的中文标签数据未能正确在目标表中对齐写入,从而全被系统置为了 NULL 值。
  • 解决方法: 在配置过程中发现,这个问题可以通过在更新组件中重新显式绑定小写物理列名来解决。我们双击重新打开“更新”组件设置面板,定位到下方的“更新字段”配置表。在第一行的“表字段”那一列对应的单元格内执行双击,在系统衍生弹出的目标表物理字段下拉列表中,精准修改切换选用物理表真正的小写列名 cluster,而对应的“流字段”保持原有的首字母大写 Cluster 保持不变;第二行表字段与流字段均严格重新双击锁定对齐为小写的 attendance_group。重新保存并点击再次全量运行转换流项目,中文分类标签便成功、完整地批量写回并沉淀到了原始数据库大表中, NULL 问题彻底修复。

五、实验总结与校园管理建议

5.1 掌握了助睿平台机器学习聚类、标签清洗与BI双仪表盘开发的完整闭环方法

通过本次闭环实验,我们不再局限于孤立的数据加载或单表导入,而是完整实践了一次从无监督模型算法特征凝聚、中间物理表转换清洗、跨系统元数据格式对齐、值映射写回到多功能 BI 画像大屏的商业大数据深度挖掘流程。实验利用频次特征进行 K-Means 建模,并通过两两指标散点图科学地拉开了群体间的特征行为边界,论证了算法的合理性,实现了从冰冷算法编码到业务分类标签的高效跨越。

5.2 精细化行为干预与校园管理建议

专项下钻画像看板客观证明,校园的考勤异常行为并不是均匀发散的,而是具备强烈的**“时空聚集性”“单班同伴传染性”。高危型学生在男女生中真实异动风险平齐,并最终在老校区的高三年级阶段(高危人数261人,占单学段一半以上)以及少数监管涣散的单班(如高三 09 班聚集 38 人)**形成了负面聚集风险源。为了将这些宝贵的数据资产转化为实际的校园管理成效,我们提出以下四条精准的行为干预建议:

  1. 靶向精准整治单班高度聚集的薄弱班级: 年级组与教务处应将高三 09 班、08 班等高危型人数在 30 人以上的严重聚集班级列为重点整顿对象。应通过加强班主任监管力度、重塑合规班风氛围、引入班级考勤责任制,阻断考勤异常在薄弱班级内部的同伴风气传染。
  2. 强化老校区高年级的通勤优化与常态化死角监管: 针对老校区优化通勤管理、强化考勤监督,营造严谨学风氛围,降低学生违纪风险。例如优化备考作息排班,在午休结束、灵活走班课程转换等极易产生点名漏洞的间隙增设数字化常态监管,营造严谨的迎考学风氛围。
  3. 开展男女学生同等覆盖、无直觉偏见的时间管理教育: 针对性开展无差别的合规意识宣贯与精细化时间管理培训。由于高危型内部纯净男女结构与全校人口大盘底数比例完美吻合,必须男女同等重视。
  4. 建立高危学生家校联动的一对一精准干预台账: 提取 BI 专项仪表盘中已去重锁定的 914 名高危学生唯一名单下发至各对应班级。为每位高危学生建立个性化电子矫正台账,一对一建档并联动家长,将出勤异动实时抄送家长端开展家校联合跟踪,并在干预周期内利用助睿看板动态跟踪其随后的考勤回补效果,防止异常行为固化或恶化。
Logo

一站式 AI 云服务平台

更多推荐