一、实验背景

1.1 实验目标

本实验以已完成清洗的自媒体明细数据为基础,利用助睿 ETL 计算标题衍生特征与关键词汇总指标,生成明细更新数据及关键词统计表,为后续的深度特征分析提供数据支撑。通过本次实验,学生应能达到以下要求:

  1. 理解特征工程在数据分析全流程中的关键地位和实际应用价值
  2. 借助助睿 ETL 的计算器组件完成互动总量等衍生指标的运算
  3. 运用 JavaScript 代码组件对文本关键词进行自动标注,产出标题特征标识字段
  4. 使用插入/更新组件将新特征写回原数据表,在保留原有数据的基础上追加新增特征
  5. 结合过滤与分组聚合组件,完成按关键词维度的均值统计并输出新的汇总数据表

1.2 实验环境

  1. 实验所用平台:助睿数智(Uniplore)—— 一站式数据科学实验平台
  2. 系统入口:https://lab.guilian.cn/
  3. 官方网站:https://www.uniplore.com/
  4. 存储引擎:MySQL
  5. 实验数据:全平台概况表(summary_all_platforms)、内容分析表(content_analysis)

1.3 处理流程概述

  1. 1. content_analysis 表更新与基础字段加工:在助睿 ETL 平台中导入已清洗的内容数据,借助文本处理节点提取标题特征作为核心分析维度;对点赞、评论、转发等互动指标进行求和运算,生成互动总数字段;将标题特征与互动总数回写至 content_analysis 表,并执行转换流实现数据持久化。
  2. 2. 关键词级别汇总表的构建与数据落库:以更新后的 content_analysis 表为数据源,先建立关键词汇总目标表;通过 SQL 节点分别运算整体平均互动数与各关键词平均互动数,随后将两类均值数据进行合并关联;最后将聚合结果写入目标表,执行转换流完成关键词维度互动表现数据的入库。

二、实验步骤

2.1 更新 content_analysis 表(标题特征 + 互动总数)

2.1.1 导入数据

新建一个转换流,拖入表输入组件,选择 content_analysis 表作为数据来源。

2.1.2 提取标题特征(核心分析维度)

拖入 JavaScript 代码组件,编写 JS 脚本,生成 5 个标题特征标志字段用于后续分析。

2.1.3 计算互动总数

拖入"计算器"组件,新增 interactions 字段,计算公式为:interactions = likes + favorites + shares + coins。

2.1.4 数据更新

拖入"插入/更新"组件,将计算完成的特征数据回填至 content_analysis 表中。

2.1.5 执行转换流

点击运行按钮,执行上述转换流。

2.2 输出关键词级别的汇总表

2.2.1 创建目标表

新建名为"创建关键词表"的转换流,拖入 SQL 组件,双击打开后选择"团队私有数据库",输入建表 SQL 脚本,随后执行该转换流。

2.2.2 计算整体平均互动数

依次拖入"表输入"、"排序记录"和"分组"组件,按平台名称进行排序与分组,计算 AVG(total_interaction) 以得到整体平均互动数 overall_avg。

2.2.3 计算关键词的平均互动数

拖入"过滤记录"组件,设置筛选条件 has_best = 1,仅保留含"保姆级"关键词的作品。接着拖入"排序记录"组件按平台名称排序,再拖入"分组"组件,分别计算 AVG(total_interaction) 获得 avg_interaction,以及 COUNT(id) 获得 sample_count。

2.2.4 合并整体平均值和关键词平均值

拖入"记录集连接"组件,将整体平均互动数与关键词平均互动数进行合并关联。

拖入“增加常量”组件,新增字段 feature_name,常量值设为‘保姆级’。

2.2.5 数据入库

拖入"表输出"组件,将合并后的聚合数据写入目标表中。

2.2.6 执行转换流

点击运行按钮,执行当前转换流。

2.2.7 处理其余关键词

将整个分支复制粘贴,仅修改两处配置:过滤条件(如改为 has_lowcode = 1)和常量值(如改为'零代码'),其余组件的配置保持不变。

三、实验结果

经过特征加工后更新完成的 content_analysis 表。

关键词特征分析表 title_feature_analysis。

四、问题与解决

问题一:关键词表转换流中分组聚合的结果与预期不符

原因:分组操作时遗漏了分组条件的设置

解决方法:补充设置按平台名称进行分组

问题二:关键词表输出环节出现报错

原因:表输出组件的配置项存在错误

解决方法:取消勾选"裁剪表"选项

五、实验总结

        本次实验借助助睿数智零代码平台完成了自媒体作品的特征工程构建与关键词运营数据分析,系统掌握了 ETL 数据加工的全链路操作流程。实验首先通过表输入组件读取自媒体内容数据表,利用 JavaScript 脚本自动提取"保姆级""零代码"等标题关键词标识字段,再通过计算器组件将点赞、收藏、转发、投币等互动指标累加形成总互动量,随后借助插入/更新组件将新特征回写至原表,完成基础特征的扩充。接着搭建关键词汇总处理流,新建特征分析结果表,分两条路径分别统计各平台整体平均互动数以及单个关键词的平均互动数与样本量,通过记录集连接进行数据合并后批量写入汇总表,最终复制处理分支完成全部关键词维度的统计计算。

        在实操过程中排查并解决了分组缺失、表输出配置异常等具体问题,直观感受到特征工程对自媒体数据挖掘的推动作用。通过横向对比各平台不同标题关键词的平均互动表现,能够清晰判断标题话术对流量引流的实际效果,为自媒体内容选题和标题优化提供了量化的决策依据,同时也熟练掌握了平台各类 ETL 组件的组合运用逻辑。

Logo

一站式 AI 云服务平台

更多推荐