1 实验目的

本实验基于实验7-1预处理完成的标准化自媒体数据集,依托助睿ETL工具开展作品特征工程搭建工作,完成衍生指标计算与文本特征标注,构建双层维度的特征数据体系,并完成数据表迭代更新与统计结果落地存储,为后续自媒体运营效果分析、标题策略优化、数据可视化挖掘提供标准化特征支撑。

本次实验主要完成两大核心任务:

(1)作品维度特征迭代更新:基于作品原有互动数据计算综合互动总量指标,同时通过文本匹配规则提取5类标题属性特征标签,将所有新增特征字段回填至已清洗的作品明细数据表,完善单作品维度数据体系。

(2)关键词维度聚合统计:针对五类标题核心关键词,分别统计对应作品样本的平均互动数据,量化不同标题风格的传播效果,生成关键词维度的统计分析数据表。

通过本次实验实操,可熟练掌握以下专业知识与实操技能:

深入理解特征工程在数据分析链路中的核心价值,掌握从原始清洗数据到结构化特征数据的加工逻辑,明确特征量化对量化分析、效果对比的支撑作用。

熟练运用助睿ETL计算器组件,完成多字段融合的衍生指标自定义计算,实现业务指标的数据化落地。

掌握基于JavaScript代码组件的文本批量匹配、特征自动标注方法,实现非结构化标题文本的结构化、数字化转化。

熟练使用插入/更新组件完成数据表增量回填,掌握数据迭代更新逻辑,规避重复数据问题,保障原始基础数据的完整性。

掌握过滤、聚合、常量新增、数据合并等多组件组合用法,实现分组筛选、分类统计的自动化数据计算流程。

2 实验环境

实验操作平台:助睿在线实验平台 https://lab.guilian.cn/

本次实验依托Uniplore助睿数智一站式大数据智能服务平台开展,该平台具备零代码全链路数据处理能力,覆盖数据接入、ETL加工、AI建模、可视化展示等全流程功能,既适配高校数据分析教学实训场景,也可满足企业商用级数据治理与数据挖掘需求。

助睿数智官方网址:https://www.uniplore.com//

核心数据处理工具:助睿ETL数据集成平台

全域元数据标准化架构:平台所有数据对象、处理节点均依托统一元数据规范定义,标准化规则贯穿数据读取、转换加工、落地存储全流程,保障数据规范性与一致性。

零代码可视化操作模式:采用拖拽式可视化交互方式搭建ETL流程,无需编写大量复杂代码,即可完成数据抽取、转换、加载全流程操作,降低数据分析实操门槛。

全场景预处理组件库:内置筛选、空值填充、数据聚合、表连接、字段筛选、代码加工等丰富功能组件,可灵活适配各类数据清洗、特征加工、统计分析场景。

流水线模块化处理机制:以多类型功能组件组合为核心Pipeline流水线,模块化拆分数据处理步骤,精准聚焦数据加工与逻辑转换,流程清晰、可复用性强。

高可用开源引擎架构:基于开源核心搭建稳定高效的数据处理引擎,搭配可拓展插件体系,可根据业务需求灵活拓展数据处理能力,适配多场景数据加工需求。

本次实验核心功能组件及对应用途如下:
组件 用途
表输入 读取实验7-1输出的content_analysis标准化明细数据集,作为本次特征加工的基础数据源
计算器 融合多类互动指标,计算作品综合互动总数衍生字段
JavaScript代码 对作品标题文本进行关键词匹配,自动生成五类标题特征0-1标记字段
插入/更新 根据唯一ID匹配数据,实现新特征字段增量回填,不新增冗余数据、不覆盖原始基础字段
过滤记录 + 聚合 筛选对应关键词样本数据,完成样本数量、平均互动量的分组统计计算
增加常量 为各分支统计数据添加关键词名称标签,区分不同维度统计结果
合并记录 整合五类关键词的统计数据,汇总为完整的关键词分析数据集
表输出 将关键词维度统计结果落地存储至title_feature_analysis目标数据表

3 核心设计思路

本次实验以“基础数据量化升级、特征维度分层搭建”为核心思路,在已有清洗数据的基础上,完成数值型衍生特征与文本型标签特征的双重构建,搭建作品级、关键词级双层特征体系,实现自媒体作品数据的深度结构化升级。

本次构建的两类核心特征作用如下:

第一类为综合互动总数特征:整合点赞、收藏、分享、投币四类核心互动数据,计算单作品总互动量,以量化数值直观反映单篇作品的整体用户传播与互动效果,是衡量作品热度的核心绝对值指标。

第二类为标题关键词特征:针对作品标题文本,通过精准匹配规则生成5类0-1量化标记字段,将非结构化的标题内容转化为可统计、可对比的结构化数据,用于后续量化分析不同标题关键词对作品流量、互动效果的影响。

整体数据处理逻辑分为两大模块:一是单作品特征迭代,完成指标计算与标签标注,回填更新原有明细数据表;二是关键词聚合分析,基于新增特征分组统计,生成维度汇总表,实现从单样本明细到多维度统计的全覆盖,为后续运营分析、可视化对比提供完善的数据支撑。

4 实验步骤

4.1 更新 content_analysis 表(标题特征+互动总数)

本环节主要完成单作品维度的特征计算与数据表增量更新,完善明细数据的特征字段。

步骤1:加载基础数据源

在助睿ETL工作区中添加表输入组件,直接引用实验7-1最终输出的content_analysis标准化明细表作为本次实验的基础数据源。平台支持跨实验项目复用数据集,无需重复导入原始文件,大幅提升数据处理效率。

步骤2:批量提取标题特征标签

接入JavaScript代码组件,通过文本索引匹配规则,对每条数据的作品标题字段进行关键词检索,自动生成五类二元特征标记字段,实现标题文本的结构化量化转换,具体执行代码与判定规则如下:

定义标题变量,分别匹配“保姆级”“零代码”“实战”“教程/指南”“踩坑”五类核心关键词,匹配成功则赋值为1,未匹配则赋值为0,最终输出5类特征字段。

本次选取的五类关键词均为本次自媒体作品数据中的高频词汇,精准对应实操教学、技术分享、经验避坑等核心内容定位,可有效区分作品内容风格,为后续分析标题对作品互动效果的影响提供精准的分类维度。

步骤3:计算作品综合互动总量

在流水线中接入计算器组件,自定义新增total_interaction综合互动字段,整合四类核心互动指标,计算公式为:total_interaction = likes + favorites + shares + coins,全面汇总单作品的用户互动行为,量化作品整体热度。

步骤4:增量更新目标数据表

选用插入/更新组件完成数据回填迭代,区别于直接表输出的新增数据模式,该组件可通过唯一ID精准匹配原有数据,仅更新新增特征字段,保留所有原始基础数据,彻底规避数据重复、原始数据被覆盖的问题,支持流水线重复运行。

步骤5:执行流水线并核验结果

完成所有组件配置与字段映射后,检查流水线逻辑无误,启动ETL转换任务。运行结束后查看数据探查结果,核验新增特征字段完整、数值准确,数据表更新无重复、无缺失。

添加图片注释,不超过 140 字(可选)

4.2 输出关键词级别的汇总表

本环节基于更新后的明细数据,完成五类关键词的分组统计,对比各关键词作品的平均互动效果与平台整体均值,生成维度化统计数据表。

步骤1:新建关键词统计目标表

在助睿ETL平台新建title_feature_analysis汇总数据表,用于存储各关键词的统计分析结果,具体字段结构与说明如下:

字段 类型 说明
id INT 数据自增主键
platform VARCHAR(20) 作品发布平台(B站/CSDN)
feature_name VARCHAR(50) 标题关键词名称
avg_interaction DECIMAL(10,2) 对应关键词作品的平均互动总量
overall_avg DECIMAL(10,2) 对应平台所有作品的整体平均互动总量
sample_count INT 包含对应关键词的作品样本数量

步骤2:计算平台整体平均互动量

搭建独立统计分支,通过表输入加载完整明细数据,接入排序、聚合组件,在不设置筛选条件的前提下,对total_interaction字段求取平均值,得到对应平台作品的整体平均互动数据。聚合完成后,新增常量字段feature_name并赋值为对应关键词名称,为后续数据合并提供匹配依据。

步骤3:计算单关键词平均互动数据

以“保姆级”关键词为例搭建统计分支:复制基础数据源分支,接入过滤记录组件,设置筛选条件has_best=1,精准筛选出标题包含“保姆级”的所有作品样本。随后通过聚合组件,分别计算该样本集的互动量平均值、作品样本总数。最后通过增加常量组件,标记关键词名称,解决聚合后无维度标识的问题,保障多分支数据可区分、可合并。

步骤4:合并整体数据与关键词数据

调用记录集连接组件,以feature_name为匹配字段,将单关键词样本统计数据与平台整体均值数据进行关联合并,整合为一条完整的关键词分析数据,同时保留样本量、均值对比等核心信息。

步骤5:数据落地存储

接入表输出组件,将合并后的结构化统计数据写入title_feature_analysis表,操作时不勾选裁剪表选项,保留已有数据,实现多关键词数据的批量累加入库。

步骤6:批量复刻完成全关键词统计

完成单关键词流水线调试后,整体复制复刻该处理分支,仅修改过滤条件与常量关键词名称,依次完成“零代码”“实战”“教程/指南”“踩坑”四类关键词的数据统计,最终汇总生成完整的五类关键词特征分析数据集,运行流水线并核验最终数据完整性。

5 实验输出

本次实验最终输出两类结构化数据表,分别适配明细分析与维度统计场景,具体信息如下:

输出表名称 数据粒度 核心用途
content_analysis(迭代更新) 单作品明细粒度 用于后续作品排名统计、流量趋势分析、单作品概况精细化挖掘等明细维度分析工作
title_feature_analysis(全新新建) 关键词维度汇总粒度 用于量化分析不同标题关键词的互动传播效果,支撑标题运营策略优化、特征效果对比分析

Logo

一站式 AI 云服务平台

更多推荐