助客实验报告 7-1:自媒体运营分析 - 数据清洗与预处理
一、实验背景
1.1 实验目的
本次实验依托助睿 ETL 工具完成自媒体多平台原始数据清洗与预处理,是特征工程、可视化建模前的基础环节。通过实操我需要掌握以下内容:
- 理解数据清洗在数据分析、机器学习流程中的前置必要性,识别脏数据对后续建模、统计计算的干扰;
- 熟练使用助睿 ETL 拖拽式组件完成多条件过滤、空值填充、分组聚合、字段筛选等标准化预处理操作;
- 掌握 ETL 分支分流设计思路,区分全平台大盘统计、重点平台深度明细两类数据处理逻辑;
- 产出两张标准化数据表,分别供给仪表盘指标卡、下一阶段特征工程使用。
1.2 实验环境
- 平台全称:助睿数智(Uniplore)一站式数据科学实验平台
- 官网地址:https://www.uniplore.com/
- 实验访问地址:https://lab.guilian.cn/
- 核心处理工具:助睿 ETL(UD Studio,数据集成模块)
- 工具核心特性
- 零代码可视化 Pipeline,无需编写 SQL、Python 即可完成 ETL 全流程;
- 内置 200 + 数据转换组件,覆盖清洗、聚合、关联、文本处理等场景;
- 元数据统一管理,数据表跨实验可复用,适配完整数据链路;
- 流批一体引擎,支持 CSV、数据库等多类数据源接入。
- 实验数据集 数据源文件:
自媒体作品数据明细.csv数据范围:6 月 8 日 - 6 月 15 日全班学生在 B 站、CSDN、微信、知乎、小红书发布的作品互动明细; 数据缺陷:多平台无效记录、文本字段空值、冗余采集字段、分平台差异化互动指标。
1.3 核心设计思路
3.1 数据清洗的必要性
原始采集数据存在三类脏数据,直接用于分析、机器学习会引发统计失真、代码报错:
- 平台冗余脏数据:微信、知乎、小红书绝大部分浏览量为 0,无有效分析价值,保留会稀释流量数据;
- 无效业务记录:部分作品浏览、点赞、收藏全部为 0,属于失效采集或零曝光内容,不适合深度分析;
- 缺失字段:标题、作者名称存在空值,后续文本特征提取、分组统计会出现空值报错。 数据清洗核心目标:剔除无效数据、补齐缺失内容、规范字段结构,拆分两套数据分别适配不同分析场景。
3.2 整体数据处理流程
原始 CSV 数据源导入 → 使用「复制记录」做双分支分流 分支 1(全平台汇总管线):排序→分组聚合→输出全平台总表summary_all_platforms 分支 2(重点平台清洗管线):多条件过滤→缺失值填充→精简字段→输出明细清洗表content_analysis 两张数据表分工:汇总表用于大盘总览指标,清洗明细表作为特征工程、可视化明细分析输入。

二、实验步骤(含操作说明、配置要点、截图说明)
步骤 1:创建两张目标数据表
操作说明:进入助睿 ETL 表管理模块,分别新建两张结构化数据表,提前定义字段名称、数据类型与业务含义,为后续表输出做准备。
表 1:summary_all_platforms(全平台汇总表)
表格
| 字段名 | 数据类型 | 配置说明 |
|---|---|---|
| crawl_date | DATE | 数据采集日期,保留时间维度用于趋势统计 |
| platform | VARCHAR(20) | 发布平台名称(B 站 / CSDN / 微信 / 知乎 / 小红书) |
| content_count | INT | 当日该平台发布作品总条数 |
| total_views | INT | 平台全部作品总浏览量 |
| total_likes | INT | 平台总点赞数量 |
| total_favorites | INT | 平台总收藏数量 |
| total_shares | INT | 平台总分享数量 |
| total_coins | INT | B 站专属投币量,其他平台自动聚合为 0 |
| total_recommend | INT | 微信专属推荐指标 |
| total_likes_zhihu | INT | 知乎专属喜欢指标 |
| total_approvals | INT | 知乎专属赞同指标 |
配置要点:不做任何数据过滤,完整保留全部平台数据;各平台独有互动指标独立建列,不合并求和,保证各平台业务指标可区分。

DROP TABLE IF EXISTS summary_all_platforms;
CREATE TABLE IF NOT EXISTS summary_all_platforms (
id INT AUTO_INCREMENT PRIMARY KEY COMMENT '自增主键ID',
crawl_date DATE NOT NULL COMMENT '采集日期',
platform VARCHAR(20) NOT NULL COMMENT '平台名称',
content_count INT COMMENT '作品数量',
total_views INT COMMENT '总浏览数',
total_likes INT COMMENT '总点赞数',
total_favorites INT COMMENT '总收藏数',
total_shares INT COMMENT '总分享数',
total_coins INT COMMENT '总投币数(仅B站)',
total_recommend INT COMMENT '总推荐数(仅微信)',
total_likes_zhihu INT COMMENT '总喜欢数(仅知乎)',
total_approvals INT COMMENT '总赞同数(仅知乎)'
) ENGINE = InnoDB DEFAULT CHARSET = utf8mb4 COMMENT = '全平台概况汇总表';
表 2:content_analysis(重点平台清洗明细表)
| 字段名 | 数据类型 | 配置说明 |
|---|---|---|
| date | DATE | 采集日期 |
| author_name | VARCHAR(100) | 作品作者昵称 |
| title | VARCHAR(500) | 作品标题 |
| platform | VARCHAR(20) | 仅存储 B 站、CSDN |
| likes/favorites/shares/coins | INT | 基础互动指标 |
| views | INT | 播放 / 阅读量 |
| url | VARCHAR(500) | 作品外链 |
| total_interaction | INT | 预留字段,下一实验计算总互动 |
| has_best/has_lowcode/has_practice/has_tutorial/has_pit | TINYINT(1) | 预留标题关键词 0-1 特征字段 |
配置要点:预留衍生特征字段,无需在本次实验填充,为实验 7-2 特征工程预留存储空间。 截图说明:截图保存数据表结构配置界面,留存字段类型、长度设置页面。
DROP TABLE IF EXISTS content_analysis;
CREATE TABLE IF NOT EXISTS content_analysis (
id INT AUTO_INCREMENT PRIMARY KEY COMMENT '自增主键ID',
date DATE NOT NULL COMMENT '采集日期',
author_name VARCHAR(100) COMMENT '作者昵称',
title VARCHAR(500) NOT NULL COMMENT '作品标题',
platform VARCHAR(20) NOT NULL COMMENT 'B站 / CSDN',
likes INT COMMENT '点赞数',
favorites INT COMMENT '收藏数',
shares INT COMMENT '分享数',
coins INT COMMENT '投币数(仅B站)',
views INT COMMENT '播放量/阅读量',
url VARCHAR(500) COMMENT '作品链接',
total_interaction INT COMMENT '互动总数',
has_best TINYINT(1) COMMENT '是否含“保姆级” 0否1是',
has_lowcode TINYINT(1) COMMENT '是否含“零代码” 0否1是',
has_practice TINYINT(1) COMMENT '是否含“实战” 0否1是',
has_tutorial TINYINT(1) COMMENT '是否含“教程/指南” 0否1是',
has_pit TINYINT(1) COMMENT '是否含“踩坑” 0否1是'
) ENGINE = InnoDB DEFAULT CHARSET = utf8mb4 COMMENT = '内容分析明细表(实验二输入,仅B站、CSDN有效数据)';
步骤 2:导入原始 CSV 数据源
操作说明:从平台公共资源库拷贝原始数据至个人文件库,通过「文件输入」组件加载 CSV 作为整个 Pipeline 的数据源。

- 在 ETL 公共空间找到
自媒体作品数据明细.csv,右键复制至个人私有文件库; - 拖拽「文件输入」组件至画布,文件路径选择个人库内目标文件;

- 点击「数据探查」预览原始数据,记录空标题、零浏览、多平台混杂等脏数据现象。 配置要点:文件编码设置为 UTF-8,开启自动识别表头,数值字段统一识别为整数类型。 截图说明:原始数据预览探查截图,记录脏数据样本。
步骤 3:分支 1—— 全平台聚合统计
操作说明:使用「复制记录」将原始数据流一分为二,第一条分支完成全平台分组聚合,输出大盘汇总表。
- 拖拽「执行一个sql脚本」组件,将输入数据分流为两条独立管线;
- 第一条管线依次添加「排序记录」、「分组聚合」组件;

- 排序组件配置:按
crawl_date、platform升序排序;
- 分组聚合配置:分组字段为
crawl_date、platform,聚合规则:- content_count:计数统计作品条数
- 设置聚合字段,删除作者名字、url、source_file、title字段后其余字段全部求和

- 管线末端添加「表输出」组件,绑定目标表
summary_all_platforms,不开启运行前裁剪表。 配置要点:聚合时保留平台专属指标,不做跨平台指标合并。 截图说明:聚合组件参数配置截图、分支完整管线截图。

步骤 4:分支 2—— 多条件过滤无效记录
操作说明:第二条清洗分支接入「过滤记录」组件,剔除无分析价值平台与零曝光作品。 过滤逻辑表达式:
(platform = 'B站' AND views > 0) OR (platform = 'CSDN' AND views > 0)
配置要点:
- 条件区分字符串匹配(平台名称)与数值判断(浏览量);
- AND、OR 嵌套实现双重筛选:仅保留 B 站 / CSDN,同时剔除浏览量为 0 的作品;
- 运行过滤后预览数据,确认不存在微信、知乎、小红书记录,无 views=0 数据。 截图说明:过滤条件编辑器配置截图、过滤后数据预览截图。

步骤 5:缺失值填充处理
操作说明:过滤完成后接入「空值替换」组件,补齐作者、标题空文本,避免后续文本处理报错。
- 待填充字段:author_name、title;
- 填充规则:空值统一替换文本
未知; - 数值互动字段无空值,无需配置填充规则。 配置要点:区分文本空值、数值空值两套处理逻辑,不统一填充数字。 截图说明:空值替换组件配置界面截图。

步骤 6:字段选择精简
操作说明:使用「字段选择」剔除采集冗余字段,仅保留业务分析所需字段。 剔除字段:source_file(采集批次标记,无分析意义) 保留字段:date, author_name, title, platform, likes, favorites, shares, coins, views, url 配置要点:勾选「移除未选中字段」,减少数据表冗余存储,提升后续计算效率。 截图说明:字段筛选配置界面截图。
步骤 7:输出清洗明细表
操作说明:字段筛选后接入「表输出」组件,将清洗完成明细写入content_analysis。 配置要点:勾选「运行前清空表」,保证每次实验产出干净无重复的明细数据。

步骤 8:完整转换流执行与数据验证
操作说明:检查两条分支组件连线、字段映射无报错,点击画布顶部「运行」执行整条 ETL 流水线。
- 运行结束后分别打开两张目标表执行数据探查;
- 验证标准:
- summary_all_platforms:包含 5 个平台所有日期汇总数据;
- content_analysis:仅存在 B 站、CSDN 有效作品,无标题 / 作者空值,无冗余字段。 截图说明:完整 Pipeline 流程图、两张数据表最终探查结果截图。


三、实验结果
- 产出数据表 1:
summary_all_platforms存储 6.8-6.15 全平台按日期聚合汇总数据,完整记录各平台作品总量、总浏览、分平台特色互动指标,共包含 5 个平台统计记录,可直接用于仪表盘顶部大盘指标卡。 - 产出数据表 2:
content_analysis完成脏数据剔除、空值补齐、字段精简后的有效作品明细,仅保留 B 站、CSDN 浏览量大于 0 的内容,无缺失文本,字段结构规范,作为实验 7-2 特征工程的基础输入数据源。 - 数据对比验证:原始 CSV 约 1900 条原始记录,经过滤清洗后有效明细数据约 1200 条,剔除全部无业务分析价值的脏数据,数据质量满足后续统计、文本特征提取需求。
四、问题与解决
问题 1:过滤组件执行后仍存在浏览量 = 0 的记录
- 问题现象:配置完多条件过滤,数据预览依旧出现 views=0 的 B 站、CSDN 作品;
- 问题原因:原始 CSV 中 views 字段被识别为字符串类型,数值大小判断逻辑失效;
- 解决方法:在过滤组件前新增「类型转换」组件,将 views 统一转换为 INT 整数类型,重新运行过滤流程。
问题 2:空值填充完成后,标题、作者仍存在空白数据
- 问题现象:配置文本空值替换为 “未知”,探查数据依旧存在空单元格;
- 问题原因:原始数据空白为空格字符串,并非数据库标准 NULL 空值;
- 解决方法:在空值替换前增加「字符串修剪」组件,清除字段前后空格,再执行空值填充。
问题 3:分组聚合后平台专属指标全部显示 0
- 问题现象:summary_all_platforms 表中 B 站投币、知乎赞同数值均为 0,和原始数据不符;
- 问题原因:分组聚合时字段映射错误,未匹配对应平台互动字段;
- 解决方法:重新核对聚合组件字段映射关系,分平台指标单独配置求和规则。
五、实验总结
5.1 实验收获
- 掌握数据清洗完整业务逻辑,能够自主识别平台冗余、无效记录、字段缺失三类典型脏数据,理解脏数据对后续特征工程、可视化、机器学习的负面影响;
- 熟练使用助睿 ETL 核心预处理组件,掌握多条件 AND/OR 联合过滤、文本空值填充、分组聚合、字段精简的零代码操作方法;
- 理解 ETL 分支分流设计思想,区分大盘汇总、明细分析两套数据的加工差异,掌握宽表设计思路,实现一次清洗、多实验复用数据;
- 建立标准化数据处理思维:先规划数据表结构,再导入数据源,分流加工,最后数据校验,贴合企业真实数据分析工作流程。
5.2 平台整体评价
助睿数智 Uniplore 一站式平台完整覆盖 ETL 数据清洗、特征建模、可视化全链路,零代码拖拽模式降低数据分析入门门槛,无需掌握编程、SQL 即可完成专业数据预处理;内置丰富的数据转换组件,同时支持自定义配置适配差异化业务指标;数据表跨实验可复用,完整串联数据清洗、特征工程、可视化整套实训流程,非常适合商业数据分析、大数据基础课程实操教学。平台元数据标准化管理、可视化 Pipeline 流程清晰,便于记录每一步操作,方便实验复盘与问题排查。
更多推荐




所有评论(0)