自媒体运营分析-数据清洗与预处理

2501_90986932

34人浏览 · 2026-07-01 17:42:12

2501_90986932 · 2026-07-01 17:42:12 发布

1 实验目标

本次实验以全班同学在多个自媒体平台发布的作品互动数据为基础，借助助睿ETL工具完成数据的清洗与预处理，最终生成两张核心数据表，为后续的特征工程和可视化展示做好准备。

通过本次实验，学生应能够：

理解数据清洗在整个数据分析流程中的基础地位和必要性
运用助睿ETL完成多源数据的筛选、补全、汇总等常见预处理操作
掌握“分支处理”的设计思路，实现全平台整体统计与重点平台专项分析的分流处理
产出两张结构规范的数据表，满足仪表盘不同模块对数据的不同需求

2 实验环境

实验平台：助睿在线实验平台（https://lab.guilian.cn/）

本次实验采用助睿数智（Uniplore）作为一站式数据科学平台。该平台涵盖了从数据接入、ETL处理、机器学习建模到可视化展示的完整链路，全部通过零代码方式完成，既适合数据分析教学，也适用于企业级数据加工场景。

数据处理工具：助睿ETL（数据集成平台）

助睿ETL具备以下核心优势：

全元数据驱动架构：平台内所有对象均通过元数据进行标准化定义，贯穿数据读取、处理与写入的各个环节
零代码拖拽式操作：用户可通过可视化拖拽方式完成数据的抽取、转换与加载，无需编写程序代码
丰富的预处理组件：内置筛选、填充、聚合、连接、字段选择等多种转换节点，能够灵活应对不同场景下的数据清洗需求
Pipeline（转换）机制：作为数据处理的核心功能单元，Pipeline由多个不同功能的Transform步骤组合而成，专注于数据本身的加工与转换
开源内核与高可用引擎：基于开源内核构建，具备高可用架构，并通过标准化的插件体系实现引擎能力的灵活扩展

3 整体设计思路

3.1 为何需要进行数据清洗？

采集到的原始数据通常无法直接用于分析，必须先经过清洗处理。

以 自媒体作品数据明细.csv 为例，数据中存在以下几类问题：

平台信息冗余：数据涵盖了B站、CSDN、微信、知乎、小红书等多个平台，但微信、知乎等平台的浏览数据几乎全部为零。这些平台虽然有作品记录，却缺少关键的浏览指标，难以进行有意义的分析。
无效记录：部分作品的浏览量、点赞量、收藏量均为零。这类记录可能是采集过程中出现了问题，也可能是作品本身无人关注，无论原因如何，它们都对分析没有实际价值。
字段缺失：点赞、收藏、分享等字段存在空值，若不进行处理，后续计算时会引发错误。

数据清洗的任务，正是逐一解决上述问题。

3.2 数据处理的整体流程

本次实验有一个特别之处：后续的仪表盘需要同时呈现两类信息。

第一类为“全平台概况”：包括全班发布的作品总数、覆盖的平台数量、总浏览量及总互动量等。这些指标需要基于所有平台的原始数据进行统计，即使某些作品的浏览量为零，也应计入作品总数。
第二类为“重点平台深度分析”：聚焦B站和CSDN两个平台，分析其播放量、阅读量、互动率等具体表现。这部分分析只需要保留两个平台中浏览量大于零的有效数据。

由于两类信息对数据的要求各不相同，ETL流程中需要进行分支处理：

两张表各有明确的定位——summary_all_platforms 专门服务于仪表盘顶部的全平台概况指标卡；cleaned_details 则作为中间结果，交给下一个实验环节继续加工使用。

4 实验步骤

步骤1：创建目标表

在助睿ETL中创建两张目标表。

第一张是全平台概况表（summary_all_platforms），用于存放所有平台的汇总数据。字段设计如下：

字段 | 类型 | 说明

crawl_date | DATE | 采集日期

platform | VARCHAR(20) | 平台名称

content_count | INT | 作品数量

total_views | INT | 总浏览数

total_likes | INT | 总点赞数

total_favorites | INT | 总收藏数

total_shares | INT | 总分享数

total_coins | INT | 总投币数（仅B站）

total_recommend | INT | 总推荐数（仅微信）

total_likes_zhihu | INT | 总喜欢数（仅知乎）

total_approvals | INT | 总赞同数（仅知乎）

这张表不做任何过滤，保留所有平台的原始数据。各平台特色指标（B站的投币、微信的推荐、知乎的喜欢/赞同）单独保留列，不合并到通用指标中。因为B站的投币和知乎的赞同含义不同，加在一起反而说不清楚，让它们各自独立，读者能清晰地看到每个平台有哪些互动行为。

拖入执行一个sql脚本组件

DROP TABLE IF EXISTS summary_all_platforms;
CREATE TABLE IF NOT EXISTS summary_all_platforms (
    id INT AUTO_INCREMENT PRIMARY KEY COMMENT '自增主键ID',
    crawl_date DATE NOT NULL COMMENT '采集日期',
    platform VARCHAR(20) NOT NULL COMMENT '平台名称',
    content_count INT COMMENT '作品数量',
    total_views INT COMMENT '总浏览数',
    total_likes INT COMMENT '总点赞数',
    total_favorites INT COMMENT '总收藏数',
    total_shares INT COMMENT '总分享数',
    total_coins INT COMMENT '总投币数（仅B站）',
    total_recommend INT COMMENT '总推荐数（仅微信）',
    total_likes_zhihu INT COMMENT '总喜欢数（仅知乎）',
    total_approvals INT COMMENT '总赞同数（仅知乎）'
) ENGINE = InnoDB DEFAULT CHARSET = utf8mb4 COMMENT = '全平台概况汇总表';

第二张是内容分析表（content_analysis），作为实验二的输入。字段与原始数据基本一致，但只包含B站和CSDN的有效记录：

字段 | 类型 | 说明

date | DATE | 采集日期

author_name | VARCHAR(100) | 作者昵称

title | VARCHAR(500) | 作品标题

platform | VARCHAR(20) | B站 / CSDN

likes | INT | 点赞数

favorites | INT | 收藏数

shares | INT | 分享数

coins | INT | 投币数（仅B站）

views | INT | 播放量/阅读量

url | VARCHAR(500) | 作品链接

total_interaction | INT | 互动总数

has_best | TINYINT(1) | 是否含“保姆级”

has_lowcode | TINYINT(1) | 是否含“零代码”

has_practice | TINYINT(1) | 是否含“实战”

has_tutorial | TINYINT(1) | 是否含“教程/指南”

has_pit | TINYINT(1) | 是否含“踩坑”

其中 interaction_rate, has_best, has_lowcode, has_practice, has_tutorial, has_pit 字段的数据加工将在下一个实验中完成。

DROP TABLE IF EXISTS content_analysis;
CREATE TABLE IF NOT EXISTS content_analysis (
    id INT AUTO_INCREMENT PRIMARY KEY COMMENT '自增主键ID',
    date DATE NOT NULL COMMENT '采集日期',
    author_name VARCHAR(100) COMMENT '作者昵称',
    title VARCHAR(500) NOT NULL COMMENT '作品标题',
    platform VARCHAR(20) NOT NULL COMMENT 'B站 / CSDN',
    likes INT COMMENT '点赞数',
    favorites INT COMMENT '收藏数',
    shares INT COMMENT '分享数',
    coins INT COMMENT '投币数（仅B站）',
    views INT COMMENT '播放量/阅读量',
    url VARCHAR(500) COMMENT '作品链接',
    total_interaction INT COMMENT '互动总数',
    has_best TINYINT(1) COMMENT '是否含“保姆级” 0否1是',
    has_lowcode TINYINT(1) COMMENT '是否含“零代码” 0否1是',
    has_practice TINYINT(1) COMMENT '是否含“实战” 0否1是',
    has_tutorial TINYINT(1) COMMENT '是否含“教程/指南” 0否1是',
    has_pit TINYINT(1) COMMENT '是否含“踩坑” 0否1是'
) ENGINE = InnoDB DEFAULT CHARSET = utf8mb4 COMMENT = '内容分析明细表（实验二输入，仅B站、CSDN有效数据）';