基于零代码助睿平台的自媒体运营分析-数据清洗与预处理

wzj187980884

23人浏览 · 2026-07-02 16:13:51

wzj187980884 · 2026-07-02 16:13:51 发布

基于零代码助睿平台的自媒体运营分析-数据清洗与预处理

实验背景

1.1 实验目的

本实验基于全班同学在多平台发布的作品互动数据，使用助睿ETL完成数据清洗与预处理，输出两张核心数据表，为后续特征工程与可视化分析奠定基础。通过本实验，学生应掌握：

理解数据清洗在数据分析流程中的基础性与必要性
使用助睿ETL完成多源数据的过滤、填充、聚合等预处理操作
掌握“分支处理”的设计思路：全平台概况统计与重点平台深度分析分流
输出两张规范数据表，支撑仪表盘不同模块的数据需求

1.2 实验环境

实验平台：助睿数智（Uniplore）一站式数据科学实验平台
登录地址：https://lab.guilian.cn/
平台官网：https://www.uniplore.com/
数据库：MySQL
实验数据：自媒体作品数据明细.csv

1.3 处理流程简述

目标表创建与原始数据导入：在 ETL 工具中创建目标数据表结构，定义字段类型与约束；通过输入节点将多平台原始业务数据批量导入至临时表，完成数据的初始加载与格式校验，为后续数据处理提供基础数据源。
全平台数据聚合与记录过滤：基于原始数据执行跨平台聚合统计，整合多源业务数据形成统一明细数据集；通过过滤节点剔除异常、重复或不符合业务规则的无效记录，保留有效数据范围，提升数据集质量与分析准确性。
缺失值填充与字段精简处理：针对聚合后数据集中的缺失字段，采用均值填充、业务默认值或关联补全策略完成缺失值填充；通过字段选择节点剔除冗余、无关字段，精简数据集结构，仅保留与目标分析场景相关的核心字段，优化数据存储与计算效率。
目标表输出与转换流执行调度：将清洗加工后的最终数据输出至预设目标表，完成数据落盘；配置完整 ETL 转换流的依赖关系与执行调度，触发全流程自动化运行，实现从原始数据到目标数据集的端到端处理，支撑后续业务分析与应用。

实验步骤

2.1 创建目标表

新建转换流“创建平台概况表”，拖入SQL组件，双击组件，选择“团队私有数据库”，输入SQL脚本。运行转换流。

新建转换流“创建内容分析表”，拖入SQL组件，双击组件，选择“团队私有数据库”，输入SQL脚本。运行转换流。

2.2 导入原始数据

进入公共空间，将自媒体作品数据明细.csv 导入到文件库。

2.3 全平台聚合统计

新建转换流。拖入CSV文件输入组件，输入自媒体作品数据明细。

拖入“排序记录”、“分组”、“表输出”组件，按日期和平台排序、分组，其余数值字段全部取求和。输出 summary_all_platforms。

2.4 过滤记录

拖入“过滤记录”组件筛选B站和CSDN的有效记录。配置如下：

2.5 填充缺失值

拖入替换NULL值组件，将作者名称和作品标题的空值填充为“未知”。

2.6 字段选择

拖入字段选择组件，剔除多余字段，只保留以下字段：date, author_name, title, platform, likes, favorites, shares, coins, views, url。

2.7 输出目标表

拖入表输出组件，将处理后的数据输出到 content_analysis表。

2.8 执行转换流

运行转换流。

实验结果

全平台概况表（summary_all_platforms）。

内容分析表（content_analysis）。

四、实验总结

本次实验依托助睿数智 ETL 平台完成自媒体多源数据清洗预处理，搭建分支处理流程生成全平台概况表、内容分析表两张数据表，达成数据规整、提纯目标。实验先通过 SQL 脚本创建两张数据表，导入自媒体原始 CSV 数据后分流处理：一支按采集日期、平台分组聚合，统计各平台每日作品总量、播放、点赞等汇总指标存入概况表；另一支筛选 B 站、CSDN 有效数据，对作者、标题空值填充 “未知”，剔除冗余字段后生成明细分析表。

实操中掌握了数据导入、过滤、缺失值填充、分组聚合、字段精简等 ETL 核心操作，理解分支分流设计兼顾宏观统计与单作品深度分析的思路。原始数据存在平台杂乱、空值、冗余字段等问题，经清洗后数据完整性、规范性大幅提升，为后续可视化、特征分析提供可靠数据源。同时也认识到数据预处理是数据分析的基础，不合理过滤与填充会直接影响后续分析结果，后续可优化异常值识别规则，进一步提升数据质量。