实验5-1：浏览器市场与用户画像分析-数据加工（2）

摘要：本实验基于Uniplore零代码ETL平台，对1000名用户的800万+条浏览器行为数据进行多维度聚合加工，构建9张标准化统计表。实验重点完成浏览器市场格局、活跃趋势、使用习惯及用户画像分析，通过分组聚合、JavaScript脚本、记录集连接等组件实现秒级转小时、用户分级、工作日/周末场景区分等数据转换。最终产出包含周活跃表、使用频率表、用户画像表等结构化数据，为可视化大屏提供高性能数据支撑

Gan829

45人浏览 · 2026-06-07 22:00:12

Gan829 · 2026-06-07 22:00:12 发布

一、实验基本信息

实验名称：浏览器市场与用户画像分析-数据加工（2）

实验平台：助睿在线实验平，Uniplore iDIS大数据智能服务平台

实验工具：助睿ETL数据集成平台、零代码数据加工组件

实验数据规模：1000名用户、800万+条用户行为记录，总数据量约825MB

二、实验目的

本次实验基于上一实验产出的用户行为明细数据，依托Uniplore零代码ETL工具完成全维度数据聚合加工，为浏览器数据分析大屏提供标准化统计数据源，核心实验目的如下：

1. 基于用户-日-浏览器-小时明细表，完成浏览器市场格局、活跃趋势、使用习惯、用户画像全维度数据表加工。

2. 掌握零代码ETL数据加工流程，熟练使用表输入、值映射、分组聚合、计算器、JavaScript脚本、记录集连接等核心组件。

3. 完成浏览器市场指标统计：市场覆盖率、使用时长、周活跃趋势、使用频率、多浏览器使用分布、工作日/周末使用差异。

4. 融合用户人口属性数据，完成用户性别、年龄、学历、职业、收入、地域等多维度用户画像统计加工。

5. 理解数据大屏前置数据加工逻辑，掌握原始明细数据聚合为统计指标数据的核心思路，解决原始数据查询慢、重复计算的问题。

三、实验环境与技术架构

3.1 实验平台介绍

本次实验使用Uniplore iDIS一站式零代码大数据智能服务平台，该平台为自主可控的AI大数据基础软件，融合DataOps数据运营理念，支持数据集成、数据治理、可视化分析、大模型应用建模等全链路能力，适配教学实训与企业级数据加工场景。平台提供200+ETL处理组件、200+AI算法组件，全程可视化拖拽操作，无需代码即可完成复杂数据处理。

实验依托助睿在线实验平台开展实训，专属实验环境隔离，内置标准化实验数据集与数据库环境，支持团队私有数据库建表、数据流转、数据探查等全流程操作。

3.2 实验数据来源

本次实验数据由两部分组成，承接上一实验成果+专属用户属性原始数据：

1. 历史加工数据：上一实验产出的daily_browser_detail明细数据、browser_coverage市场覆盖率数据、browser_hourly时段活跃数据。

2. 原始属性数据：demographic.csv用户人口属性数据表，包含用户性别、出生年份、学历、职业、收入、居住地、省份等核心画像字段。

3.3 核心加工架构

整体采用原始明细数据→清洗修正→维度加工→聚合统计→目标表落地的DataOps流程，分为两大模块：浏览器市场行为数据加工、用户画像数据加工，所有加工结果落地至团队私有数据库，为可视化大屏提供标准化指标数据。

四、实验业务分析框架

4.1 核心业务问题

本次数据加工核心是为大屏分析提供数据支撑，解决浏览器市场分析与用户运营的核心业务问题，避免直接查询海量原始数据导致的加载慢、数据杂乱等问题，具体业务问题如下：

• 市场格局：各浏览器用户规模、使用时长占比，判断市场头部产品与竞争格局；

• 用户活跃度：浏览器周度活跃变化趋势，判断产品生命周期状态；

• 使用习惯：用户时段偏好、轻重度使用分布、多浏览器混用情况；

• 场景差异：工作日与周末浏览器使用行为差异，区分办公与娱乐场景；

• 用户画像：核心用户的人口属性、地域分布，指导产品优化与精准运营。

4.2 分析维度与核心指标

实验分为浏览器市场行为分析和用户画像分析两大维度，对应多类核心统计指标，覆盖大屏全部展示需求。

4.3 目标数据表体系

通过业务维度反向推导，本次实验共加工9张核心业务表，全部存储于团队私有数据库，具体如下：

1. daily_browser_detail：用户-日-浏览器-小时明细表（基础明细底表）

2. browser_overview：大屏核心指标概览表

3. browser_weekly_active：浏览器周活跃趋势统计表

4. browser_frequency_stats：用户使用频率（轻/中/重度）分布表

5. browser_multi_usage：用户多浏览器使用数量分布表

6. browser_weekday_weekend：工作日/周末使用行为对比表

7. browser_coverage：浏览器市场格局统计表（复用+优化）

8. browser_hourly：浏览器时段活跃统计表（复用+优化）

9. user_profile_stats：用户全维度画像统计表

五、详细实验操作步骤

本章节完整记录实验全流程操作，所有关键步骤均对应实验截图，可直接插入对应位置。

5.1 基础明细表准备：用户-日-浏览器-小时明细表加工

该表为本次实验所有统计分析的基础底表，承接上一实验数据清洗流程，修正数据逻辑后生成完整明细数据。

1. 创建数据库表结构：新建转换流，添加「执行SQL脚本」组件，连接团队私有数据库，执行建表SQL，定义明细表user_id、使用日期、浏览器名称、小时、使用时长、活跃次数字段结构。

2. 复制并修正历史转换流：复制上一实验的数据清洗抽取转换流，重命名为输出明细表流程，修正排序组件字段，保证排序字段与分组字段完全一致，杜绝数据重复问题。

3. 浏览器名称映射：添加值映射组件，将系统进程名映射为通用浏览器名称（iexplore.exe→IE浏览器、chrome.exe→Google等），过滤非浏览器进程数据，修正分组聚合统计规则，将“个数统计”改为“去重数量统计”。

4. 配置表输出并执行：添加表输出组件，绑定团队私有数据库、目标明细表，开启裁剪表与字段映射，运行转换流，生成标准明细底表。

5.2 批量创建所有目标业务数据表

新建专属转换流，通过SQL脚本批量创建本次实验所有统计目标表，使用DROP IF EXISTS规避重复建表报错，统一所有数据表字段结构、注释与存储引擎。

创建内容包含核心指标表、周活跃表、使用频率表、多浏览器使用表、工作日周末对比表、用户画像统计表等全部业务表，运行脚本完成数据表初始化。

5.3 各浏览器周活跃趋势表数据加工

实验目标：统计各浏览器4个周期的周活跃用户数，分析用户活跃度变化趋势。

1. 通过表输入读取daily_browser_detail明细数据；

2. 使用字段选择组件标准化日期格式，通过值映射将使用日期映射为对应周区间；

3. 按browser_name、week_range排序后分组聚合，去重统计每周活跃用户数；

4. 配置表输出，数据落地至browser_weekly_active表并执行流转。

5.4 浏览器使用频率分布表数据加工

实验目标：根据用户周使用时长，划分轻度（<3h）、中度（3-10h）、重度（>10h）用户等级，统计各浏览器用户层级分布。

1. 读取明细数据，按用户、浏览器分组，统计单用户单浏览器总使用秒数；

2. 通过常量组件+计算器组件，将使用秒数换算为小时；

3. 通过JavaScript脚本编写分级规则，自动生成用户使用等级；

4. 按浏览器、使用等级分组统计用户数，落地至browser_frequency_stats表。

5.5 浏览器使用数量分布表数据加工

实验目标：统计用户使用1种、2种、3种及以上浏览器的人数分布，分析用户忠诚度与竞品替代风险。

1. 读取明细数据，按用户ID分组，统计单用户使用浏览器种类数量；

2. 通过JS脚本完成浏览器数量等级划分；

3. 按使用浏览器数量分组统计用户规模，数据落地至browser_multi_usage表。

5.6 浏览器工作日/周末对比表数据加工

实验目标：区分工作日、周末使用场景，分析用户在办公与休闲场景下的浏览器使用差异。

1. 通过JS脚本解析日期对应的星期，自动判定工作日/周末类型；

2. 按浏览器、日期类型分组，统计人均使用时长、总使用时长、活跃用户数；

3. 完成秒与小时单位换算，清理冗余字段，数据落地至browser_weekday_weekend表。

5.7 大屏核心指标数据抽取

实验目标：计算全局总使用时长、人均使用时长、周活跃率、重度用户占比四大核心指标，适配大屏顶部指标卡展示。

1. 编写复合SQL语句，一次性统计全局四大核心指标；

2. 使用行转列组件，将单行多指标数据转换为键值对格式；

3. 通过值映射将英文指标名转换为中文，落地至browser_overview核心指标表。

5.8 用户画像表全维度加工

实验目标：融合用户行为数据与人口属性数据，生成多维度用户画像统计数据。

1. 导入用户属性数据：从平台公共空间导出demographic.csv人口属性文件，导入项目文件库。

2. 年龄维度加工：通过出生年份计算2012年用户年龄，通过JS脚本划分为<18、18-25、26-35、>35四个年龄段。

3. 多源数据关联：分别对行为明细数据、用户属性数据按用户ID排序，通过记录集连接组件完成左连接，匹配用户行为与属性信息。

4. 画像数据统计与落地：按浏览器、性别、年龄段、学历、职业、收入、省份、居住地类型多维度分组，去重统计用户数，最终落地至user_profile_stats画像表。

六、实验核心原理与关键技术

6.1 ETL数据加工核心逻辑

本次实验完整落地抽取(Extract)-转换(Transform)-加载(Load)全流程：从原始行为日志、属性CSV文件抽取数据，通过清洗、映射、计算、关联、聚合完成数据转换，最终标准化加载至业务数据表，为可视化分析提供结构化数据支撑。

6.2 核心组件技术应用

• 值映射组件：实现进程名转浏览器名称、日期转周期区间的标准化维度统一；

• JavaScript脚本组件：实现自定义数据分级、日期逻辑判定，弥补零代码固定组件的灵活性短板；

• 记录集连接组件：实现异构数据（行为数据+属性数据）的精准关联，完成用户画像维度补全；

• 分组聚合组件：实现海量明细数据的高效聚合，解决大屏数据查询性能问题。

6.3 数据优化核心思路

原始行为数据体量庞大，直接用于可视化会存在加载卡顿、重复计算问题。本次实验通过提前聚合、分层加工、维度标准化的方式，将800万+条明细数据加工为轻量化统计指标表，实现一次加工、多次复用，符合企业大数据数据治理与数据运营规范。

七、实验结果与数据验证

7.1 实验产出成果

本次实验成功完成全部9张目标数据表的加工与落地，所有数据表结构规范、字段完整、数据逻辑无误，具体成果如下：

1. 完成基础明细底表标准化清洗，修正历史数据重复、字段不规范问题；

2. 产出浏览器市场格局、活跃度、使用习惯、场景对比四大类市场分析数据；

3. 完成用户年龄、性别、职业、地域等全维度用户画像数据统计；

4. 生成大屏核心指标卡数据，可直接支撑可视化大屏展示。

7.2 数据校验结果

通过平台数据探查功能对所有产出表进行校验：数据表字段映射正确、无空值冗余数据、统计逻辑符合业务需求，用户分级、日期判定、数据关联、聚合统计结果准确，所有转换流均可正常执行，无报错、无数据异常问题。

八、实验问题与解决方案

实验问题解决方案

数据分组统计后出现重复数据修正排序组件字段，保证排序字段与分组字段完全一致，统一全局分组聚合规则

进程名包含非浏览器无效数据过滤EXCEL.EXE等无效进程，通过值映射统一标准化浏览器名称

多表关联后数据匹配异常关联前对双数据源按关联字段排序，使用左连接保证行为数据不丢失

时长单位数值过大，可读性差通过计算器组件完成秒、小时单位换算，保留两位小数标准化展示

重复建表导致脚本报错使用DROP TABLE IF EXISTS语法，提前删除旧表，规避重复建表异常

九、实验总结与心得

本次实验是大数据数据加工的核心实训内容，依托Uniplore零代码大数据平台，我系统掌握了大数据ETL全流程加工、多维度数据聚合、异构数据关联、自定义数据分级统计的实操能力。区别于基础数据清洗实验，本次实验更侧重业务驱动的数据加工，所有数据加工逻辑均围绕可视化大屏的业务展示需求展开，让我理解了大数据分析“先加工、后分析、再可视化”的核心逻辑。

实验过程中，我熟练掌握了值映射、JavaScript自定义脚本、记录集连接、行转列等高级ETL组件的使用方法，解决了数据重复、匹配异常、维度不统一等常见数据问题。同时深刻认识到，大数据分析并非直接使用原始数据，而是需要通过标准化的治理、聚合、加工，将海量杂乱的原始数据转化为可落地、可展示、可支撑业务决策的指标数据。

通过浏览器市场分析与用户画像加工，我清晰掌握了互联网用户行为分析的核心维度：从宏观市场格局、用户活跃度，到微观使用习惯、用户个体属性，形成了完整的数据分析思维体系。本次实验为后续数据可视化大屏制作、大数据业务分析、用户运营策略分析奠定了扎实的实操基础。