Node.js 开发：使用 Puppeteer 实现 Web 自动化

Puppeteer 是一个Node.js 库，提供了一组操作浏览器的高层次 API。它默认运行在无头模式（即没有用户界面的浏览器），但可以配置为具有 UI 的模式。提供了简洁的 API，适合快速实现自动化任务。与 Chromium 紧密结合，兼容性强。支持大量功能扩展，如页面性能测量和无障碍测试。

mmc123125

2852人浏览 · 2024-12-23 08:30:00

mmc123125 · 2024-12-23 08:30:00 发布

Node.js 开发：使用 Puppeteer 实现 Web 自动化

在这里插入图片描述

Puppeteer 是 Google 推出的一个 Node.js 库，它通过 Chromium 提供了一个高效、简洁的 API，用于操作无头浏览器或具有 UI 的完整浏览器。它广泛应用于 Web 自动化、数据抓取、页面性能分析和 UI 测试等领域。

本文将深入探讨如何使用 Puppeteer 实现 Web 自动化，并结合实际案例展示它的强大功能。

Web 测试自动化：模拟用户行为，测试 Web 应用。
数据抓取：从动态页面提取内容。
性能分析：评估页面加载性能、生成性能指标。
生成页面快照：截图或将页面保存为 PDF。
防作弊与防刷屏测试：模拟人类交互，验证功能稳定性。

2. Puppeteer 的安装与环境配置

安装 Puppeteer

Puppeteer 是一个 NPM 包，安装它非常简单：

npm install puppeteer

安装后，它会自动下载 Chromium 的兼容版本。

3. Puppeteer 常见功能详解

启动浏览器与页面

以下是一个启动无头浏览器并访问页面的基本示例：

const puppeteer = require('puppeteer');

(async () => {
    const browser = await puppeteer.launch(); // 启动浏览器
    const page = await browser.newPage(); // 打开新页面
    await page.goto('https://example.com'); // 访问目标 URL
    console.log('Page title:', await page.title()); // 输出页面标题
    await browser.close(); // 关闭浏览器
})();

模拟用户交互

Puppeteer 提供了鼠标点击、键盘输入等多种用户操作：

await page.type('#username', 'myUsername'); // 输入用户名
await page.type('#password', 'myPassword'); // 输入密码
await page.click('#login-button'); // 点击登录按钮
await page.waitForNavigation(); // 等待页面导航

截图与生成 PDF

截图页面：

await page.screenshot({ path: 'screenshot.png', fullPage: true });

生成 PDF：

await page.pdf({ path: 'page.pdf', format: 'A4' });

数据抓取

抓取页面上的文本或属性值：

const data = await page.evaluate(() => {
    return document.querySelector('h1').innerText; // 获取 h1 的文本
});
console.log('Data:', data);

4. 实践案例

案例 1：自动登录 GitHub 并截屏

const puppeteer = require('puppeteer');

(async () => {
    const browser = await puppeteer.launch({ headless: false }); // 显示浏览器窗口
    const page = await browser.newPage();
    await page.goto('https://github.com/login');

    // 输入用户名和密码
    await page.type('#login_field', 'your_username');
    await page.type('#password', 'your_password');

    // 点击登录按钮
    await page.click('[name="commit"]');
    await page.waitForNavigation(); // 等待导航完成

    // 截屏登录成功后的页面
    await page.screenshot({ path: 'github_dashboard.png' });
    console.log('GitHub Dashboard screenshot saved.');

    await browser.close();
})();

案例 2：抓取电商平台商品信息

以下代码以某电商平台为例，抓取商品标题与价格：

const puppeteer = require('puppeteer');

(async () => {
    const browser = await puppeteer.launch();
    const page = await browser.newPage();
    await page.goto('https://example-ecommerce.com');

    // 抓取商品信息
    const products = await page.evaluate(() => {
        const items = Array.from(document.querySelectorAll('.product-item'));
        return items.map(item => ({
            title: item.querySelector('.product-title')?.innerText || 'N/A',
            price: item.querySelector('.product-price')?.innerText || 'N/A',
        }));
    });

    console.log('Products:', products);
    await browser.close();
})();

5. 总结与建议

Puppeteer 的优势：

提供了简洁的 API，适合快速实现自动化任务。
与 Chromium 紧密结合，兼容性强。
支持大量功能扩展，如页面性能测量和无障碍测试。

开发中的注意事项：

避免被检测：某些网站会通过 User-Agent 或特定浏览器行为检测 Puppeteer，解决方案包括修改默认设置。
```
await page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64)');
```

优化速度：减少无关任务，如关闭图片加载。

await page.setRequestInterception(true);
page.on('request', (req) => {
    if (req.resourceType() === 'image') req.abort();
    else req.continue();
});

错误处理：设置超时时间，捕获意外错误。

await page.goto('https://example.com', { timeout: 30000 });

Puppeteer 是 Web 自动化的利器，从简单的自动化任务到复杂的爬虫与性能分析，它都能胜任。用它去探索浏览器的无限可能吧！

EazyDevelop社区

一站式 AI 云服务平台

更多推荐

国内低代码平台：2025 年国内主流平台盘点

EazyDevelop社区

5分钟搞定！MySQL/PostgreSQL 到 Elasticsearch 的实时同步

EazyDevelop社区

从零开始搭建个人RAG知识库：RAGFlow+DeepSeek保姆级教程！

EazyDevelop社区

所有评论(0)

查看更多评论

mmc123125

@mmc123125

已为社区贡献5条内容

Node.js 开发：使用 Puppeteer 实现 Web 自动化

mmc123125

Node.js 开发：使用 Puppeteer 实现 Web 自动化

目录

1. Puppeteer 简介

Puppeteer 的应用场景：

2. Puppeteer 的安装与环境配置

安装 Puppeteer

3. Puppeteer 常见功能详解

启动浏览器与页面

模拟用户交互

截图与生成 PDF

数据抓取

4. 实践案例

案例 1：自动登录 GitHub 并截屏

案例 2：抓取电商平台商品信息

5. 总结与建议

Puppeteer 的优势：

开发中的注意事项：

所有评论(0)

mmc123125