Puppeteer是什么?
Puppeteer 是 Chrome开发团队2017年发布的一个 Node.js包,提供了一组用来操纵Chrome的API,通俗来说就是一个Headless Chrome浏览器,这Headless Chrome也可以配置成有UI的 。利用Puppeteer可以做到爬取页面数据,页面截屏或者生成PDF文件,前端自动化测试(模拟输入/点击/键盘行为)以及捕获站点的时间线,分析网站性能问题。
Puppeteer能做什么?
你可以在浏览器中手动执行的绝大多数操作都可以使用 Puppeteer 来完成! 下面是一些示例:
生成页面 PDF。 抓取 SPA(单页应用)并生成预渲染内容(即“SSR”(服务器端渲染))。 自动提交表单,进行 UI 测试,键盘输入等。 创建一个时时更新的自动化测试环境。 使用最新的 JavaScript 和浏览器功能直接在最新版本的Chrome中执行测试。 捕获网站的 timeline trace,用来帮助分析性能问题。 测试浏览器扩展。
puppeteer环境准备
1、Puppeteer环境要求
Puppeteer要求node版本不低于v6.4.0,但是async/await只在Node v7.6.0或更高的版本支持。 需要最近版本的Chromium浏览器
2、Puppeteer环境准备
Node.js 安装配置 Puppeteer安装(通过npm安装:npm install puppeteer –save)
由于封网,直接下载 Chromium 会失败,包也比较大,我们可以使用puppeteer-core配合本地的Chrome或者Chrome Canary来使用: 首先安装puppeteer-core和Carlo(会用到Carlo的find_chrome模块,可以在node_modules/carlo/lib/目录下找到)
这里需要安装
npm install puppeteer-core npm i carlo
const puppeteer = require('puppeteer-core');
//find_chrome模块来源于GoogleChromeLabs的Carlo,可以查看本机安装Chrome目录,详细请查看底部博客,
const findChrome = require('./node_modules/carlo/lib/find_chrome');
(async () => {
let findChromePath = await findChrome({});
let executablePath = findChromePath.executablePath;
console.log(executablePath)
const browser = await puppeteer.launch({
executablePath,
headless: false
});
const page = await browser.newPage();
await page.goto('http://baidu.com');
/*
dosomeThing
*/
await browser.close();
})();
puppeteer常用方法
知识点
page.type 获取输入框焦点并输入文字
page.keyboard.press 模拟键盘按下某个按键,目前mac上组合键无效为已知bug
page.waitFor 页面等待,可以是时间、某个元素、某个函数
page.frames() 获取当前页面所有的 iframe,然后根据 iframe 的名字精确获取某个想要的 iframe
iframe.$('.srchsongst') 获取 iframe 中的某个元素
iframe.evaluate() 在浏览器中执行函数,相当于在控制台中执行函数,返回一个 Promise
Array.from 将类数组对象转化为对象
page.click() 点击一个元素
iframe.$eval() 相当于在 iframe 中运行 document.queryselector 获取指定元素,并将其作为第一个参数传递
iframe.$$eval 相当于在 iframe 中运行 document.querySelectorAll 获取指定元素数组,并将其作为第一个参数传递
一些默认的设置和开发调试建议
1.使用Headless模式
Puppeteer默认以Headless模式加载Chromium,如果想加载完整的Chromium(这样方便观察网页加载的效果究竟是怎么样的),可以执行以下命令
const browser = await puppeteer.launch({headless: false}); // default is true
2.使执行本地版本的Chrome或者Chromium
const browser = await puppeteer.launch({executablePath: '/path/to/Chrome'});
3.延迟执行Puppeteer
const browser = await puppeteer.launch({
headless: false,
slowMo: 250 // slow down by 250ms
});
4.获取控制台输出
可以监听console的事件,也可以通过evaluate来执行console
page.on('console', msg => console.log('PAGE LOG:', msg.text()));
await page.evaluate(() => console.log(`url is ${location.href}`));
5.设置页面视窗大小
await page.setViewport({
width: 1366,
height: 768 * 2
});
导航到某个页面
page = await browser.newPage();
await page.goto('https://baidu.com');
上述代码会开启一个新页面,并将其导航到 https://baidu.com 。
等待某个 DOM 节点出现
在进行某些页面操作前,我们必须要等待指定的 DOM 加载完成后才能操作,比如,一个 Input 没有加载出来时,你是无法在里面输入字符的等等。在 Puppeteer 中,你可以使用 page.waitForSelector 和选择器来等待某个 DOM 节点出现:
await page.waitForSelector('#loginForm');
上述代码会等待 ID 为 loginForm 的节点出现。
等待几毫秒
有时候,你找不到某个特定的时刻,只能通过时间间隔来确定,那么此时你可以使用 page.waitFor(number) 来实现:
await page.waitFor(500);
上述代码会等待 500 毫秒。
等待某个 JavaScript 函数返回 true
有时候,你需要等待某个复杂的时刻,这个时刻只能通过一些复杂的 JavaScript 函数来判断,那么此时你可以使用 page.waitFor(Function) 来实现:
await page.waitFor(()=> !document.querySelector('.ant-spin.ant-spin-spinning'));
上述代码会等待 Antd 中的旋转图标消失。
向某个 Input 中输入字符
为了模拟用户登陆或仅仅就是输入某个表单,我们经常会向某个 Input 中输入字符,那么我们可以使用这个方法:
await page.type('#username', 'lewis');
上述代码向 ID 为 username 的 Input 中输入了 lewis 。值得一提的是,该方法还会触发 Input 的 keydown 、 keypress , 和 keyup 事件,所以如果你有该事件的相关功能,也会被测试到哦,是不是很强大?
点击某个节点
在 Puppeteer 中模拟点击某个节点,非常简单,只需要:
await page.click('#btn-submit');
上述代码点击了 ID 为 btn-submit 的节点。
在浏览器中执行一段 JavaScript 代码
有时候我们需要在浏览器中执行一段 JavaScript 代码,此时你可以这样写:
page.evaluate(()=> alert('1'));
上述代码会在浏览器执行 alert(‘1’) 。
获取某一个节点的某个属性
有时候我们需要获取某个 Input 的 value ,某个链接的 href ,某个节点的文本 textContent ,或者 outerHTML ,那么你可以使用这个方法:
const searchValue = await page.$eval('#search', el => el.value);
const preloadHref = await page.$eval('link[rel=preload]', el => el.href);
const text = await page.$eval('.text', el => el.textContent);
const html = await page.$eval('.main-container', e => e.outerHTML);
获取某一类节点的某个属性集合
有时候我们需要获取某一类节点的某个属性集合,那么你可以这么写:
const textArray = await page.$$eval('.text', els => Array.from(els).map(el=> el.textContent));
上述代码将页面中所有类为 text 的节点中的文本拼装为数组放到了 textArray 中。