01月04, 2018

centos安装puppeteer爬坑

前面一篇文章《PhantomJS截图实践》介绍了PhantomJS,这次介绍一下puppeteer截图,主要说下使用过程中遇到的坑。

安装

npm install puppeteer --save

在我自己mac上使用的时候直接安装是没有问题的,到我的centos服务器上就挂了。主要原因是安装puppeteer需要同时安装一个Chromium,而我电脑是全局翻墙的,直接下载没有问题,但是服务器不行,直接被伟大长城挡在外面。这种情况下,既然下载不了,只能跳过Chromium下载了,然后自己手动下载一个放到指定位置即可。

npm install puppeteer --ignore-scripts --save

然后自己再下载一个Chromium放上去。查看puppeteer的代码可知Chromium的下载地址为:

    linux: 'https://storage.googleapis.com/chromium-browser-snapshots/Linux_x64/%d/chrome-linux.zip',
    mac: 'https://storage.googleapis.com/chromium-browser-snapshots/Mac/%d/chrome-mac.zip',
    win32: 'https://storage.googleapis.com/chromium-browser-snapshots/Win/%d/chrome-win32.zip',
    win64: 'https://storage.googleapis.com/chromium-browser-snapshots/Win_x64/%d/chrome-win32.zip',

下载时将%d替换为具体编号,编号可以在node_modules/puppeteer/package.jsonpuppeteer.chromium_revision获得。拼接好链接后直接在浏览器就可以直接下载了(当然,你得科学上网才可以)。

下载后上传到服务器,存储位置为node_modules/puppeteer/.local-chromium/linux-%d.local-chromium/linux-%d文件夹需要自己创建,同样将%d替换为具体编号。将下载的Chromium压缩包上传到该位置后解压。

依赖

linux上使用puppeteer还需要安装一些依赖。不然你可能会遇到以下错误。

puppeteer报错

puppeteer报错

#依赖库
sudo yum install pango.x86_64 libXcomposite.x86_64 libXcursor.x86_64 libXdamage.x86_64 libXext.x86_64 libXi.x86_64 libXtst.x86_64 cups-libs.x86_64 libXScrnSaver.x86_64 libXrandr.x86_64 GConf2.x86_64 alsa-lib.x86_64 atk.x86_64 gtk3.x86_64 nss.x86_64 -y

#字体
sudo yum install ipa-gothic-fonts xorg-x11-fonts-100dpi xorg-x11-fonts-75dpi xorg-x11-utils xorg-x11-fonts-cyrillic xorg-x11-fonts-Type1 xorg-x11-fonts-misc -y

去沙箱

这个时候直接去使用还是会报错的,需要去除沙箱。

alt

全部完成后,测试一下是否可以正常使用:

node_modules/puppeteer/.local-chromium/linux-%d/chrome-linux/chrome --help

一切OK后,正式用 node 试一下,完整代码如下:

const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch({args: ['--no-sandbox', '--disable-setuid-sandbox']});
  const page = await browser.newPage();
  await page.goto('https://luodao.com');
  await page.screenshot({path: 'luodao.png'});

  await browser.close();
})();

这个时候基本可用了,截图功能也正常。但是,你可能还会遇到Navigation Timeout Exceeded: 30000ms exceeded。这个问题。主要原因就是超时了,可以将页面跳转时间设置大一点。

await page.goto(url, {
    waitUntil: 'networkidle2',
    timeout: 1000000
});

本文链接:https://luodao.me/post/puppeteer-pakeng.html

-- EOF --

Comments