爬虫之gbk 2019-10-29 • 标签: node.js 爬虫的时候,有些页面gbk编码,直接request会导致乱码。 解决方案:流式爬取html,转化为utf8 12345678910111213141516171819const cheerio = require('cheerio')const Iconv = require('iconv-lite')const rp = require('request-promise')async function getHtml(url) { let res = await rp({ url: url, encoding: null, // 指定encoding为null,获取流式数据 }) return cheerio.load(Iconv.decode(res, 'gb2312').toString())}getHtml(url) .then(($) => { // $用来操作dom对象 }) 这样就可以通过$来获取数据了。