- 資訊首頁(yè) > 開(kāi)發(fā)技術(shù) > web開(kāi)發(fā) >
- Node Puppeteer圖像識別實(shí)現百度指數爬蟲(chóng)的示例分析
這篇文章主要為大家展示了“Node Puppeteer圖像識別實(shí)現百度指數爬蟲(chóng)的示例分析”,內容簡(jiǎn)而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學(xué)習一下“Node Puppeteer圖像識別實(shí)現百度指數爬蟲(chóng)的示例分析”這篇文章吧。
note: 請勿濫用爬蟲(chóng)給他人添麻煩
百度指數的反爬蟲(chóng)策略
觀(guān)察百度指數的界面,指數數據是一個(gè)趨勢圖,當鼠標懸浮在某一天的時(shí)候,會(huì )觸發(fā)兩個(gè)請求,將結果顯示在懸浮框里面:
按照常規思路,我們先看下這個(gè)請求的內容:
請求 1:
請求 2:
可以發(fā)現,百度指數實(shí)際上在前端做了一定的反爬蟲(chóng)策略。當鼠標移動(dòng)到圖表上時(shí),會(huì )觸發(fā)兩個(gè)請求,一個(gè)請求返回一段html,一個(gè)請求返回一張生成的圖片。html中并不包含實(shí)際數值,而是通過(guò)設置width和margin-left,來(lái)顯示圖片上的對應字符。并且請求參數上帶有res、res1這種我們不知如何模擬的參數,所以用常規的模擬請求或者html爬取的方式,都很難爬到百度指數的數據。
爬蟲(chóng)思路
怎么突破百度這種反爬蟲(chóng)方法呢,其實(shí)也很簡(jiǎn)單,就是完全不去管他是如何反爬蟲(chóng)的。我們只需模擬用戶(hù)操作,將需要的數值截圖下來(lái),做圖像識別就行。步驟大概是:
模擬登錄
打開(kāi)指數頁(yè)面
鼠標移動(dòng)到指定日期
等待請求結束,截取數值部分的圖片
圖像識別得到值
循環(huán)第3~5步,就得到每一個(gè)日期對應的值
這種方法理論上能爬任何網(wǎng)站的內容,接下來(lái)我們來(lái)一步步實(shí)現爬蟲(chóng),下面會(huì )用到的庫:
puppeteer 模擬瀏覽器操作
node-tesseract tesseract的封裝,用來(lái)做圖像識別
jimp 圖片裁剪
安裝Puppeteer, 模擬用戶(hù)操作
Puppeteer是Google Chrome團隊出品的Chrome自動(dòng)化工具,用來(lái)控制Chrome執行命令??梢阅M用戶(hù)操作,做自動(dòng)化測試、爬蟲(chóng)等。用法非常簡(jiǎn)單,網(wǎng)上有不少入門(mén)教程,順著(zhù)本文看完也大概可以知道如何使用。
API文檔: https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md
安裝:
npm install --save puppeteer
Puppeteer在安裝時(shí)會(huì )自動(dòng)下載Chromium,以確??梢哉_\行。但是國內網(wǎng)絡(luò )不一定能成功下載Chromium,如果下載失敗,可以使用cnpm來(lái)安裝,或者將下載地址改成淘寶的鏡像,然后再安裝:
npm config set PUPPETEER_DOWNLOAD_HOST=https://npm.taobao.org/mirrors npm install --save puppeteer
你也可以在安裝時(shí)跳過(guò)Chromium下載,通過(guò)代碼指定本機Chrome路徑來(lái)運行:
// npm npm install --save puppeteer --ignore-scripts // node puppeteer.launch({ executablePath: '/path/to/Chrome' });
實(shí)現
為版面整潔,下面只列出了主要部分,代碼涉及到selector的部分都用了...代替,完整代碼參看文章頂部的github倉庫。
打開(kāi)百度指數頁(yè)面,模擬登錄
這里做的就是模擬用戶(hù)操作,一步步點(diǎn)擊和輸入。沒(méi)有處理登錄驗證碼的情況,處理驗證碼又是另一個(gè)話(huà)題了,如果你在本機登錄過(guò)百度,一般不需要驗證碼。
// 啟動(dòng)瀏覽器, // headless參數如果設置為true,Puppeteer將在后臺操作你Chromium,換言之你將看不到瀏覽器的操作過(guò)程 // 設為false則相反,會(huì )在你電腦上打開(kāi)瀏覽器,顯示瀏覽器每一操作。 const browser = await puppeteer.launch({headless:false}); const page = await browser.newPage(); // 打開(kāi)百度指數 await page.goto(BAIDU_INDEX_URL); // 模擬登陸 await page.click('...'); await page.waitForSelecto('...'); // 輸入百度賬號密碼然后登錄 await page.type('...','username'); await page.type('...','password'); await page.click('...'); await page.waitForNavigation(); console.log(':white_check_mark: 登錄成功');
模擬移動(dòng)鼠標,獲取需要的數據
需要將頁(yè)面滾動(dòng)到趨勢圖的區域,然后移動(dòng)鼠標到某個(gè)日期上,等待請求結束,tooltip顯示數值,再截圖保存圖片。
// 獲取chart第一天的坐標 const position = await page.evaluate(() => { const $image = document.querySelector('...'); const $area = document.querySelector('...'); const areaRect = $area.getBoundingClientRect(); const imageRect = $image.getBoundingClientRect(); // 滾動(dòng)到圖表可視化區域 window.scrollBy(0, areaRect.top); return { x: imageRect.x, y: 200 }; }); // 移動(dòng)鼠標,觸發(fā)tooltip await page.mouse.move(position.x, position.y); await page.waitForSelector('...'); // 獲取tooltip信息 const tooltipInfo = await page.evaluate(() => { const $tooltip = document.querySelector('...'); const $title = $tooltip.querySelector('...'); const $value = $tooltip.querySelector('...'); const valueRect = $value.getBoundingClientRect(); const padding = 5; return { title: $title.textContent.split(' ')[0], x: valueRect.x - padding, y: valueRect.y, width: valueRect.width + padding * 2, height: valueRect.height } });
截圖
計算數值的坐標,截圖并用jimp對裁剪圖片。
await page.screenshot({ path: imgPath }); // 對圖片進(jìn)行裁剪,只保留數字部分 const img = await jimp.read(imgPath); await img.crop(tooltipInfo.x, tooltipInfo.y, tooltipInfo.width, tooltipInfo.height); // 將圖片放大一些,識別準確率會(huì )有提升 await img.scale(5); await img.write(imgPath);
圖像識別
這里我們用Tesseract來(lái)做圖像識別,Tesseracts是Google開(kāi)源的一款OCR工具,用來(lái)識別圖片中的文字,并且可以通過(guò)訓練提高準確率。github上已經(jīng)有一個(gè)簡(jiǎn)單的node封裝: node-tesseract ,需要你先安裝Tesseract并設置到環(huán)境變量。
Tesseract.process(imgPath, (err, val) => { if (err || val == null) { console.error(':x: 識別失?。?#39; + imgPath); return; } console.log(val);
實(shí)際上未經(jīng)訓練的Tesseracts識別起來(lái)會(huì )有少數幾個(gè)錯誤,比如把9開(kāi)頭的數字識別成`3,這里需要通過(guò)訓練去提升Tesseracts的準確率,如果識別過(guò)程出現的問(wèn)題都是一樣的,也可以簡(jiǎn)單通過(guò)正則去修復這些問(wèn)題。
封裝
實(shí)現了以上幾點(diǎn)后,只需組合起來(lái)就可以封裝成一個(gè)百度指數爬蟲(chóng)node庫。當然還有許多優(yōu)化的方法,比如批量爬取,指定天數爬取等,只要在這個(gè)基礎上實(shí)現都不難了。
const recognition = require('./src/recognition'); const Spider = require('./src/spider'); module.exports = { async run (word, options, puppeteerOptions = { headless: true }) { const spider = new Spider({ imgDir, ...options }, puppeteerOptions); // 抓取數據 await spider.run(word); // 讀取抓取到的截圖,做圖像識別 const wordDir = path.resolve(imgDir, word); const imgNames = fs.readdirSync(wordDir); const result = []; imgNames = imgNames.filter(item => path.extname(item) === '.png'); for (let i = 0; i < imgNames.length; i++) { const imgPath = path.resolve(wordDir, imgNames[i]); const val = await recognition.run(imgPath); result.push(val); } return result; } }
免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng )、來(lái)自互聯(lián)網(wǎng)轉載和分享為主,文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權請聯(lián)系站長(cháng)郵箱:ts@56dr.com進(jìn)行舉報,并提供相關(guān)證據,一經(jīng)查實(shí),將立刻刪除涉嫌侵權內容。
Copyright ? 2009-2021 56dr.com. All Rights Reserved. 特網(wǎng)科技 版權所有 珠海市特網(wǎng)科技有限公司 粵ICP備16109289號
域名注冊服務(wù)機構:阿里云計算有限公司(萬(wàn)網(wǎng)) 域名服務(wù)機構:煙臺帝思普網(wǎng)絡(luò )科技有限公司(DNSPod) CDN服務(wù):阿里云計算有限公司 中國互聯(lián)網(wǎng)舉報中心 增值電信業(yè)務(wù)經(jīng)營(yíng)許可證B2 建議您使用Chrome、Firefox、Edge、IE10及以上版本和360等主流瀏覽器瀏覽本網(wǎng)站