国产成人精品18p,天天干成人网,无码专区狠狠躁天天躁,美女脱精光隐私扒开免费观看

<rt id="tv1j1"><blockquote id="tv1j1"><noscript id="tv1j1"></noscript></blockquote></rt>

Node Puppeteer圖像識別實(shí)現百度指數爬蟲(chóng)的示例分析

發(fā)布時(shí)間：2021-07-27 11:48 來(lái)源：億速云閱讀：0 作者：小新欄目： web開(kāi)發(fā)

這篇文章主要為大家展示了“Node Puppeteer圖像識別實(shí)現百度指數爬蟲(chóng)的示例分析”，內容簡(jiǎn)而易懂，條理清晰，希望能夠幫助大家解決疑惑，下面讓小編帶領(lǐng)大家一起研究并學(xué)習一下“Node Puppeteer圖像識別實(shí)現百度指數爬蟲(chóng)的示例分析”這篇文章吧。

note: 請勿濫用爬蟲(chóng)給他人添麻煩

百度指數的反爬蟲(chóng)策略

觀(guān)察百度指數的界面，指數數據是一個(gè)趨勢圖，當鼠標懸浮在某一天的時(shí)候，會(huì )觸發(fā)兩個(gè)請求，將結果顯示在懸浮框里面：

按照常規思路，我們先看下這個(gè)請求的內容：

請求 1：

請求 2：

可以發(fā)現，百度指數實(shí)際上在前端做了一定的反爬蟲(chóng)策略。當鼠標移動(dòng)到圖表上時(shí)，會(huì )觸發(fā)兩個(gè)請求，一個(gè)請求返回一段html，一個(gè)請求返回一張生成的圖片。html中并不包含實(shí)際數值，而是通過(guò)設置width和margin-left，來(lái)顯示圖片上的對應字符。并且請求參數上帶有res、res1這種我們不知如何模擬的參數，所以用常規的模擬請求或者html爬取的方式，都很難爬到百度指數的數據。

爬蟲(chóng)思路

怎么突破百度這種反爬蟲(chóng)方法呢，其實(shí)也很簡(jiǎn)單，就是完全不去管他是如何反爬蟲(chóng)的。我們只需模擬用戶(hù)操作，將需要的數值截圖下來(lái)，做圖像識別就行。步驟大概是：

模擬登錄
打開(kāi)指數頁(yè)面
鼠標移動(dòng)到指定日期
等待請求結束，截取數值部分的圖片
圖像識別得到值
循環(huán)第3～5步，就得到每一個(gè)日期對應的值

這種方法理論上能爬任何網(wǎng)站的內容，接下來(lái)我們來(lái)一步步實(shí)現爬蟲(chóng)，下面會(huì )用到的庫：

puppeteer 模擬瀏覽器操作
node-tesseract tesseract的封裝，用來(lái)做圖像識別
jimp 圖片裁剪

安裝Puppeteer, 模擬用戶(hù)操作

Puppeteer是Google Chrome團隊出品的Chrome自動(dòng)化工具，用來(lái)控制Chrome執行命令?？梢阅M用戶(hù)操作，做自動(dòng)化測試、爬蟲(chóng)等。用法非常簡(jiǎn)單，網(wǎng)上有不少入門(mén)教程，順著(zhù)本文看完也大概可以知道如何使用。

API文檔: https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md

安裝：

npm install --save puppeteer

Puppeteer在安裝時(shí)會(huì )自動(dòng)下載Chromium，以確?？梢哉＿\行。但是國內網(wǎng)絡(luò )不一定能成功下載Chromium，如果下載失敗，可以使用cnpm來(lái)安裝，或者將下載地址改成淘寶的鏡像，然后再安裝：

npm config set PUPPETEER_DOWNLOAD_HOST=https://npm.taobao.org/mirrors
npm install --save puppeteer

你也可以在安裝時(shí)跳過(guò)Chromium下載，通過(guò)代碼指定本機Chrome路徑來(lái)運行：

// npm
npm install --save puppeteer --ignore-scripts

// node
puppeteer.launch({ executablePath: '/path/to/Chrome' });

實(shí)現

為版面整潔，下面只列出了主要部分，代碼涉及到selector的部分都用了...代替，完整代碼參看文章頂部的github倉庫。

打開(kāi)百度指數頁(yè)面，模擬登錄

這里做的就是模擬用戶(hù)操作，一步步點(diǎn)擊和輸入。沒(méi)有處理登錄驗證碼的情況，處理驗證碼又是另一個(gè)話(huà)題了，如果你在本機登錄過(guò)百度，一般不需要驗證碼。

// 啟動(dòng)瀏覽器，
// headless參數如果設置為true，Puppeteer將在后臺操作你Chromium，換言之你將看不到瀏覽器的操作過(guò)程
// 設為false則相反，會(huì )在你電腦上打開(kāi)瀏覽器，顯示瀏覽器每一操作。
const browser = await puppeteer.launch({headless:false});
const page = await browser.newPage();

// 打開(kāi)百度指數
await page.goto(BAIDU_INDEX_URL);

// 模擬登陸
await page.click('...');
await page.waitForSelecto('...');
// 輸入百度賬號密碼然后登錄
await page.type('...','username');
await page.type('...','password');
await page.click('...');
await page.waitForNavigation();
console.log(':white_check_mark: 登錄成功');

模擬移動(dòng)鼠標，獲取需要的數據

需要將頁(yè)面滾動(dòng)到趨勢圖的區域，然后移動(dòng)鼠標到某個(gè)日期上，等待請求結束，tooltip顯示數值，再截圖保存圖片。

// 獲取chart第一天的坐標
const position = await page.evaluate(() => {
 const $image = document.querySelector('...');
 const $area = document.querySelector('...');
 const areaRect = $area.getBoundingClientRect();
 const imageRect = $image.getBoundingClientRect();

 // 滾動(dòng)到圖表可視化區域
 window.scrollBy(0, areaRect.top);

 return { x: imageRect.x, y: 200 }；
});

// 移動(dòng)鼠標，觸發(fā)tooltip
await page.mouse.move(position.x, position.y);
await page.waitForSelector('...');

// 獲取tooltip信息
const tooltipInfo = await page.evaluate(() => {
 const $tooltip = document.querySelector('...');
 const $title = $tooltip.querySelector('...');
 const $value = $tooltip.querySelector('...');
 const valueRect = $value.getBoundingClientRect();
 const padding = 5;

 return {
 title: $title.textContent.split(' ')[0],
 x: valueRect.x - padding,
 y: valueRect.y,
 width: valueRect.width + padding * 2,
 height: valueRect.height
 }
});

截圖

計算數值的坐標，截圖并用jimp對裁剪圖片。

await page.screenshot({ path: imgPath });

// 對圖片進(jìn)行裁剪，只保留數字部分
const img = await jimp.read(imgPath);
await img.crop(tooltipInfo.x, tooltipInfo.y, tooltipInfo.width, tooltipInfo.height);
// 將圖片放大一些，識別準確率會(huì )有提升
await img.scale(5);
await img.write(imgPath);

圖像識別

這里我們用Tesseract來(lái)做圖像識別，Tesseracts是Google開(kāi)源的一款OCR工具，用來(lái)識別圖片中的文字，并且可以通過(guò)訓練提高準確率。github上已經(jīng)有一個(gè)簡(jiǎn)單的node封裝： node-tesseract ，需要你先安裝Tesseract并設置到環(huán)境變量。

Tesseract.process(imgPath, (err, val) => {
if (err || val == null) {
 console.error(':x: 識別失?。?#39; + imgPath);
 return;
}
console.log(val);

實(shí)際上未經(jīng)訓練的Tesseracts識別起來(lái)會(huì )有少數幾個(gè)錯誤，比如把9開(kāi)頭的數字識別成`3，這里需要通過(guò)訓練去提升Tesseracts的準確率，如果識別過(guò)程出現的問(wèn)題都是一樣的，也可以簡(jiǎn)單通過(guò)正則去修復這些問(wèn)題。

封裝

實(shí)現了以上幾點(diǎn)后，只需組合起來(lái)就可以封裝成一個(gè)百度指數爬蟲(chóng)node庫。當然還有許多優(yōu)化的方法，比如批量爬取，指定天數爬取等，只要在這個(gè)基礎上實(shí)現都不難了。

const recognition = require('./src/recognition');
const Spider = require('./src/spider');

module.exports = {
 async run (word, options, puppeteerOptions = { headless: true }) {
 const spider = new Spider({ 
 imgDir, 
 ...options 
 }, puppeteerOptions);

 // 抓取數據
 await spider.run(word);

 // 讀取抓取到的截圖，做圖像識別
 const wordDir = path.resolve(imgDir, word);
 const imgNames = fs.readdirSync(wordDir);
 const result = [];

 imgNames = imgNames.filter(item => path.extname(item) === '.png');

 for (let i = 0; i < imgNames.length; i++) {
 const imgPath = path.resolve(wordDir, imgNames[i]);
 const val = await recognition.run(imgPath);
 result.push(val);
 }

 return result;
 }
}

免責聲明：本站發(fā)布的內容（圖片、視頻和文字）以原創(chuàng )、來(lái)自互聯(lián)網(wǎng)轉載和分享為主，文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權請聯(lián)系站長(cháng)郵箱：ts@56dr.com進(jìn)行舉報，并提供相關(guān)證據，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權內容。

上一篇新聞：
上一篇：vue2.0中移動(dòng)端如何實(shí)現下拉刷新和上拉加載更多
下一篇新聞：
下一篇：css怎么添加一條屬性能夠繪制一個(gè)矩形框

優(yōu)惠

云主機8折虛擬主機6折

紅包可用于（云服務(wù)器、高防服務(wù)器、裸金屬服務(wù)器、高防IP、云數據庫、CDN加速）購買(mǎi)和續費

領(lǐng)取優(yōu)惠卷

100倍故障賠償
1天無(wú)理由退款
7x24小時(shí)服務(wù)
0元快速備案
1V1專(zhuān)席秘書(shū)

Copyright ? 2009-2021 56dr.com. All Rights Reserved. 特網(wǎng)科技版權所有　珠海市特網(wǎng)科技有限公司　粵ICP備16109289號

域名注冊服務(wù)機構:阿里云計算有限公司（萬(wàn)網(wǎng)）域名服務(wù)機構：煙臺帝思普網(wǎng)絡(luò )科技有限公司（DNSPod） CDN服務(wù)：阿里云計算有限公司中國互聯(lián)網(wǎng)舉報中心增值電信業(yè)務(wù)經(jīng)營(yíng)許可證B2 建議您使用Chrome、Firefox、Edge、IE10及以上版本和360等主流瀏覽器瀏覽本網(wǎng)站

QQ咨詢(xún)
請選擇客服進(jìn)行咨詢(xún)
微信咨詢(xún)
電話(huà)咨詢(xún)
請選擇客服進(jìn)行咨詢(xún)
- 0756-2113031
備案
工單
TOP

久久亚洲精品无码AV红樱桃| 亚洲欧美日产综合在线网| 成熟女人牲交片免费观看视频| 国产成人高清精品免费| 日韩人妻无码精品专区906188| 中国少妇的BBB真爽|

<tr id="tkjdb"><label id="tkjdb"><label id="tkjdb"></label></label></tr>

<font id="tkjdb"><strong id="tkjdb"><thead id="tkjdb"></thead></strong></font>

<tr id="tkjdb"><strong id="tkjdb"><thead id="tkjdb"></thead></strong></tr>