- 資訊首頁(yè) > 互聯(lián)網(wǎng) > 主機資訊 >
- VirMach教程:nginx反爬蟲(chóng)禁止一些無(wú)用User Agent抓取
盡管現在VPS的可選品牌很多,但VirMach這家美國主機商還是非常受歡迎的,性能穩定,價(jià)格低廉是他們的優(yōu)勢,故而在國內是有口皆碑的。nginx環(huán)境是最受歡迎的WEB服務(wù)器。網(wǎng)絡(luò )上的爬蟲(chóng)非常多,有對網(wǎng)站收錄有益的,比如百度蜘蛛(Baiduspider),也有不但不遵守robots規則對服務(wù)器造成壓力,還不能為網(wǎng)站帶來(lái)流量的無(wú)用爬蟲(chóng)。
為了禁止垃圾User Agent爬蟲(chóng)抓取網(wǎng)站,達到節省寬帶和節省資源的目的,就得想辦法禁止垃圾User Agent爬蟲(chóng)來(lái)抓取自己的網(wǎng)站了,這里小編就給大家分享下NGINX下是如何實(shí)現禁止無(wú)用User Agent抓取網(wǎng)站的。
在/usr/local/nginx/conf/rewrite目錄下新建agent_deny.conf文件【lnmp默認目錄】,內容如下:
#禁止Scrapy等工具的抓取
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
return 403;
}
#禁止指定UA及UA為空的訪(fǎng)問(wèn)
if ($http_user_agent ~ “FeedDemon|JikeSpider|Indy Library|Alexa
Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft
URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports
Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$”
) {
return 403;
}
#禁止非GET|HEAD|POST方式的抓取
if ($request_method !~ ^(GET|HEAD|POST)$) {
return 403;
}
然后再需要使用的網(wǎng)站配置文件中加入如下內容:
include agent_deny.conf;
好了后,重啟下你的nginx即可。nginx下就禁止了無(wú)用User Agent抓取網(wǎng)站內容了。
來(lái)源鏈接:https://www.idcspy.com/virmach-20014.html
本站聲明:網(wǎng)站內容來(lái)源于網(wǎng)絡(luò ),如有侵權,請聯(lián)系我們,我們將及時(shí)處理。
免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng )、來(lái)自本網(wǎng)站內容采集于網(wǎng)絡(luò )互聯(lián)網(wǎng)轉載等其它媒體和分享為主,內容觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如侵犯了原作者的版權,請告知一經(jīng)查實(shí),將立刻刪除涉嫌侵權內容,聯(lián)系我們QQ:712375056,同時(shí)歡迎投稿傳遞力量。
Copyright ? 2009-2022 56dr.com. All Rights Reserved. 特網(wǎng)科技 特網(wǎng)云 版權所有 特網(wǎng)科技 粵ICP備16109289號
域名注冊服務(wù)機構:阿里云計算有限公司(萬(wàn)網(wǎng)) 域名服務(wù)機構:煙臺帝思普網(wǎng)絡(luò )科技有限公司(DNSPod) CDN服務(wù):阿里云計算有限公司 百度云 中國互聯(lián)網(wǎng)舉報中心 增值電信業(yè)務(wù)經(jīng)營(yíng)許可證B2
建議您使用Chrome、Firefox、Edge、IE10及以上版本和360等主流瀏覽器瀏覽本網(wǎng)站