客戶(hù)使用阿里云虛擬主機的時(shí)候,網(wǎng)站被搜索引擎爬蟲(chóng)訪(fǎng)問(wèn)耗費大量流量和帶寬,該如何處理呢?且看下文
問(wèn)題場(chǎng)景:
客戶(hù)使用,網(wǎng)站被訪(fǎng)問(wèn)耗費大量流量和帶寬,如何處理。
解決方法:
可以通過(guò)在站點(diǎn)根目錄下創(chuàng )建 Robots.txt,Robots.txt 文件是網(wǎng)站的一個(gè)文件,搜索引擎蜘蛛抓取網(wǎng)站首先就是抓取這個(gè)文件,根據里面的內容來(lái)決定對網(wǎng)站文件訪(fǎng)問(wèn)的范圍。它能夠保護我們的一些文件不暴露在搜索引擎之下,從而有效的控制蜘蛛的爬取路徑。
注:Robot.txt協(xié)議不是強制協(xié)議,部分搜索引擎或者偽裝成搜索引擎的爬蟲(chóng)不會(huì )遵守該協(xié)議,對于不遵守該協(xié)議的情況,以下方法無(wú)效。
1. 首先,先了解一下目前搜索引擎和其對應的 User-Agent,如下:
搜索引擎 User-Agent
AltaVista Scooter
baidu Baiduspider
Infoseek Infoseek
Hotbot Slurp
AOL Search Slurp
Excite ArchitextSpider
Google Googlebot
Goto Slurp
Lycos Lycos
MSN Slurp
Netscape Googlebot
NorthernLight Gulliver
WebCrawler ArchitextSpider
Iwon Slurp
Fast Fast
DirectHit Grabber
Yahoo Web Pages Googlebot
LooksmartWebPages Slurp
2. Robots.tx t樣例代碼:
例1. 禁止所有搜索引擎訪(fǎng)問(wèn)網(wǎng)站的任何部分
User-agent:
Disallow: /
例2. 允許所有的搜索引擎訪(fǎng)問(wèn)網(wǎng)站的任何部分
User-agent:
Disallow:
例3. 僅禁止Baiduspider訪(fǎng)問(wèn)您的網(wǎng)站
User-agent: Baiduspider
Disallow: /
例4. 僅允許Baiduspider訪(fǎng)問(wèn)您的網(wǎng)站
User-agent: Baiduspider
Disallow:
例5. 禁止spider訪(fǎng)問(wèn)特定目錄
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/
注意事項:
三個(gè)目錄要分別寫(xiě)。
請注意最后要帶斜杠。
帶斜杠與不帶斜杠的區別。
例6. 允許訪(fǎng)問(wèn)特定目錄中的部分url
實(shí)現a目錄下只有b.htm允許訪(fǎng)問(wèn)
User-agent: *
Allow: /a/b.htm
Disallow: /a/
免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng )、來(lái)自本網(wǎng)站內容采集于網(wǎng)絡(luò )互聯(lián)網(wǎng)轉載等其它媒體和分享為主,內容觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如侵犯了原作者的版權,請告知一經(jīng)查實(shí),將立刻刪除涉嫌侵權內容,聯(lián)系我們QQ:712375056,同時(shí)歡迎投稿傳遞力量。
Copyright ? 2009-2022 56dr.com. All Rights Reserved. 特網(wǎng)科技 特網(wǎng)云 版權所有 特網(wǎng)科技 粵ICP備16109289號
域名注冊服務(wù)機構:阿里云計算有限公司(萬(wàn)網(wǎng)) 域名服務(wù)機構:煙臺帝思普網(wǎng)絡(luò )科技有限公司(DNSPod) CDN服務(wù):阿里云計算有限公司 百度云 中國互聯(lián)網(wǎng)舉報中心 增值電信業(yè)務(wù)經(jīng)營(yíng)許可證B2
建議您使用Chrome、Firefox、Edge、IE10及以上版本和360等主流瀏覽器瀏覽本網(wǎng)站