- 資訊首頁(yè) > 開(kāi)發(fā)技術(shù) >
- 爬蟲(chóng)Crawl Spider模板的用法
本篇內容介紹了“爬蟲(chóng)Crawl Spider模板的用法”的有關(guān)知識,在實(shí)際案例的操作過(guò)程中,不少人都會(huì )遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學(xué)有所成!
scrapy默認創(chuàng )建的spider模板就是basic模板,創(chuàng )建spider文件的命令是:scrapy genspider dribbble dribbble.com
,查看spider模板的命令是:scrapy genspider --list
;
在項目中明確指明使用crawl生成模板生成spider的命令是:scrapy genspider -t crawl csdn www.csdn.net
;
import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class Cspider(CrawlSpider): name = 'csdn' allowed_domains = ['www.csdn.net'] start_urls = ['https://www.csdn.net/'] rules = ( Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True), ) def parse_item(self, response): return item
CrawlSpider是Spider的派生類(lèi),目的是對全站信息爬取更加簡(jiǎn)單,爬取那些具有一定規則網(wǎng)站的常用的爬蟲(chóng), 它基于Spider并有一些獨特屬性;
語(yǔ)法:Rule(link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, process_request=None)
,rules是Rule對象的集合,用于匹配目標網(wǎng)站并排除干擾;
link_extractor
:是一個(gè)LinkExtractor對象,其定義了如何從爬取到的頁(yè)面提取鏈接;
callback
:從link_extractor中每獲取到鏈接得到Responses時(shí),會(huì )調用參數所指定的值作為回調函數,該回調 函數接收一個(gè)response作為其一個(gè)參數;
cb_kwargs
:用于作為**kwargs參數,傳遞給callback;
follow
:是一個(gè)布爾值,指爬取了之后,是否還繼續從該頁(yè)面提取鏈接,然后繼續爬下去, 默認是False;
process_links
:指定spider中哪個(gè)的函數將會(huì )被調用,從link_extractor中獲取到鏈接列表時(shí)將會(huì )調用該函數 。該方法主要用來(lái)過(guò)濾;
process_request
:指定處理函數,根據該Rule提取到的每個(gè)Request時(shí),該函數將會(huì )被調用,可以對Request進(jìn) 行處理,該函數必須返回Request或者None;
LinkExtractors 的目的是提取鏈接,每個(gè)LinkExtractor有唯一的公共方法是extract_links(),它接收一個(gè) Response對象,并返回一個(gè)scrapy.link.Link對象;
Link Extractors要實(shí)例化一次,并且 extract_links 方法會(huì )根據不同的 response 調用多次提取鏈接;
主要參數:
allow
:滿(mǎn)足括號中”正則表達式”的值會(huì )被提取,如果為空,則全部匹配;
deny
:與這個(gè)正則表達式(或正則表達式列表)不匹配的url一定不提??;
allow_domains
:會(huì )被提取的連接的;
deny_domains
:一定不會(huì )被提取鏈接的domains;
restrict_xpaths
:使用xpath表達式,和allow共同作用過(guò)濾鏈接;
from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class DoubanSpider(CrawlSpider): name = 'csdn' allowed_domains = ['blog.csdn.net'] start_urls = ['https://blog.csdn.net'] # 指定鏈接提取的規律 rules = ( # follow:是指爬取了之后,是否還繼續從該頁(yè)面提取鏈接,然后繼續爬下去 Rule(LinkExtractor(allow=r'.*/article/.*'), callback='parse_item', follow=True), ) def parse_item(self, response): print('-'*100) print(response.url) title = response.css('h2::text').extract()[0] print(title) print('-' * 100) return None
免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng )、來(lái)自互聯(lián)網(wǎng)轉載和分享為主,文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權請聯(lián)系QQ:712375056 進(jìn)行舉報,并提供相關(guān)證據,一經(jīng)查實(shí),將立刻刪除涉嫌侵權內容。
Copyright ? 2009-2021 56dr.com. All Rights Reserved. 特網(wǎng)科技 特網(wǎng)云 版權所有 珠海市特網(wǎng)科技有限公司 粵ICP備16109289號
域名注冊服務(wù)機構:阿里云計算有限公司(萬(wàn)網(wǎng)) 域名服務(wù)機構:煙臺帝思普網(wǎng)絡(luò )科技有限公司(DNSPod) CDN服務(wù):阿里云計算有限公司 中國互聯(lián)網(wǎng)舉報中心 增值電信業(yè)務(wù)經(jīng)營(yíng)許可證B2
建議您使用Chrome、Firefox、Edge、IE10及以上版本和360等主流瀏覽器瀏覽本網(wǎng)站