国产成人精品18p,天天干成人网,无码专区狠狠躁天天躁,美女脱精光隐私扒开免费观看

<rt id="evlfq"></rt>

^{<big id="evlfq"></big>}

爬蟲(chóng)Crawl Spider模板的用法

發(fā)布時(shí)間：2021-09-04 11:55 來(lái)源：億速云閱讀：0 作者：chen 欄目：開(kāi)發(fā)技術(shù)

本篇內容介紹了“爬蟲(chóng)Crawl Spider模板的用法”的有關(guān)知識，在實(shí)際案例的操作過(guò)程中，不少人都會(huì )遇到這樣的困境，接下來(lái)就讓小編帶領(lǐng)大家學(xué)習一下如何處理這些情況吧！希望大家仔細閱讀，能夠學(xué)有所成！

1.Spider模板

scrapy默認創(chuàng )建的spider模板就是basic模板，創(chuàng )建spider文件的命令是：scrapy genspider dribbble dribbble.com，查看spider模板的命令是：scrapy genspider --list；
在項目中明確指明使用crawl生成模板生成spider的命令是：scrapy genspider -t crawl csdn www.csdn.net ；

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class Cspider(CrawlSpider):
    name = 'csdn'
    allowed_domains = ['www.csdn.net']
    start_urls = ['https://www.csdn.net/']
    rules = (
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )
    def parse_item(self, response):
        return item

2.CrawlSpider類(lèi)介紹

CrawlSpider是Spider的派生類(lèi)，目的是對全站信息爬取更加簡(jiǎn)單，爬取那些具有一定規則網(wǎng)站的常用的爬蟲(chóng)，它基于Spider并有一些獨特屬性；

3.rules規則列表

語(yǔ)法：Rule(link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, process_request=None)，rules是Rule對象的集合，用于匹配目標網(wǎng)站并排除干擾；
link_extractor：是一個(gè)LinkExtractor對象，其定義了如何從爬取到的頁(yè)面提取鏈接；
callback：從link_extractor中每獲取到鏈接得到Responses時(shí)，會(huì )調用參數所指定的值作為回調函數，該回調函數接收一個(gè)response作為其一個(gè)參數；
cb_kwargs：用于作為**kwargs參數，傳遞給callback；
follow：是一個(gè)布爾值，指爬取了之后，是否還繼續從該頁(yè)面提取鏈接，然后繼續爬下去, 默認是False；
process_links：指定spider中哪個(gè)的函數將會(huì )被調用，從link_extractor中獲取到鏈接列表時(shí)將會(huì )調用該函數。該方法主要用來(lái)過(guò)濾；
process_request：指定處理函數，根據該Rule提取到的每個(gè)Request時(shí)，該函數將會(huì )被調用，可以對Request進(jìn) 行處理，該函數必須返回Request或者None；

4.LinkExtractors

LinkExtractors 的目的是提取鏈接，每個(gè)LinkExtractor有唯一的公共方法是extract_links()，它接收一個(gè) Response對象，并返回一個(gè)scrapy.link.Link對象；
Link Extractors要實(shí)例化一次，并且 extract_links 方法會(huì )根據不同的 response 調用多次提取鏈接；

主要參數：

allow：滿(mǎn)足括號中”正則表達式”的值會(huì )被提取，如果為空，則全部匹配；
deny：與這個(gè)正則表達式(或正則表達式列表)不匹配的url一定不提??；
allow_domains：會(huì )被提取的連接的；
deny_domains：一定不會(huì )被提取鏈接的domains；
restrict_xpaths：使用xpath表達式，和allow共同作用過(guò)濾鏈接；

5.爬取CSDN的文章, 且提取URL和文章標題

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class DoubanSpider(CrawlSpider):
    name = 'csdn'
    allowed_domains = ['blog.csdn.net']
    start_urls = ['https://blog.csdn.net']
    # 指定鏈接提取的規律
    rules = (
        # follow:是指爬取了之后，是否還繼續從該頁(yè)面提取鏈接，然后繼續爬下去
        Rule(LinkExtractor(allow=r'.*/article/.*'), callback='parse_item', follow=True),
    )
    def parse_item(self, response):
        print('-'*100)
        print(response.url)
        title = response.css('h2::text').extract()[0]
        print(title)
        print('-' * 100)
        return None

免責聲明：本站發(fā)布的內容（圖片、視頻和文字）以原創(chuàng )、來(lái)自互聯(lián)網(wǎng)轉載和分享為主，文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權請聯(lián)系QQ:712375056 進(jìn)行舉報，并提供相關(guān)證據，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權內容。

上一篇新聞：
上一篇：Python怎么將xml格式轉換為json格式
下一篇新聞：
下一篇：elasticsearch7.2的增刪改查語(yǔ)法

優(yōu)惠

云主機8折虛擬主機6折

紅包可用于（云服務(wù)器、高防服務(wù)器、裸金屬服務(wù)器、高防IP、云數據庫、CDN加速）購買(mǎi)和續費

領(lǐng)取優(yōu)惠卷

Copyright ? 2009-2021 56dr.com. All Rights Reserved. 特網(wǎng)科技特網(wǎng)云版權所有　珠海市特網(wǎng)科技有限公司　粵ICP備16109289號

域名注冊服務(wù)機構:阿里云計算有限公司（萬(wàn)網(wǎng)）域名服務(wù)機構：煙臺帝思普網(wǎng)絡(luò )科技有限公司（DNSPod） CDN服務(wù)：阿里云計算有限公司中國互聯(lián)網(wǎng)舉報中心增值電信業(yè)務(wù)經(jīng)營(yíng)許可證B2

建議您使用Chrome、Firefox、Edge、IE10及以上版本和360等主流瀏覽器瀏覽本網(wǎng)站

QQ咨詢(xún)
請選擇客服進(jìn)行咨詢(xún)
微信咨詢(xún)
電話(huà)咨詢(xún)
請選擇客服進(jìn)行咨詢(xún)
- 0756-2113031
備案
工單
TOP

精品国产综合区久久久久久| 66lu国产在线观看| 无码人妻一区二区三区兔费| 久久久久亚洲AV成人片乱码| 老色鬼久久亚洲AV综合| 国语对白露脸XXXXXX|

^{<var id="pzzx6"></var>}