成人在线亚洲_国产日韩视频一区二区三区_久久久国产精品_99国内精品久久久久久久

您的位置:首頁技術文章
文章詳情頁

Python爬蟲框架之Scrapy中Spider的用法

瀏覽:145日期:2022-06-15 16:15:13
Scrapy中Spider的用法

Spider類定義了如何爬取某個(或某些)網站。包括了爬取的動作(例如:是否跟進鏈接)以及如何從網頁的內容中提取結構化數據(爬取item)。換句話說,Spider就是您定義爬取的動作及分析某個網頁(或者是有些網頁)的地方。

對spider來說,爬取的循環類似下文:

1.以初始的URL初始化Request,并設置回調函數。當該request下載完畢并返回時,將生成response,并作為參數傳給該回調函數。spider中初始的request是通過調用start_requests()來獲取的。start_requests()讀取start_urls中的URL,并以parse為回調函數生成Request。

2.在回調函數內分析返回的(網頁)內容,返回ltem對象或者Request或者一個包括二者的可迭代容器。返回的Request對象之后會經過Scrapy處理,下載相應的內容,并調用設置的callback函數(函數可相同)。

3.在回調函數內,您可以使用選擇器(Selectors)(您也可以使用BeautifulSoup, Ixml或者您想用的任何解析器)來分析網頁內容,并根據分析的數據生成item。

4.最后,由spider返回的item將被存到數據庫(由某些ltem Pipeline處理)或使用Feed exports存入到文件中。

雖然該循環對任何類型的spider都(多少)適用,但Scrapy仍然為了不同的需求提供了多種默認spider。之后將討論這些spider。

Spider

scrapy.spider.Spider是最簡單的spider。每個其他的spider必須繼承自該類(包括Scrapy自帶的其他spider以及您自己編寫的spider)。其僅僅請求給定的start_urls / start_requests,并根據返回的結果(resulting responses)調用spider的 parse方法。

name

定義spider名字的字符串(string)。spider的名字定義了Scrapy如何定位(并初始化) spider,所以其必須是唯一的。不過您可以生成多個相同的spider實例(instance),這沒有任何限制。name是spider最重要的屬性,而且是必須的。

如果該spider爬取單個網站(single domain),一個常見的做法是以該網站(domain)(加或不加后綴)來命名spider。例如,如果spider爬取 mywebsite.com,該spider通常會被命名為mywebsite。

allowed_domains

可選。包含了spider允許爬取的域名(domain)列表(list)。當OffsiteMiddleware啟用時,域名不在列表中的URL不會被跟進。

start_urls

URL列表。當沒有制定特定的URL時,spider將從該列表中開始進行爬取。因此,第一個被獲取到的頁面的URL將是該列表之一。后續的URL將會從獲取到的數據中提取。

start_requests()

該方法必須返回一個可迭代對象(iterable)。該對象包含了spider用于爬取的第一個Request。

當spider啟動爬取并且未制定URL時,該方法被調用。當指定了URL時,make_requests_from_url()將被調用來創建Request對象。該方法僅僅會被Scrapy調用一次,因此您可以將其實現為生成器。

該方法的默認實現是使用start_urls的url生成Request。

如果您想要修改最初爬取某個網站的Request對象,您可以重寫(override)該方法。例如,如果您需要在啟動時以POST登錄某個網站,你可以這么寫:

def start_requests(self) : return [scrapy.FormRequest('http : / /ww. example.com/login',formdata={ ’user’ : ’john’, ’ pass ’ : ’secret’},ca77back=se1f.1ogged_in)] def logged_in(self,response) :## here you would extract links to follow and return Requests for## each of them,with another ca77backpass

parse

當response沒有指定回調函數時,該方法是Scrapy處理下載的response的默認方法。

parse負責處理response并返回處理的數據以及(/或)跟進的URL。Spider對其他的Request的回調函數也有相同的要求。

該方法及其他的Request回調函數必須返回一個包含Request 及(或) ltem的可迭代的對象。

參數: response-用于分析的response

啟動方式

start_urls

start_urls是一個列表

start_requests

使用start_requests()重寫start_ur1s,要使用Request()方法自己發送請求:

def start_requests(se7f): '''重寫start_urls 規則''' yield scrapy.Request(ur1=’http://quotes.toscrape.com/page/1/’cal1back=self.parse)

scrapy.Request

scrapy.Request是一個請求對象,創建時必須制定回調函數。

數據保存

可以使用-o將數據保存為常見的格式(根據后綴名保存)支持的格式有下面幾種:

json jsonlines jl csv xml marshal pickle

使用方式:

scrapy crawl quotes2 -o a.json

案例: Spider樣例

##一*- coding: utf-8 -*- import scrapy clTass Quotes2spider(scrapy.spider): name = ’quotes2’ a7lowed_domains = [ ’toscrape.com ’ ] start_urls = [ ’ http: //quotes.toscrape.com/ page/2/ ’] def parse(self,response):quotes = response.css(’.quote ’ )for quote in quotes: text = quote.css( ’.text: : text ’ ).extract_first() auth = quote.css( ’.author : :text ’).extract_first() tages = quote.css(’.tags a: :text’ ).extract() yield dict(text=text , auth=auth, tages=tages)

到此這篇關于Python爬蟲框架之Scrapy中Spider的用法的文章就介紹到這了,更多相關Spider的用法內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Python 編程
相關文章:
成人在线亚洲_国产日韩视频一区二区三区_久久久国产精品_99国内精品久久久久久久
六月婷婷一区| 日韩一区二区三区视频在线| 在线观看国产一区二区| 亚洲综合偷拍欧美一区色| 欧美在线日韩精品| 精品少妇一区二区三区日产乱码| 激情六月婷婷久久| 欧美日韩一区中文字幕| 日韩中文字幕麻豆| 亚洲免费影视| 亚洲精品五月天| 夜夜嗨一区二区| 国产精品福利电影一区二区三区四区| 牛夜精品久久久久久久99黑人 | 欧美激情亚洲| 久久精品一区二区三区不卡牛牛| av成人免费在线| 久久亚洲二区三区| 女女同性精品视频| 国产精品免费视频网站| 狠狠入ady亚洲精品| 综合久久久久久久| 在线精品一区二区| 亚洲欧美日韩在线不卡| 国产日韩欧美在线播放不卡| 亚洲综合久久久| 亚洲一区亚洲| 天天做天天摸天天爽国产一区| 亚洲一区二区三区涩| 天堂一区二区在线| 色成人在线视频| 精品午夜久久福利影院| 欧美美女喷水视频| 国产成人小视频| 久久久久99精品一区| 欧美日本中文| 国产精品看片你懂得| 亚洲欧洲另类| 五月开心婷婷久久| 欧美日本视频在线| 成人免费视频网站在线观看| 久久色.com| 狠狠色狠狠色综合人人| 亚洲精品一二三区| 日本精品一级二级| 成人伦理片在线| 国产精品网站一区| 国产精品亚洲一区| 国产自产v一区二区三区c| 日韩美女视频一区二区在线观看| 你懂的国产精品永久在线| 亚洲欧美在线视频观看| 激情久久久久久| 亚洲国产成人高清精品| 欧美日韩mp4| 欧美+日本+国产+在线a∨观看| 国产精品国产自产拍高清av王其 | 精品日本一线二线三线不卡| 欧美国产三区| 亚洲主播在线观看| 欧美日韩一级片网站| 99在线热播精品免费| 国产精品二区一区二区aⅴ污介绍| 国产精品一区二区a| 美女在线一区二区| 久久这里只有精品首页| 亚洲日本黄色| 狠狠色综合播放一区二区| 久久五月婷婷丁香社区| 99国产精品久久久久久久| 久久精品国产亚洲高清剧情介绍| 精品国一区二区三区| 亚洲精品影院在线观看| 久久国产剧场电影| 久久久亚洲国产美女国产盗摄| 欧美日韩精品一本二本三本| 亚洲一区二区免费视频| 3751色影院一区二区三区| 欧美日韩国产高清视频| 一区二区三区精品久久久| 欧美艳星brazzers| 99久久99久久久精品齐齐| 亚洲午夜一区二区| 在线91免费看| 好吊视频一区二区三区四区 | 在线亚洲美日韩| 国内成人自拍视频| 亚洲天堂av一区| 欧美欧美欧美欧美首页| 欧美jjzz| 日韩和欧美的一区| 国产午夜精品久久久久久免费视| 久久久久久久波多野高潮日日| 成人国产精品免费观看动漫| 亚洲自拍都市欧美小说| 欧美刺激午夜性久久久久久久| 亚洲精品在线观看免费| 懂色一区二区三区免费观看| 亚洲综合一区二区精品导航| 日韩免费观看高清完整版 | 青娱乐精品在线视频| 国产日产欧美一区| 91黄色免费版| 欧美日韩99| 国产乱码字幕精品高清av| 亚洲欧美乱综合| 日韩欧美一级二级三级 | 久久这里只有精品6| 久久综合影音| 黄色亚洲精品| 国产精品乡下勾搭老头1| 一二三四社区欧美黄| 精品国产免费人成在线观看| 久久免费99精品久久久久久| 97久久精品人人做人人爽50路| 亚洲第一二三四区| 国产无一区二区| 欧美久久婷婷综合色| 国产欧美日韩伦理| 99视频超级精品| 免费成人在线播放| 亚洲免费观看高清| 久久久国产精品午夜一区ai换脸| 色婷婷av一区二区三区gif| 国产精品99免费看| 国产91色综合久久免费分享| 午夜电影网亚洲视频| 国产精品久久久久久一区二区三区| 678五月天丁香亚洲综合网| 久久久水蜜桃av免费网站| 国产精品v欧美精品∨日韩| 国产福利91精品一区二区三区| 五月婷婷久久丁香| 中文字幕一区在线观看视频| 日韩一级黄色大片| 在线视频综合导航| 免费看的黄色欧美网站| 国内精品美女在线观看| 成人白浆超碰人人人人| 麻豆精品国产传媒mv男同| 亚洲激情av在线| 日本一区二区三区免费乱视频| 欧美一区二区大片| 欧美日韩在线免费视频| 欧美中文字幕| 一区二区久久| 国产精品红桃| 95精品视频在线| 成人免费视频免费观看| 免费成人av资源网| 亚洲成人动漫在线免费观看| 亚洲欧洲精品天堂一级| 久久你懂得1024| 日韩欧美一二三四区| 3d动漫精品啪啪1区2区免费| 欧美四级电影网| 日本韩国欧美三级| 色噜噜狠狠色综合欧洲selulu| 国产精品一二| 日韩午夜在线| 亚洲福利久久| 亚洲成人原创| 亚洲人久久久| 一区二区三区精品国产| 亚洲国产高清一区| 国产精品v欧美精品v日本精品动漫 | 午夜精品久久久久99热蜜桃导演 | 国产一区二区不卡在线| 美女视频黄 久久| 日韩国产欧美三级| 偷拍一区二区三区四区| 亚洲图片自拍偷拍| 亚洲一区二区精品3399| 亚洲一区二区三区影院| 一区二区成人在线| 亚洲午夜一区二区| 日韩精品乱码免费| 日韩二区在线观看| 日本伊人午夜精品| 免费在线欧美视频| 麻豆传媒一区二区三区| 奇米一区二区三区| 久久精品久久99精品久久| 国产一区二区在线电影| 国产高清一区日本| 成人午夜碰碰视频| jizz一区二区| 女女同性精品视频| 亚洲日本视频| 麻豆久久婷婷| 欧美中文一区二区三区| 欧美精选一区二区| 日韩精品在线看片z| 久久久久国产成人精品亚洲午夜 | 国产伦精一区二区三区| 国产福利精品一区| 欧美一区二区三区久久精品| 欧美日韩视频一区二区三区| 亚洲人久久久| 91久久国产综合久久|