成人在线亚洲_国产日韩视频一区二区三区_久久久国产精品_99国内精品久久久久久久

您的位置:首頁技術文章
文章詳情頁

Python爬蟲實戰(zhàn)之使用Scrapy爬取豆瓣圖片

瀏覽:182日期:2022-06-14 16:32:24
使用Scrapy爬取豆瓣某影星的所有個人圖片

以莫妮卡·貝魯奇為例

Python爬蟲實戰(zhàn)之使用Scrapy爬取豆瓣圖片

1.首先我們在命令行進入到我們要創(chuàng)建的目錄,輸入 scrapy startproject banciyuan 創(chuàng)建scrapy項目

創(chuàng)建的項目結構如下

Python爬蟲實戰(zhàn)之使用Scrapy爬取豆瓣圖片

2.為了方便使用pycharm執(zhí)行scrapy項目,新建main.py

from scrapy import cmdlinecmdline.execute('scrapy crawl banciyuan'.split())

再edit configuration

Python爬蟲實戰(zhàn)之使用Scrapy爬取豆瓣圖片

然后進行如下設置,設置后之后就能通過運行main.py運行scrapy項目了

Python爬蟲實戰(zhàn)之使用Scrapy爬取豆瓣圖片

3.分析該HTML頁面,創(chuàng)建對應spider

Python爬蟲實戰(zhàn)之使用Scrapy爬取豆瓣圖片

from scrapy import Spiderimport scrapyfrom banciyuan.items import BanciyuanItemclass BanciyuanSpider(Spider): name = ’banciyuan’ allowed_domains = [’movie.douban.com’] start_urls = ['https://movie.douban.com/celebrity/1025156/photos/'] url = 'https://movie.douban.com/celebrity/1025156/photos/' def parse(self, response):num = response.xpath(’//div[@class='paginator']/a[last()]/text()’).extract_first(’’)print(num)for i in range(int(num)): suffix = ’?type=C&start=’ + str(i * 30) + ’&sortby=like&size=a&subtype=a’ yield scrapy.Request(url=self.url + suffix, callback=self.get_page) def get_page(self, response):href_list = response.xpath(’//div[@class='article']//div[@class='cover']/a/@href’).extract()# print(href_list)for href in href_list: yield scrapy.Request(url=href, callback=self.get_info) def get_info(self, response):src = response.xpath( ’//div[@class='article']//div[@class='photo-show']//div[@class='photo-wp']/a[1]/img/@src’).extract_first(’’)title = response.xpath(’//div[@id='content']/h1/text()’).extract_first(’’)# print(response.body)item = BanciyuanItem()item[’title’] = titleitem[’src’] = [src]yield item

4.items.py

# Define here the models for your scraped items## See documentation in:# https://docs.scrapy.org/en/latest/topics/items.htmlimport scrapyclass BanciyuanItem(scrapy.Item): # define the fields for your item here like: src = scrapy.Field() title = scrapy.Field()

pipelines.py

# Define your item pipelines here## Don’t forget to add your pipeline to the ITEM_PIPELINES setting# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html# useful for handling different item types with a single interfacefrom itemadapter import ItemAdapterfrom scrapy.pipelines.images import ImagesPipelineimport scrapyclass BanciyuanPipeline(ImagesPipeline): def get_media_requests(self, item, info):yield scrapy.Request(url=item[’src’][0], meta={’item’: item}) def file_path(self, request, response=None, info=None, *, item=None):item = request.meta[’item’]image_name = item[’src’][0].split(’/’)[-1]# image_name.replace(’.webp’, ’.jpg’)path = ’%s/%s’ % (item[’title’].split(’ ’)[0], image_name)return path

settings.py

# Scrapy settings for banciyuan project## For simplicity, this file contains only settings considered important or# commonly used. You can find more settings consulting the documentation:## https://docs.scrapy.org/en/latest/topics/settings.html# https://docs.scrapy.org/en/latest/topics/downloader-middleware.html# https://docs.scrapy.org/en/latest/topics/spider-middleware.htmlBOT_NAME = ’banciyuan’SPIDER_MODULES = [’banciyuan.spiders’]NEWSPIDER_MODULE = ’banciyuan.spiders’# Crawl responsibly by identifying yourself (and your website) on the user-agentUSER_AGENT = {’User-Agent’:’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36’}# Obey robots.txt rulesROBOTSTXT_OBEY = False# Configure maximum concurrent requests performed by Scrapy (default: 16)#CONCURRENT_REQUESTS = 32# Configure a delay for requests for the same website (default: 0)# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay# See also autothrottle settings and docs#DOWNLOAD_DELAY = 3# The download delay setting will honor only one of:#CONCURRENT_REQUESTS_PER_DOMAIN = 16#CONCURRENT_REQUESTS_PER_IP = 16# Disable cookies (enabled by default)#COOKIES_ENABLED = False# Disable Telnet Console (enabled by default)#TELNETCONSOLE_ENABLED = False# Override the default request headers:#DEFAULT_REQUEST_HEADERS = {# ’Accept’: ’text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8’,# ’Accept-Language’: ’en’,#}# Enable or disable spider middlewares# See https://docs.scrapy.org/en/latest/topics/spider-middleware.html#SPIDER_MIDDLEWARES = {# ’banciyuan.middlewares.BanciyuanSpiderMiddleware’: 543,#}# Enable or disable downloader middlewares# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#DOWNLOADER_MIDDLEWARES = {# ’banciyuan.middlewares.BanciyuanDownloaderMiddleware’: 543,#}# Enable or disable extensions# See https://docs.scrapy.org/en/latest/topics/extensions.html#EXTENSIONS = {# ’scrapy.extensions.telnet.TelnetConsole’: None,#}# Configure item pipelines# See https://docs.scrapy.org/en/latest/topics/item-pipeline.htmlITEM_PIPELINES = { ’banciyuan.pipelines.BanciyuanPipeline’: 1,}IMAGES_STORE = ’./images’# Enable and configure the AutoThrottle extension (disabled by default)# See https://docs.scrapy.org/en/latest/topics/autothrottle.html#AUTOTHROTTLE_ENABLED = True# The initial download delay#AUTOTHROTTLE_START_DELAY = 5# The maximum download delay to be set in case of high latencies#AUTOTHROTTLE_MAX_DELAY = 60# The average number of requests Scrapy should be sending in parallel to# each remote server#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0# Enable showing throttling stats for every response received:#AUTOTHROTTLE_DEBUG = False# Enable and configure HTTP caching (disabled by default)# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings#HTTPCACHE_ENABLED = True#HTTPCACHE_EXPIRATION_SECS = 0#HTTPCACHE_DIR = ’httpcache’#HTTPCACHE_IGNORE_HTTP_CODES = []#HTTPCACHE_STORAGE = ’scrapy.extensions.httpcache.FilesystemCacheStorage’

5.爬取結果

Python爬蟲實戰(zhàn)之使用Scrapy爬取豆瓣圖片

reference

源碼

到此這篇關于Python爬蟲實戰(zhàn)之使用Scrapy爬取豆瓣圖片的文章就介紹到這了,更多相關Scrapy爬取豆瓣圖片內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持好吧啦網(wǎng)!

相關文章:
成人在线亚洲_国产日韩视频一区二区三区_久久久国产精品_99国内精品久久久久久久
天天色综合成人网| 久久国产精品一区二区三区| 国产农村妇女精品一二区 | 午夜在线视频观看日韩17c| 亚洲视频一二三区| 狠狠88综合久久久久综合网| 国产日韩亚洲欧美综合| av一区二区不卡| 欧美精品一区二区精品网| 福利电影一区二区| 欧美一区二区三区性视频| 国产麻豆欧美日韩一区| 91精品综合久久久久久| 国产成人亚洲综合a∨婷婷图片| 日韩一区二区视频在线观看| 成人免费精品视频| 2024国产精品| 欧美在线3区| 国产精品美女视频| 激情婷婷久久| 亚洲综合av网| 老司机精品视频网站| 日韩激情中文字幕| 欧美三级午夜理伦三级中视频| 精品一区二区三区视频在线观看| 在线看日韩精品电影| 久久精品免费观看| 日韩一区二区三区四区五区六区| 国产·精品毛片| 2021国产精品久久精品| 91色九色蝌蚪| 国产精品乱码久久久久久| 亚洲国内精品| 亚洲成人av一区| 日本韩国一区二区三区| 精品一区二区三区av| 日韩三级电影网址| 91亚洲精品乱码久久久久久蜜桃 | 成人中文字幕合集| 久久综合色婷婷| 欧美日韩精品| 一区二区不卡在线视频 午夜欧美不卡在 | 色婷婷综合久久久久中文一区二区| 免费成人在线播放| 欧美一区二区三区小说| jizz一区二区| 国产精品久久久久9999高清| 美腿丝袜亚洲综合| 欧美成人国产一区二区| 欧美日本亚洲| 亚洲成人动漫精品| 制服丝袜激情欧洲亚洲| 色综合天天综合网天天看片| 一区二区在线免费| 在线观看一区日韩| www.激情成人| 国产精品短视频| 久久久久网址| 成人一区二区视频| 亚洲天堂免费看| 在线观看成人免费视频| 成人a免费在线看| 日韩一区日韩二区| 欧美午夜理伦三级在线观看| 99精品国产99久久久久久白柏| 中文字幕在线一区免费| 久久中文字幕一区二区三区| 欧美色涩在线第一页| 91毛片在线观看| 亚洲午夜激情网页| 日韩欧美一二区| 韩国一区二区三区在线观看| 日韩二区在线观看| 久久伊99综合婷婷久久伊| 亚洲精品一品区二品区三品区| 亚洲不卡av一区二区三区| 欧美一a一片一级一片| 99热国产精品| 亚洲成人动漫av| 久久亚洲私人国产精品va媚药| 国产精品三上| 成人中文字幕在线| 一区二区三区欧美| 日韩视频一区二区三区在线播放 | 91精品免费观看| 亚洲精品一区二区三区av| 国内外精品视频| 亚洲视频免费看| 91精品国产综合久久久久| 1024成人| 国产福利91精品一区| 一区二区欧美精品| 精品国产一区a| 色婷婷国产精品综合在线观看| 欧美激情aⅴ一区二区三区| 日韩黄色片在线观看| 国产欧美视频在线观看| 欧美日韩一区二区在线观看| 黄色成人在线网站| 国产经典欧美精品| 亚洲大片在线观看| 久久久久久久久蜜桃| 欧美色图免费看| 99精品欧美| eeuss鲁片一区二区三区| 天天综合网 天天综合色| 日本一区二区免费在线| 欧美日本一区二区在线观看| 国产欧美69| 91美女视频网站| 国产一区91精品张津瑜| 亚洲成人午夜影院| 国产欧美日韩亚州综合| 欧美日韩国产高清一区| 亚洲综合首页| 欧美婷婷在线| 国产成人综合亚洲网站| 日韩专区中文字幕一区二区| 成人免费在线观看入口| 精品国产伦一区二区三区观看方式| 久久午夜电影| 伊人天天综合| 麻豆免费精品视频| 夜夜嗨av一区二区三区中文字幕 | 一区二区三区四区亚洲| 91久久在线| av午夜一区麻豆| 国产综合成人久久大片91| 午夜精品福利在线| 国产精品福利在线播放| 亚洲精品一区二区精华| 欧美色老头old∨ideo| 亚洲一区日韩在线| 国产精品v欧美精品∨日韩| 盗摄精品av一区二区三区| 老司机一区二区| 亚洲h动漫在线| 一区二区三区四区精品在线视频| 国产女主播在线一区二区| 日韩欧美国产综合| 欧美精品在欧美一区二区少妇| 久久亚洲午夜电影| 国产伦精品一区二区三区高清版| 欧美日韩国产综合视频在线| www.亚洲色图| 成人免费视频一区二区| 国模少妇一区二区三区| 日本大胆欧美人术艺术动态| 亚洲永久免费视频| 亚洲激情图片qvod| 亚洲欧美日韩久久| 综合中文字幕亚洲| 中文一区在线播放 | 国产麻豆欧美日韩一区| 黄色日韩网站视频| 日韩不卡一区二区三区| 天天免费综合色| 亚洲18女电影在线观看| 亚洲高清免费视频| 亚洲午夜国产一区99re久久| 亚洲一区在线电影| 亚洲一区视频在线观看视频| 一区二区三区在线观看国产| 亚洲男人天堂av网| 一区二区免费在线| 亚洲午夜免费电影| 香蕉成人啪国产精品视频综合网 | 国产拍欧美日韩视频二区| 欧美一区二区网站| 欧美一级夜夜爽| 91精品国产入口在线| 欧美一级久久久| 精品国产一二三| 久久精品网站免费观看| 国产日产欧产精品推荐色 | 亚洲精品免费观看| 99国产精品久久久久老师| 日韩视频一区| 国产日韩欧美综合精品| 亚洲国产一区二区三区在线播| 亚洲精品美女久久7777777| 99热这里只有精品8| 免费在线日韩av| 色哦色哦哦色天天综合| 91黄色小视频| 欧美日韩aaaaaa| 欧美xxxxx牲另类人与| 国产午夜精品在线观看| 亚洲国产精品激情在线观看| 国产精品不卡在线| 亚洲国产日韩综合久久精品| 日韩精品欧美成人高清一区二区| 日本午夜一区二区| 激情文学综合网| 国产xxx精品视频大全| 91在线视频网址| 亚洲国产三级| 亚洲欧美清纯在线制服| 欧美亚洲一区二区在线| 日韩一区二区不卡|