成人在线亚洲_国产日韩视频一区二区三区_久久久国产精品_99国内精品久久久久久久

您的位置:首頁技術文章
文章詳情頁

Python爬蟲實戰(zhàn)之使用Scrapy爬取豆瓣圖片

瀏覽:182日期:2022-06-14 16:32:24
使用Scrapy爬取豆瓣某影星的所有個人圖片

以莫妮卡·貝魯奇為例

Python爬蟲實戰(zhàn)之使用Scrapy爬取豆瓣圖片

1.首先我們在命令行進入到我們要創(chuàng)建的目錄,輸入 scrapy startproject banciyuan 創(chuàng)建scrapy項目

創(chuàng)建的項目結構如下

Python爬蟲實戰(zhàn)之使用Scrapy爬取豆瓣圖片

2.為了方便使用pycharm執(zhí)行scrapy項目,新建main.py

from scrapy import cmdlinecmdline.execute('scrapy crawl banciyuan'.split())

再edit configuration

Python爬蟲實戰(zhàn)之使用Scrapy爬取豆瓣圖片

然后進行如下設置,設置后之后就能通過運行main.py運行scrapy項目了

Python爬蟲實戰(zhàn)之使用Scrapy爬取豆瓣圖片

3.分析該HTML頁面,創(chuàng)建對應spider

Python爬蟲實戰(zhàn)之使用Scrapy爬取豆瓣圖片

from scrapy import Spiderimport scrapyfrom banciyuan.items import BanciyuanItemclass BanciyuanSpider(Spider): name = ’banciyuan’ allowed_domains = [’movie.douban.com’] start_urls = ['https://movie.douban.com/celebrity/1025156/photos/'] url = 'https://movie.douban.com/celebrity/1025156/photos/' def parse(self, response):num = response.xpath(’//div[@class='paginator']/a[last()]/text()’).extract_first(’’)print(num)for i in range(int(num)): suffix = ’?type=C&start=’ + str(i * 30) + ’&sortby=like&size=a&subtype=a’ yield scrapy.Request(url=self.url + suffix, callback=self.get_page) def get_page(self, response):href_list = response.xpath(’//div[@class='article']//div[@class='cover']/a/@href’).extract()# print(href_list)for href in href_list: yield scrapy.Request(url=href, callback=self.get_info) def get_info(self, response):src = response.xpath( ’//div[@class='article']//div[@class='photo-show']//div[@class='photo-wp']/a[1]/img/@src’).extract_first(’’)title = response.xpath(’//div[@id='content']/h1/text()’).extract_first(’’)# print(response.body)item = BanciyuanItem()item[’title’] = titleitem[’src’] = [src]yield item

4.items.py

# Define here the models for your scraped items## See documentation in:# https://docs.scrapy.org/en/latest/topics/items.htmlimport scrapyclass BanciyuanItem(scrapy.Item): # define the fields for your item here like: src = scrapy.Field() title = scrapy.Field()

pipelines.py

# Define your item pipelines here## Don’t forget to add your pipeline to the ITEM_PIPELINES setting# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html# useful for handling different item types with a single interfacefrom itemadapter import ItemAdapterfrom scrapy.pipelines.images import ImagesPipelineimport scrapyclass BanciyuanPipeline(ImagesPipeline): def get_media_requests(self, item, info):yield scrapy.Request(url=item[’src’][0], meta={’item’: item}) def file_path(self, request, response=None, info=None, *, item=None):item = request.meta[’item’]image_name = item[’src’][0].split(’/’)[-1]# image_name.replace(’.webp’, ’.jpg’)path = ’%s/%s’ % (item[’title’].split(’ ’)[0], image_name)return path

settings.py

# Scrapy settings for banciyuan project## For simplicity, this file contains only settings considered important or# commonly used. You can find more settings consulting the documentation:## https://docs.scrapy.org/en/latest/topics/settings.html# https://docs.scrapy.org/en/latest/topics/downloader-middleware.html# https://docs.scrapy.org/en/latest/topics/spider-middleware.htmlBOT_NAME = ’banciyuan’SPIDER_MODULES = [’banciyuan.spiders’]NEWSPIDER_MODULE = ’banciyuan.spiders’# Crawl responsibly by identifying yourself (and your website) on the user-agentUSER_AGENT = {’User-Agent’:’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36’}# Obey robots.txt rulesROBOTSTXT_OBEY = False# Configure maximum concurrent requests performed by Scrapy (default: 16)#CONCURRENT_REQUESTS = 32# Configure a delay for requests for the same website (default: 0)# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay# See also autothrottle settings and docs#DOWNLOAD_DELAY = 3# The download delay setting will honor only one of:#CONCURRENT_REQUESTS_PER_DOMAIN = 16#CONCURRENT_REQUESTS_PER_IP = 16# Disable cookies (enabled by default)#COOKIES_ENABLED = False# Disable Telnet Console (enabled by default)#TELNETCONSOLE_ENABLED = False# Override the default request headers:#DEFAULT_REQUEST_HEADERS = {# ’Accept’: ’text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8’,# ’Accept-Language’: ’en’,#}# Enable or disable spider middlewares# See https://docs.scrapy.org/en/latest/topics/spider-middleware.html#SPIDER_MIDDLEWARES = {# ’banciyuan.middlewares.BanciyuanSpiderMiddleware’: 543,#}# Enable or disable downloader middlewares# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#DOWNLOADER_MIDDLEWARES = {# ’banciyuan.middlewares.BanciyuanDownloaderMiddleware’: 543,#}# Enable or disable extensions# See https://docs.scrapy.org/en/latest/topics/extensions.html#EXTENSIONS = {# ’scrapy.extensions.telnet.TelnetConsole’: None,#}# Configure item pipelines# See https://docs.scrapy.org/en/latest/topics/item-pipeline.htmlITEM_PIPELINES = { ’banciyuan.pipelines.BanciyuanPipeline’: 1,}IMAGES_STORE = ’./images’# Enable and configure the AutoThrottle extension (disabled by default)# See https://docs.scrapy.org/en/latest/topics/autothrottle.html#AUTOTHROTTLE_ENABLED = True# The initial download delay#AUTOTHROTTLE_START_DELAY = 5# The maximum download delay to be set in case of high latencies#AUTOTHROTTLE_MAX_DELAY = 60# The average number of requests Scrapy should be sending in parallel to# each remote server#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0# Enable showing throttling stats for every response received:#AUTOTHROTTLE_DEBUG = False# Enable and configure HTTP caching (disabled by default)# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings#HTTPCACHE_ENABLED = True#HTTPCACHE_EXPIRATION_SECS = 0#HTTPCACHE_DIR = ’httpcache’#HTTPCACHE_IGNORE_HTTP_CODES = []#HTTPCACHE_STORAGE = ’scrapy.extensions.httpcache.FilesystemCacheStorage’

5.爬取結果

Python爬蟲實戰(zhàn)之使用Scrapy爬取豆瓣圖片

reference

源碼

到此這篇關于Python爬蟲實戰(zhàn)之使用Scrapy爬取豆瓣圖片的文章就介紹到這了,更多相關Scrapy爬取豆瓣圖片內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持好吧啦網(wǎng)!

相關文章:
成人在线亚洲_国产日韩视频一区二区三区_久久久国产精品_99国内精品久久久久久久
免费看精品久久片| 欧美福利视频一区| 欧美一区二区三区四区五区| 丝袜美腿亚洲一区| 国产日韩欧美精品| 中文字幕高清一区| 91在线观看下载| 日韩精品专区在线影院重磅| 美女一区二区久久| 欧日韩精品视频| 美女一区二区视频| 欧美日韩欧美一区二区| 久久精品国产精品青草| 一本一道综合狠狠老| 亚洲第一主播视频| 模特精品在线| 午夜精品福利在线| 日本韩国一区二区三区视频| 午夜精品爽啪视频| 国产精品区二区三区日本| 亚洲精品久久久久久国产精华液| 亚洲狠狠婷婷| 亚洲免费观看在线观看| 中文在线不卡| 亚洲综合视频网| 亚洲影视综合| 午夜久久福利影院| 色婷婷久久久综合中文字幕| 免费日本视频一区| 欧美日韩国产小视频| 国产高清精品网站| 欧美精品一区二区精品网| 色综合视频在线观看| 欧美激情一二三区| 亚洲手机在线| 一区二区三区四区中文字幕| 免费精品视频| 美国欧美日韩国产在线播放| 精品视频在线免费看| 国产乱人伦偷精品视频不卡| 欧美成人性福生活免费看| 欧美在线一二三区| 97久久超碰国产精品| 国产精品女主播av| 国产亚洲高清视频| 日韩中文字幕麻豆| 欧美日韩在线电影| 丁香婷婷综合网| 亚洲国产高清aⅴ视频| 99re66热这里只有精品4| 午夜精品福利在线| 欧美肥妇毛茸茸| 色综合视频在线观看| 亚洲免费观看高清完整版在线观看 | 国产一区二区三区精品欧美日韩一区二区三区 | 99久久精品免费看国产| 欧美激情一区二区三区不卡| 国产精品毛片在线| 毛片av中文字幕一区二区| 欧美一区二区性放荡片| 欧美日产一区二区三区在线观看| 亚洲欧美日韩国产另类专区| 久久国产一区二区| 国产精品一二三| 国产精品无人区| 欧美一进一出视频| 国产毛片精品一区| 中文字幕不卡在线观看| 先锋亚洲精品| 国产福利一区在线| 国产精品对白交换视频 | 色综合久久天天综合网| 成人一区在线看| 亚洲女子a中天字幕| 欧美日韩一区国产| 欧美日韩精品一本二本三本| 午夜精品久久久久久久蜜桃app| 欧美日本免费一区二区三区| 国内精品久久久久久久97牛牛 | 欧美婷婷久久| 日产欧产美韩系列久久99| 精品噜噜噜噜久久久久久久久试看| 伊人激情综合| 久久精品国产精品亚洲精品| 国产亚洲一区二区三区四区| 美女久久一区| 豆国产96在线|亚洲| 亚洲精品ww久久久久久p站| 欧美日本在线看| 亚洲黄色大片| 国产伦精品一区二区三区免费| 中文字幕中文字幕中文字幕亚洲无线 | 麻豆精品视频在线观看免费| 国产精品污网站| 欧美日韩另类一区| 亚洲精品资源| 精品一区二区三区欧美| 国产精品色在线观看| 欧美日韩成人在线一区| 亚洲精品看片| 国产成人夜色高潮福利影视| 一区二区三区美女| xnxx国产精品| 在线观看视频一区二区| 合欧美一区二区三区| 国产原创一区二区| 一区二区欧美在线观看| 亚洲精品一区二区三区影院| 久久一二三四| 午夜日韩视频| 国产综合色视频| 伊人一区二区三区| 精品国产精品一区二区夜夜嗨| 一本大道久久精品懂色aⅴ| 国产精品va| 国产福利一区二区三区在线视频| 亚洲高清不卡在线观看| 欧美激情在线一区二区三区| 在线不卡一区二区| 久久精品主播| 亚洲国产精品第一区二区三区 | 亚洲午夜久久久久久久久电影院| 亚洲精品一区二区三区四区高清| 一本色道久久综合亚洲91| 国模大胆一区二区三区| 国产99久久久国产精品免费看 | av亚洲精华国产精华精| 六月婷婷色综合| 亚洲一区欧美一区| 国产欧美精品一区| 欧美一区二区免费视频| 91成人在线观看喷潮| 国产精品一区二区在线观看 | 日韩美女一区二区三区| 色欧美日韩亚洲| 91久久精品国产91久久性色tv| 成人av在线影院| 国产一区二区三区免费| 日本视频在线一区| 亚洲精品伦理在线| 中文幕一区二区三区久久蜜桃| 欧美成人女星排行榜| 欧美精品在线观看播放| 色屁屁一区二区| 国产精品一区二区欧美| 激情欧美亚洲| 欧美午夜精品| 91污在线观看| 成人免费视频网站在线观看| 精品一区二区三区不卡 | 激情久久综合| 91丝袜美腿高跟国产极品老师 | 亚洲成人精品一区| 一区二区三区色| 中文字幕在线不卡| 中文欧美字幕免费| 久久久精品国产99久久精品芒果| 欧美一区二区三区男人的天堂| 欧美色综合网站| 色视频成人在线观看免| 乱码第一页成人| 亚洲一区一卡| 国产精品五区| 国产精品一级| 国产伦精品一区二区三区照片91 | 韩国毛片一区二区三区| 日本不卡视频在线| 石原莉奈在线亚洲三区| 亚洲大尺度视频在线观看| 亚洲一区在线观看免费| 亚洲最大色网站| 亚洲一区二区三区四区的| 亚洲一区二区三区在线看| 一级中文字幕一区二区| 亚洲伊人伊色伊影伊综合网| 亚洲一区欧美一区| 亚洲一区二区三区四区在线观看| 亚洲精品欧美激情| 亚洲综合久久久久| 夜夜嗨av一区二区三区中文字幕| 一区二区在线观看av| 亚洲第一会所有码转帖| 亚洲va国产天堂va久久en| 亚洲第一福利视频在线| 午夜久久福利影院| 蜜臀精品久久久久久蜜臀| 蜜桃视频第一区免费观看| 国内成人自拍视频| 国产成人久久精品77777最新版本| 国产91精品精华液一区二区三区| 成人av网站免费观看| 色综合天天综合色综合av| 国产精品激情电影| 亚洲日本黄色| 性xx色xx综合久久久xx| 欧洲一区二区av| 欧美丰满高潮xxxx喷水动漫| 精品久久久三级丝袜| 国产精品网站导航| 亚洲精品久久久蜜桃|