python - Scrapy如何得到原始的start_url
問題描述
Scrapy爬蟲時(shí),由于重定向或是其他原因,會導(dǎo)致原始的start_url發(fā)生改變,怎樣才能得到原始的start_url?
def start_requests(self): start_url = ’your_scrapy_start_url’ yield Request(start_url, self.parse) def parse(self, response): item = YourItem() item[’start_url’] = 原始請求的start_url yield item
問題解答
回答1:參考文章:Scrapy爬蟲常見問題總結(jié)
利用Request中的meta參數(shù)傳遞信息
def start_requests(self): start_url = ’your_scrapy_start_url’ yield Request(start_url, self.parse, meta={’start_url’:start_url}) def parse(self, response): item = YourItem() item[’start_url’] = response.meta[’start_url’] yield item
相關(guān)文章:
1. Python處理Dict生成json2. sql語句 - 如何在mysql中批量添加用戶?3. python - 請問這兩個(gè)地方是為什么呢?4. 請教一個(gè)mysql去重取最新記錄5. 怎么php怎么通過數(shù)組顯示sql查詢結(jié)果呢,查詢結(jié)果有多條,如圖。6. mysql 非主鍵做范圍查找實(shí)現(xiàn)原理的一點(diǎn)困惑7. mysql 可以從 TCP 連接但是不能從 socket 鏈接8. java - jdbc如何返回自動(dòng)定義的bean9. 事務(wù) - mysql共享鎖lock in share mode的實(shí)際使用場景10. javascript - 按鈕鏈接到另一個(gè)網(wǎng)址 怎么通過百度統(tǒng)計(jì)計(jì)算按鈕的點(diǎn)擊數(shù)量
