文章詳情頁

網頁爬蟲 - python的多進程怎么配合requests

瀏覽：172日期：2022-06-27 18:08:43

問題描述

這是單進程順序執行的代碼：

import requests,time,os,randomdef img_down(url): with open('{}'.format(str(random.random())+os.path.basename(url)),'wb') as fob:fob.write(requests.get(url).content)urllist=[]with open('urllist.txt','r+') as u: for a in u.readlines():urllist.append(a.strip())s=time.clock()for i in range(len(urllist)): img_down(urllist[i])e=time.clock()print ('time: %d' % (e-s))

這是多進程的代碼：

from multiprocessing import Poolimport requests,os,time,randomdef img_down(url): with open('{}'.format(str(random.random())+os.path.basename(url)),'wb') as fob:fob.write(requests.get(url).content)if __name__=='__main__': urllist=[] with open('urllist.txt','r+') as urlfob:for s in urlfob.readlines(): urllist.append(s.strip()) s=time.clock() p=Pool() for i in range(len(urllist)):p.apply_async(img_down,args=(urllist[i],)) p.close() p.join() e=time.clock()print ('time: {}'.format(e-s))

但是單進程和多進程花費的時間幾乎沒區別，問題大概是requests阻塞IO，請問理解的對不對，代碼該怎么修改達到多進程的目的？謝謝！

問題解答

回答1：

寫文件的瓶頸在磁盤IO，并不在CPU，你并行并沒有多大作用，你可以試試不要寫入文件再對比時間

回答2：

Pool 不帶參數的話是采用 os.cpu_count() or 1如果是單核CPU，或者采集不到數量就只有1個進程而已。

應該是這個原因。

Python 編程

上一條：Python這句話什么意思，語法有點怪？下一條：python3.x - Python中出現AttributeError: object has no attribute

相關文章：

1. 我在導入模板資源時遇到無法顯示的問題，請老師解答下2. python - 調用api輸出頁面，會有標簽出現，請問如何清掉？3. thinkphp6使用驗證器信息如何輸出到前端頁面4. javascript - h5微信中怎么禁止橫屏5. PHPExcel表格導入數據庫怎么導入6. 運行python程序時出現“應用程序發生異常”的內存錯誤？7. macos - 無法source activate python278. python - sqlalchemy更新數據報錯9. empty比isset更嚴格一點10. 預訂金和尾款分別支付

排行榜

					
					c++ - QWebEngineView加載url后直接點擊鏈接沒有反應要怎么解決？
android - Genymotion 模擬器可以做屏幕適配檢測嗎？
javascript - h5微信中怎么禁止橫屏
我在導入模板資源時遇到無法顯示的問題，請老師解答下
javascript - react如何獲取offsetX？
html5 - 前端面試碰到了一個緩存數據的問題，來論壇上請教一下
javascript - 打算寫一個c++的node圖像處理模塊,有沒有推薦的c++圖片處理庫？
css - 移動端 盒子內加overflow-y:scroll后 字體會變大
thinkphp6使用驗證器  信息如何輸出到前端頁面
macos - 無法source activate  python27
javascript - vue 初始化數據賦值報錯
				

熱門標簽

成人在线亚洲_国产日韩视频一区二区三区_久久久国产精品_99国内精品久久久久久久

網頁爬蟲 - python的多進程怎么配合requests