文章詳情頁

python 爬蟲解析效率如何提升?

瀏覽：125日期：2022-06-29 17:26:48

問題描述

現(xiàn)在采用的是在windows 環(huán)境下采用多線程的方式進行爬取,使用beautifulsoup+lxml進行解析.

N個爬取線程->解析隊列->1個解析線程->存儲隊列->1個存儲線程

整個執(zhí)行程序的效率卡在計算密集的解析線程中，如果只是增加解析線程數(shù)量的話，反而增加線程切換開銷速度變慢。

請問下有什么辦法可以較為明顯的提升解析效率？

根據(jù)兩位大腿的說明準備采用異步爬取->解析隊列->N個解析進程->存儲隊列->存儲線程

準備開工

問題解答

回答1：

其實我覺得, 你在前面N個爬取線程可以換成協(xié)程/線程池實現(xiàn), 因為你在頻繁創(chuàng)建線程本省一種性能耗費, 用線程池雖然可以減少這部分的損耗, 但是上下文切換還是無法避免, 所以協(xié)程這方面, 應(yīng)該是比較合適的.1個解析線程換成進程池,多開幾個進程去計算密集處理, 其余應(yīng)該可以不用改, 如果還想再搞, 將核心部分用c/c++ 重寫咯, 希望可以幫到你

回答2：

我的做法是多進程。多進程的好處是當單機性能不夠的時候，可以隨時切換為分布式爬蟲。

回答3：

可以網(wǎng)上找下tornade異步爬蟲吧,我正在用這個

Python 編程

上一條：python - 想做一個批量ping的工具，請問用什么方法更快更好一點？下一條：python - django中找不到css等靜態(tài)文件

相關(guān)文章：

1. mac OSX10.12.4 (16E195)下Mysql 5.7.18找不到配置文件my.cnf2. mysql - 怎么生成這個sql表？3. mysql儲存json錯誤4. php - 公眾號文章底部的小程序二維碼如何統(tǒng)計？5. mysql - 表名稱前綴到底有啥用？6. mysql - 數(shù)據(jù)庫表中，兩個表互為外鍵參考如何解決7. Navicat for mysql 中以json格式儲存的數(shù)據(jù)存在大量反斜杠，如何去除？8. 在mybatis使用mysql的ON DUPLICATE KEY UPDATE語法實現(xiàn)存在即更新應(yīng)該使用哪個標簽?9. mysql - 數(shù)據(jù)庫建字段，默認值空和empty string有什么區(qū)別 11010. sql語句 - 如何在mysql中批量添加用戶？

排行榜

					
					angular.js - angular TypeError: Cannot read property ’id’ of undefined？
javascript - 求助：vue2.0中使用element ui遇到的問題
mysql - sysbench cpu測試的結(jié)果看不懂，求解
angular.js - 使用angularjs的路由調(diào)用界面，從controller上可以調(diào)用，但是頁面上獲取不到數(shù)據(jù)。
javascript - canvas toDataURL()跨域問題
在MySQL中，執(zhí)行了DELIMITER // 這個語句后分號還有什么作用？
javascript - 切換掉當前頁面后該頁面的js動畫會暫停？
sql語句 - 如何在mysql中批量添加用戶？
javascript - gif動圖導(dǎo)致頁面閃爍的問題
mac OSX10.12.4 (16E195)下Mysql 5.7.18找不到配置文件my.cnf
在mybatis使用mysql的ON DUPLICATE KEY UPDATE語法實現(xiàn)存在即更新應(yīng)該使用哪個標簽?
				

熱門標簽

成人在线亚洲_国产日韩视频一区二区三区_久久久国产精品_99国内精品久久久久久久

python 爬蟲 解析效率如何提升?

python 爬蟲解析效率如何提升?