成人在线亚洲_国产日韩视频一区二区三区_久久久国产精品_99国内精品久久久久久久

您的位置:首頁技術(shù)文章
文章詳情頁

爬蟲是什么?淺談爬蟲及繞過網(wǎng)站反爬取機(jī)制

瀏覽:390日期:2023-03-21 00:45:22

  爬蟲是什么呢,簡單而片面的說,爬蟲就是由計算機(jī)自動與服務(wù)器交互獲取數(shù)據(jù)的工具。爬蟲的最基本就是get一個網(wǎng)頁的源代碼數(shù)據(jù),如果更深入一些,就會出現(xiàn)和網(wǎng)頁進(jìn)行POST交互,獲取服務(wù)器接收POST請求后返回的數(shù)據(jù)。一句話,爬蟲用來自動獲取源數(shù)據(jù),至于更多的數(shù)據(jù)處理等等是后續(xù)的工作,這篇文章主要想談?wù)勁老x獲取數(shù)據(jù)的這一部分。爬蟲請注意網(wǎng)站的Robot.txt文件,不要讓爬蟲違法,也不要讓爬蟲對網(wǎng)站造成傷害。

  反爬及反反爬概念的不恰當(dāng)舉例

  基于很多原因(如服務(wù)器資源,保護(hù)數(shù)據(jù)等),很多網(wǎng)站是限制了爬蟲效果的。

  考慮一下,由人來充當(dāng)爬蟲的角色,我們怎么獲取網(wǎng)頁源代碼?最常用的當(dāng)然是右鍵源代碼。

  網(wǎng)站屏蔽了右鍵,怎么辦?

  拿出我們做爬蟲中最有用的東西 F12(歡迎討論)

  同時按下F12就可以打開了(滑稽)

  源代碼出來了!!

  在把人當(dāng)作爬蟲的情況下,屏蔽右鍵就是反爬取策略,F(xiàn)12就是反反爬取的方式。

  講講正式的反爬取策略

  事實(shí)上,在寫爬蟲的過程中一定出現(xiàn)過沒有返回數(shù)據(jù)的情況,這種時候也許是服務(wù)器限制了UA頭(user-agent),這就是一種很基本的反爬取,只要發(fā)送請求的時候加上UA頭就可以了…是不是很簡單?

  其實(shí)一股腦把需要不需要的Request Headers都加上也是一個簡單粗暴的辦法……

  有沒有發(fā)現(xiàn)網(wǎng)站的驗(yàn)證碼也是一個反爬取策略呢?為了讓網(wǎng)站的用戶能是真人,驗(yàn)證碼真是做了很大的貢獻(xiàn)。隨驗(yàn)證碼而來的,驗(yàn)證碼識別出現(xiàn)了。

  說到這,不知道是先出現(xiàn)了驗(yàn)證碼識別還是圖片識別呢?

  簡單的驗(yàn)證碼現(xiàn)在識別起來是非常簡單的,網(wǎng)上有太多教程,包括稍微進(jìn)階一下的去噪,二值,分割,重組等概念。可是現(xiàn)在網(wǎng)站人機(jī)識別已經(jīng)越發(fā)的恐怖了起來,比如這種:

  簡單講述一下去噪二值的概念

  將一個驗(yàn)證碼

變成

就是二值,也就是將圖片本身變成只有兩個色調(diào),例子很簡單,通過python PIL庫里的

  Image.convert("1")

  就能實(shí)現(xiàn),但如果圖片變得更為復(fù)雜,還是要多思考一下,比如

如果直接用簡單方式的話 就會變成

思考一些這種驗(yàn)證碼應(yīng)該怎么識別?這種時候 去噪 就派上了用處,根據(jù)驗(yàn)證碼本身的特征,可以計算驗(yàn)證碼的底色和字體之外的RGB值等,將這些值變成一個顏色,將字體留出。示例代碼如下,換色即可

  for x in range(0,image.size[0]):

  for y in range(0,image.size[1]):

  # print arr2[x][y]

  if arr[x][y].tolist()==底色:

  arr[x][y]=0

  elif arr[x][y].tolist()[0] in range(200,256) and arr[x][y].tolist()[1] in range(200,256) and arr[x][y].tolist()[2] in range(200,256):

  arr[x][y]=0

  elif arr[x][y].tolist()==[0,0,0]:

  arr[x][y]=0

  else:

  arr[x][y]=255

  arr是由numpy得到的,根據(jù)圖片RGB值得出的矩陣,讀者可以自己嘗試完善代碼,親自實(shí)驗(yàn)一下。

  細(xì)致的處理之后圖片可以變成

識別率還是很高的。

  在驗(yàn)證碼的發(fā)展中,還算清晰的數(shù)字字母,簡單的加減乘除,網(wǎng)上有輪子可以用,有些難的數(shù)字字母漢字,也可以自己造輪子(比如上面),但更多的東西,已經(jīng)足夠?qū)懸粋€人工智能了……(有一種工作就是識別驗(yàn)證碼…)

  再加一個小提示:有的網(wǎng)站PC端有驗(yàn)證碼,而手機(jī)端沒有…

  下一個話題!

  反爬取策略中比較常見的還有一種封IP的策略,通常是短時間內(nèi)過多的訪問就會被封禁,這個很簡單,限制訪問頻率或添加IP代理池就OK了,當(dāng)然,分布式也可以…

  IP代理池->左轉(zhuǎn)Google右轉(zhuǎn)baidu,有很多代理網(wǎng)站,雖然免費(fèi)中能用的不多 但畢竟可以。

  還有一種也可以算作反爬蟲策略的就是異步數(shù)據(jù),隨著對爬蟲的逐漸深入(明明是網(wǎng)站的更新?lián)Q代!),異步加載是一定會遇見的問題,解決方式依然是F12。以不愿透露姓名的網(wǎng)易云音樂網(wǎng)站為例,右鍵打開源代碼后,嘗試搜索一下評論

  數(shù)據(jù)呢?!這就是JS和Ajax興起之后異步加載的特點(diǎn)。但是打開F12,切換到NetWork選項卡,刷新一下頁面,仔細(xì)尋找,沒有秘密。

  哦,對了 如果你在聽歌的話,點(diǎn)進(jìn)去還能下載呢…

  僅為對網(wǎng)站結(jié)構(gòu)的科普,請自覺抵制盜版,保護(hù)版權(quán),保護(hù)原創(chuàng)者利益。

  如果說這個網(wǎng)站限制的你死死的,怎么辦?我們還有最后一計,一個強(qiáng)無敵的組合:selenium + PhantomJs

  這一對組合非常強(qiáng)力,可以完美模擬瀏覽器行為,具體的用法自行百度,并不推薦這種辦法,很笨重,此處僅作為科普。

  總結(jié)

  本文主要討論了部分常見的反爬蟲策略(主要是我遇見過的(聳肩))。主要包括 HTTP請求頭,驗(yàn)證碼識別,IP代理池,異步加載幾個方面,介紹了一些簡單方法(太難的不會!),以Python為主。希望能給初入門的你引上一條路。

成人在线亚洲_国产日韩视频一区二区三区_久久久国产精品_99国内精品久久久久久久
三级亚洲高清视频| 色噜噜狠狠色综合欧洲selulu| 999在线观看精品免费不卡网站| 欧美成人一级视频| 国产成人在线看| 538prom精品视频线放| 国产自产2019最新不卡| 欧美日韩国产大片| 国产一区二区三区在线看麻豆| 欧美日韩精品专区| 国产麻豆91精品| 欧美成人一区二区三区| 成人免费观看av| 欧美精品一区视频| 91丨九色丨蝌蚪丨老版| 国产清纯美女被跳蛋高潮一区二区久久w | 国产精品视频免费观看| 亚洲美女屁股眼交3| 99精品久久| 亚洲网友自拍偷拍| 奶水喷射视频一区| 蜜桃av一区二区| 欧美日韩国产另类一区| 高清日韩电视剧大全免费| 日韩精品最新网址| 欧美成人在线免费观看| 亚洲欧洲成人av每日更新| 亚洲国产一区二区三区在线播 | 老色鬼久久亚洲一区二区| 日本一区中文字幕| 欧美日韩中文精品| 国产成人综合精品三级| 精品国产精品网麻豆系列| 色综合网站在线| 国产精品国产自产拍高清av| 亚洲欧洲午夜| 婷婷丁香久久五月婷婷| 欧美性色黄大片手机版| 春色校园综合激情亚洲| 国产精品美女久久福利网站| 亚洲欧美卡通另类91av| 蓝色福利精品导航| 日韩女优毛片在线| 欧美日本不卡高清| 亚洲国产日韩精品| 欧美老女人第四色| 99精品桃花视频在线观看| 综合久久一区二区三区| 久久综合久久久| 国产成人欧美日韩在线电影| 国产拍欧美日韩视频二区| 国产一区91| 韩国在线一区二区| 国产日韩高清在线| 性娇小13――14欧美| 国产美女精品一区二区三区| 国产日本亚洲高清| 久久久99国产精品免费| 国产精品一二二区| 中文字幕一区二区三区四区| 久久综合精品一区| fc2成人免费人成在线观看播放| 亚洲视频在线观看三级| 在线精品视频免费播放| 成人aaaa免费全部观看| 亚洲视频免费在线| 欧美日韩中文字幕一区二区| 午夜精品区一区二区三| 丝袜美腿成人在线| 日韩美女天天操| 国产亚洲永久域名| 丁香天五香天堂综合| ㊣最新国产の精品bt伙计久久| 色悠悠亚洲一区二区| 成人小视频免费观看| 亚洲精品乱码久久久久久日本蜜臀| 精品视频一区三区九区| 欧美日韩三区| 久久超碰97人人做人人爱| 亚洲国产精品高清| 久久青草久久| 99精品一区二区三区| 视频一区免费在线观看| 久久久国际精品| 色88888久久久久久影院野外| 91在线精品一区二区| 日韩1区2区日韩1区2区| 国产午夜亚洲精品羞羞网站| 色婷婷激情一区二区三区| 色综合中文字幕国产| 一区二区三区中文字幕在线观看| 欧美一区二区性放荡片| 国产乱码精品| 波多野结衣的一区二区三区| 午夜国产精品影院在线观看| 久久久天堂av| 欧美日韩一区成人| 99国内精品| av激情综合网| 久久激情综合网| 亚洲主播在线观看| 国产午夜精品一区二区三区视频| 欧美午夜理伦三级在线观看| 亚洲精品日本| youjizz国产精品| 麻豆久久久久久久| 亚洲日本乱码在线观看| 日韩精品一区二区三区中文精品| 久久亚洲国产精品一区二区 | 精品国产成人在线影院| 日本黄色一区二区| 亚洲欧洲一区| 91麻豆123| 国产精品亚洲一区二区三区在线| 亚洲国产aⅴ天堂久久| 国产精品无码永久免费888| 欧美一级国产精品| 在线免费观看日本一区| 在线综合欧美| 欧美+亚洲+精品+三区| 国产精品一区二区免费不卡| 亚洲一二三专区| 中文字幕一区二区三区在线播放 | 在线免费亚洲电影| 国产欧美日本| 国产精品www994| 成人av免费在线观看| 精品一区二区三区香蕉蜜桃| 性久久久久久久| 亚洲综合色自拍一区| 中文字幕一区二区三区在线观看 | 日本欧美一区二区三区| 日韩美女啊v在线免费观看| 久久久国产午夜精品| 日韩精品一区二区三区三区免费| 在线一区二区视频| 美脚丝袜一区二区三区在线观看 | 国产精品国产精品| 91网址在线看| 懂色一区二区三区免费观看| 毛片不卡一区二区| 五月天一区二区三区| 亚洲一区中文日韩| 亚洲黄网站在线观看| 综合色中文字幕| 日本一区二区成人在线| 精品人在线二区三区| 日韩一区二区视频在线观看| 欧美吞精做爰啪啪高潮| 一本久久a久久免费精品不卡| 免费毛片一区二区三区久久久| 亚洲美女色禁图| 亚洲国产精品第一区二区三区| 欧美精品国产一区| 91麻豆视频网站| 99视频在线精品| 99久久99久久精品免费观看| 成人福利在线看| 成人动漫一区二区在线| 国产成人自拍高清视频在线免费播放| 精品一区二区三区av| 精品一区二区三区日韩| 精品一区二区三区在线播放| 久久精品国产**网站演员| 久久精品国产77777蜜臀| 久久国产夜色精品鲁鲁99| 精品一区二区三区免费毛片爱 | 亚洲另类视频| 在线看片欧美| 一本色道久久综合| 国产嫩草一区二区三区在线观看| 先锋影音久久| 色婷婷av一区二区三区大白胸| 噜噜噜久久亚洲精品国产品小说| 午夜在线精品偷拍| 久久九九国产| 欧洲精品中文字幕| 欧美日韩国产高清一区二区三区 | 亚洲综合一区二区| 亚洲成人中文在线| 日韩电影在线一区二区| 激情久久久久久久久久久久久久久久| 国产制服丝袜一区| 成人久久18免费网站麻豆 | 国产成人精品网址| 波多野结衣中文字幕一区二区三区| 成人黄色电影在线| 97se亚洲国产综合自在线不卡| 午夜精品久久| 亚洲欧洲精品一区| 午夜在线视频一区二区区别| 久久久水蜜桃| 欧美日韩aaaaaa| 欧美电影免费观看高清完整版在线观看| 精品国产91洋老外米糕| 国产精品国产三级国产| 亚洲国产成人av网| 久久se精品一区二区| www.亚洲人| 国产精品国产精品|