成人在线亚洲_国产日韩视频一区二区三区_久久久国产精品_99国内精品久久久久久久

您的位置:首頁技術(shù)文章
文章詳情頁

python 開心網(wǎng)和豆瓣日記爬取的小爬蟲

瀏覽:235日期:2022-06-14 16:53:22
目錄項(xiàng)目地址:開心網(wǎng)日記爬取使用代碼豆瓣日記爬取使用代碼Roadmap項(xiàng)目地址:

https://github.com/aturret/python-crawler-exercise

用到了BeautifulSoup4,請(qǐng)先安裝。

pip install beautifulsoup4開心網(wǎng)日記爬取

kaixin001.py

使用

登錄開心網(wǎng),瀏覽器F12看http請(qǐng)求的header,獲取自己的cookie。

填寫cookie,要爬的日記的url,要爬的總次數(shù)。走你。

之后會(huì)生成HTML文件,格式是<:title>-<YYYYMMDDHHMMSS>

代碼

# -*- coding: utf-8 -*-from urllib.request import urlopenimport urllib.requestimport urllib.parse #為了獲取HTTP responsefrom bs4 import BeautifulSoup #BS4import string # 為了去掉空白字符import time # 防止被殺cookieimport unicodedata # 字符修正# 在這里放第一個(gè)鏈接urlx = ’鏈接’ #寫你想爬的文def request(url): global urlx #引用外面的鏈接作為全局變量,后面還會(huì)取下一個(gè)進(jìn)行循環(huán)的# 使用urllib庫提交cookie獲取http響應(yīng) headers = { ’GET https’:url, ’Host’:’ www.kaixin001.com’, ’Connection’:’ keep-alive’, ’Upgrade-Insecure-Requests’:’ 1’, ’User-Agent’:’ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36’, ’Accept’:’ application/json, text/javascript, */*; q=0.01’, ’Accept-Language’:’ zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7’, ’Cookie’:’ ’, #改成自己的cookie,自己瀏覽器打開網(wǎng)站F12調(diào)試,自己找http請(qǐng)求的header } request = urllib.request.Request(url=url,headers=headers) response = urllib.request.urlopen(request) contents = response.read()# 使用BS4獲得所有HTMLtag bsObj = BeautifulSoup(contents,'html.parser')# 使用BS4的find函數(shù)得到想要的東西:標(biāo)題、發(fā)表時(shí)間和博客正文 title = bsObj.find('b', attrs={'class':'f14'}) titleT = bsObj.find('b', attrs={'class':'f14'}).get_text() #開心網(wǎng)日記的標(biāo)題是一個(gè)b標(biāo)簽,class屬性值是f14 date = bsObj.find('span', attrs={'class':'c6'}) dateT = bsObj.find('span', attrs={'class':'c6'}).get_text() #開心網(wǎng)日記的發(fā)表時(shí)間是一個(gè)span標(biāo)簽,class屬性值是c6 text = bsObj.find('div', attrs={'class':'textCont'}) textT = bsObj.find('div', attrs={'class':'textCont'}).get_text() #開心網(wǎng)日記的正文是一個(gè)div標(biāo)簽,class屬性值是textCont # 測(cè)試輸出 print(title) print(dateT) # print(text) # 生成HTML文件。這里直接用file.open()和file.write()了,也可以用jinja2之類的框架生成。 remove = string.whitespace+string.punctuation table = str.maketrans(’:’,’:’,remove) fileTitle=str(titleT).replace(’:’,’:’).replace(’’’'’’’,’’’“’’’)+’-’+str(dateT).translate(table).replace(’發(fā)表’,’’)+’.html’ print(fileTitle) #測(cè)試輸出 f = open(fileTitle,’w’,encoding='utf-8') #注意用utf-8編碼寫入,不然會(huì)因?yàn)橐恍┡f博文采用的gbk編碼不兼容而出問題。# 寫入message message = ''' <html> <head></head> <body> <h1>%s</h1> <b>%s</b> <br></br> %s </body> </html>'''%(title.get_text(),date.get_text(),unicodedata.normalize(’NFD’,text.prettify())) f.write(message) f.close() # webbrowser.open(fileTitle,new = 1) # 定位下一篇博文的URL nextUrl=bsObj.find('a',text='下一篇 >').attrs['href'] #下一篇是一個(gè)a標(biāo)簽,使用tag對(duì)象的attrs屬性取href屬性的值。開心網(wǎng)的日記系統(tǒng)里,如果到了最后一篇日記,下一篇的鏈接內(nèi)容是第一篇日記,所以不用擔(dān)心從哪篇日記開始爬。 # print(nextUrl) urlx='http://www.kaixin001.com'+nextUrl print(urlx)# 主循環(huán),給爺爬num=328 #設(shè)定要爬多少次。其實(shí)也可以寫個(gè)數(shù)組檢測(cè)重復(fù)然后中止的啦,但我懶得弄了。for a in range(num): request(urlx)print(’We get ’+str(a+1)+’ in ’+str(num)) time.sleep(1) # 慢點(diǎn),慢點(diǎn)。測(cè)試過程中出現(xiàn)了沒有設(shè)置限制爬一半cookie失效了的情況,可能是太快了被搞了。豆瓣日記爬取

douban.py

使用

登錄豆瓣,瀏覽器F12看http請(qǐng)求的header,獲取自己的cookie。

填寫變量COOKIE,要爬的日記頁的url。走你。

之后會(huì)生成HTML文件,格式是<:title>-<YYYYMMDDHHMMSS>

代碼

# -*- coding: utf-8 -*-from urllib.request import urlopenimport urllib.requestimport urllib.parse #為了獲取HTTP responsefrom bs4 import BeautifulSoup #BS4import string # 為了去掉空白字符import unicodedata # 字符修正import re# 在這里放鏈接url = ’’ #寫你想爬的人 https://www.douban.com/people/xxx/notes 這樣COOKIE = ’’def request(urlx): global url #引用外面的鏈接作為全局變量,后面還會(huì)取下一個(gè)進(jìn)行循環(huán)的 global boolean global COOKIE# 使用urllib庫提交cookie獲取http響應(yīng) headers = { ’GET https’:urlx, ’Host’:’ www.douban.com’, ’Connection’:’ keep-alive’, ’Upgrade-Insecure-Requests’:’ 1’, ’User-Agent’:’ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36’, ’Accept’:’ application/json, text/javascript, */*; q=0.01’, ’Accept-Language’:’ zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7’, ’Cookie’:COOKIE, #改成自己的cookie,自己瀏覽器打開網(wǎng)站F12調(diào)試,自己找http請(qǐng)求的header } request = urllib.request.Request(url=urlx,headers=headers) response = urllib.request.urlopen(request) contents = response.read()# 使用BS4獲得所有HTMLtag bsObj = BeautifulSoup(contents,'html.parser')# 使用BS4的find函數(shù)獲取當(dāng)前頁面的所有日記鏈接 article = bsObj.find('div', attrs={'class':'article'}) titleSet = article.findAll('h3') # print(titleSet) for title in titleSet:titleText = title.findAll('a',attrs={'class':'j a_unfolder_n'})for link in titleText: noteUrl = str(link.attrs['href']) print(noteUrl) requestSinglePage(noteUrl) next = bsObj.find('a',text='后頁>') if next==None:print('結(jié)束了')boolean=1 else:url = str(next.attrs['href']).replace('&type=note','')print(url)def requestSinglePage(urly): global COOKIE headers = {’GET https’:urly,’Host’:’ www.douban.com’,’Connection’:’ keep-alive’,’Upgrade-Insecure-Requests’:’ 1’,’User-Agent’:’ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36’,’Accept’:’ application/json, text/javascript, */*; q=0.01’,’Accept-Language’:’ zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7’,’Cookie’:COOKIE, #改成自己的cookie,自己瀏覽器打開網(wǎng)站F12調(diào)試,自己找http請(qǐng)求的header } request = urllib.request.Request(url=urly,headers=headers) response = urllib.request.urlopen(request) contents = response.read() # 使用BS4獲得所有HTMLtag bsObj = BeautifulSoup(contents,'html.parser')# 使用BS4的find函數(shù)得到想要的東西:標(biāo)題、發(fā)表時(shí)間和博客正文 title = bsObj.find('h1').get_text() date = bsObj.find('span', attrs={'class':'pub-date'}) dateT = bsObj.find('span', attrs={'class':'pub-date'}).get_text() text = bsObj.find('div', attrs={'id':'link-report'}) # textT = bsObj.find('div', attrs={'class':'textCont'}).get_text()# 測(cè)試輸出 print(title) print(dateT) # 生成HTML文件。這里直接用file.open()和file.write()了,也可以用jinja2之類的框架生成。 remove = string.whitespace+string.punctuation # 去掉日期的標(biāo)點(diǎn)符號(hào) table = str.maketrans(’:’,’:’,remove) fileTitle=str(title)+’-’+str(dateT).translate(table)+’.html’ print(fileTitle) #測(cè)試輸出 f = open(fileTitle,’w’,encoding='utf-8') #注意用utf-8編碼寫入,不然會(huì)因?yàn)橐恍┡f博文采用的gbk編碼不兼容而出問題。 # 寫入message message = ''' <html> <head></head> <body> <h1>%s</h1> <b>%s</b> <br></br> %s </body> </html>'''%(title,dateT,unicodedata.normalize(’NFD’,text.prettify())) f.write(message) f.close()# 主循環(huán),給爺爬boolean=0while(boolean==0): a=1 request(url) print(’We finished page ’+str(a)+’ .’) a+=1Roadmap

豆瓣四月份時(shí)候還有bug,手機(jī)端可以看到全部日記,半年隱藏?zé)o效。最近修好了。

不過現(xiàn)在的隱藏依然沒有針對(duì)到具體的日記,或許可以想辦法通過其他手段爬下來。

以上就是python 開心網(wǎng)日記爬取的示例步驟的詳細(xì)內(nèi)容,更多關(guān)于python 開心網(wǎng)日記爬取的資料請(qǐng)關(guān)注好吧啦網(wǎng)其它相關(guān)文章!

標(biāo)簽: 豆瓣 Python 編程語言
相關(guān)文章:
成人在线亚洲_国产日韩视频一区二区三区_久久久国产精品_99国内精品久久久久久久
中文字幕巨乱亚洲| 欧美亚洲一区二区在线| 一区二区三区中文免费| 成人av资源在线观看| 欧美怡红院视频| 午夜久久电影网| 国产欧美日韩在线播放| 亚洲老司机在线| 一本色道久久综合亚洲精品婷婷| 一区在线观看免费| 1000部精品久久久久久久久| 欧美日韩无遮挡| 国产精品美女久久久久久久久久久| 91丨porny丨首页| 精品国产三级a在线观看| 成人avav影音| 久久久五月婷婷| 91玉足脚交白嫩脚丫在线播放| 欧美成人三级在线| eeuss鲁片一区二区三区| 日韩视频免费直播| 高清av一区二区| 日韩免费一区二区三区在线播放| 国产精品一区二区男女羞羞无遮挡| 3d动漫精品啪啪一区二区竹菊| 免费成人你懂的| 欧美日韩视频专区在线播放| 国产精品 日产精品 欧美精品| 日韩天堂在线观看| 色偷偷88欧美精品久久久| 日韩福利电影在线观看| 在线影视一区二区三区| 免费高清在线一区| 欧美少妇一区二区| 韩国精品主播一区二区在线观看| 欧美二区三区91| 国产精品一区二区男女羞羞无遮挡| 日韩一二三四区| 91丨porny丨最新| 亚洲女子a中天字幕| 久久美女性网| 精品无人区卡一卡二卡三乱码免费卡| 日韩视频在线观看一区二区| 91在线观看免费视频| 国产精品久久久久桃色tv| 亚洲激情女人| 亚洲h在线观看| 欧美精品久久久久久久久老牛影院| 国产精品一卡二卡在线观看| 26uuu国产日韩综合| 欧美精品福利| 亚洲一区二区三区四区在线| 欧美日韩一区成人| 成人黄色国产精品网站大全在线免费观看| 香蕉成人伊视频在线观看| 欧美探花视频资源| jvid福利写真一区二区三区| 国产精品美女久久久久aⅴ| 国产精品久久久一区二区三区| 一本一道波多野结衣一区二区| 国产尤物一区二区| 精品噜噜噜噜久久久久久久久试看 | 日韩午夜中文字幕| 欧美国产三级| 一区二区三区丝袜| 欧美日韩黄色一区二区| 91蜜桃婷婷狠狠久久综合9色| 亚洲欧美电影一区二区| 欧美日韩精品欧美日韩精品一综合| 北条麻妃国产九九精品视频| 国产精品超碰97尤物18| 色欧美乱欧美15图片| 成人永久看片免费视频天堂| 中文字幕日本乱码精品影院| 在线中文字幕一区二区| 99精品视频一区| 国产精品乱人伦| 精品国产一区二区三区不卡 | 亚洲精品在线视频观看| 久久成人免费日本黄色| 奇米精品一区二区三区在线观看| 欧美xxxxx牲另类人与| 亚洲最新在线| 国产精品自拍一区| 亚洲欧洲日韩在线| 伊伊综合在线| 国产中文字幕精品| 国产精品美女久久久久久久网站| 在线观看亚洲精品视频| 欧美久久一区| 制服丝袜亚洲网站| 亚洲精品在线二区| 国产精品99久久久久久久女警 | 欧美日韩免费视频| 国产一区二区三区无遮挡 | 一区二区三区免费网站| 欧美一区二区观看视频| 亚洲三级视频| 国产成人在线影院| 亚洲永久精品大片| 亚洲一区二区三区四区中文字幕| 精品裸体舞一区二区三区| 亚洲综合三区| 成人av免费观看| 亚洲va韩国va欧美va| 国产偷国产偷亚洲高清人白洁| 日本韩国精品在线| 国产精品v欧美精品v日韩| 美女视频第一区二区三区免费观看网站| 欧美国产精品中文字幕| 欧美久久一二三四区| 国产精品一区二区在线观看| 成人黄页毛片网站| 午夜精品国产更新| 欧美精彩视频一区二区三区| 欧美午夜在线一二页| 亚洲欧洲日韩综合二区| 国产一区二区三区av电影| 亚洲精品免费看| 久久日一线二线三线suv| 在线观看91精品国产入口| 亚洲无毛电影| 久久精品亚洲| 欧美视频成人| 国产成人精品aa毛片| 日本中文字幕一区| 亚洲免费在线视频| 国产精品推荐精品| 欧美成人嫩草网站| 国产另类ts人妖一区二区| 一区二区国产盗摄色噜噜| 国产喂奶挤奶一区二区三区| 欧美一区二区在线观看| 久久精品毛片| 亚洲欧洲日韩av| 国产无人区一区二区三区| 日韩欧美一区中文| 欧美日韩精品专区| 色哟哟精品一区| 一区二区三区欧美在线| 欧美 日韩 国产一区二区在线视频| 狠狠久久亚洲欧美| 亚洲亚洲人成综合网络| 国产欧美一二三区| 久久亚洲免费视频| 欧美一级艳片视频免费观看| 欧美亚洲国产一卡| 久久本道综合色狠狠五月| 亚洲夫妻自拍| 免费欧美日韩国产三级电影| 亚洲国产va精品久久久不卡综合| 综合色天天鬼久久鬼色| 国产欧美日韩不卡| 国产情人综合久久777777| 久久精品72免费观看| 性做久久久久久免费观看| 亚洲毛片av在线| 国产精品少妇自拍| 久久久久久久网| 欧美成人免费网站| 欧美成人精品高清在线播放| 91精品国产91久久久久久一区二区 | 亚洲欧洲av在线| 欧美国产精品v| 欧美国产欧美综合| 国产蜜臀av在线一区二区三区| 国产网红主播福利一区二区| 久久久久久久久久久久电影 | 亚洲经典视频在线观看| 欧美久久一级| 色综合久久中文综合久久牛| 99久久国产免费看| 99久久婷婷国产| av不卡在线观看| 美女视频一区二区三区| 美国三级日本三级久久99| 亚洲欧美日韩国产一区二区三区| 亚洲人成伊人成综合网小说| 亚洲丝袜美腿综合| 成人欧美一区二区三区1314| 一区在线播放视频| 亚洲人吸女人奶水| 一区二区免费在线播放| 亚洲图片有声小说| 丝袜a∨在线一区二区三区不卡| 日本三级亚洲精品| 久久99热国产| 国产sm精品调教视频网站| 成人午夜免费视频| 成人h动漫精品一区二区| 91视频观看免费| 日韩欧美一二区| 久久久久久久久一| 中文字幕欧美日本乱码一线二线| 亚洲国产激情av| 最新国产の精品合集bt伙计| 亚洲一区二区三区四区的| 日本va欧美va瓶| 国产成人在线视频免费播放| aaa亚洲精品|