文章詳情頁(yè)

基于Python采集爬取微信公眾號(hào)歷史數(shù)據(jù)

瀏覽：58日期：2022-07-04 10:10:04

鯤之鵬的技術(shù)人員將在本文介紹一種通過(guò)模擬操作微信App的方式采集指定公眾號(hào)的所有歷史數(shù)據(jù)的方法。

通過(guò)我們抓包分析發(fā)現(xiàn)，微信公眾號(hào)的歷史數(shù)據(jù)是通過(guò)HTTP協(xié)議加載的，對(duì)應(yīng)的API接口如下圖所示，其中有四個(gè)關(guān)鍵參數(shù)（__biz、appmsg_token、pass_ticket以及Cookie）。

為了能夠拿到這四個(gè)參數(shù)，我們需要模擬操作App，讓其產(chǎn)生這些參數(shù)，然后我們?cè)僮グ@取。對(duì)于模擬App操作，前面我們?cè)榻B過(guò)通過(guò)Python模擬安卓App的方法(詳見(jiàn)http://www.site-digger.com/html/articles/20180912/664.html)。對(duì)于HTTP集成抓包，前面我們?cè)榻B過(guò)Mitmproxy（詳見(jiàn)http://www.site-digger.com/html/articles/20181109/682.html）。

我們需要模擬操作微信完成如下步驟：

1. 啟動(dòng)微信App

2. 點(diǎn)擊'通訊錄'

3. 點(diǎn)擊'公眾號(hào)'

4. 點(diǎn)擊要采集的公眾號(hào)

5. 點(diǎn)擊右上角的用戶圖像圖標(biāo)

6. 點(diǎn)擊'全部消息'

基于Python采集爬取微信公眾號(hào)歷史數(shù)據(jù)

此時(shí)，我們可以從https://mp.weixin.qq.com/mp/profile_ext?action=home的應(yīng)答數(shù)據(jù)中捕獲__biz、appmsg_token以及pass_ticket三個(gè)關(guān)鍵參數(shù)，以及請(qǐng)求頭中的Cookie值。如下圖所示。

基于Python采集爬取微信公眾號(hào)歷史數(shù)據(jù)

有了上述四個(gè)參數(shù)，我們就可以構(gòu)造出獲取歷史文章列表的API請(qǐng)求，通過(guò)調(diào)用API接口直接獲取數(shù)據(jù)（不需要再模擬App操作）。核心參數(shù)如下所示，通過(guò)改變offset參數(shù)，可以拿到所有歷史數(shù)據(jù)。

# Cookie headers = {’Cookie’: ’rewardsn=; wxtokenkey=777; wxuin=584068438; devicetype=android-19; version=26060736; lang=zh_CN; pass_ticket=Rr8cO5c2******3tKGqe7aVZzV9TupvrK+1uHHmHYQGL2WFdKIE; wap_sid2=COKhxu4KElxckFZQ3QzTHU4WThEUk0zcWdrZjhGcUdYdEVSV3Y1X2NPWHNUakRrd1ZzMnpLTERpdE5rbmxjSTg******dlRBcUNRazZpOGxTZUVEQUTgNQJVO’} url = ’https://mp.weixin.qq.com/mp/profile_ext?’ data = {} data[’is_ok’] = ’1’ data[’count’] = ’10’ data[’wxtoken’] = ’’ data[’f’] = ’json’ data[’scene’] = ’124’ data[’uin’] = ’777’ data[’key’] = ’777’ data[’offset’] = ’0’ data[’action’] = ’getmsg’ data[’x5’] = ’0’ # 下面三個(gè)參數(shù)需要替換 # https://mp.weixin.qq.com/mp/profile_ext?action=home應(yīng)答數(shù)據(jù)里會(huì)暴漏這三個(gè)參數(shù) data[’__biz’] = ’MjM5MzQyOTM1OQ==’ data[’appmsg_token’] = ’993_V8%2BEmfVD7g%2FvMZ****4DNUJNFkg~~’ data[’pass_ticket’] = ’Rr8cO5c23ZngeQHRGy8E7gv*****pvrK+1uHHmHYQGL2WFdKIE’ url = url + urllib.urlencode(data)

以'數(shù)字工廠'這個(gè)微信公眾號(hào)為例，采集過(guò)程運(yùn)行截圖如下所示：

基于Python采集爬取微信公眾號(hào)歷史數(shù)據(jù)

輸出結(jié)果截圖如下所示：

基于Python采集爬取微信公眾號(hào)歷史數(shù)據(jù)

以上就是本文的全部?jī)?nèi)容，希望對(duì)大家的學(xué)習(xí)有所幫助，也希望大家多多支持好吧啦網(wǎng)。

微信 Python

上一條：Python環(huán)境配置實(shí)現(xiàn)pip加速過(guò)程解析下一條：Python基于execjs運(yùn)行js過(guò)程解析

相關(guān)文章：

1. CSS代碼檢查工具stylelint的使用方法詳解2. JavaScript數(shù)據(jù)類型對(duì)函數(shù)式編程的影響示例解析3. 利用CSS3新特性創(chuàng)建透明邊框三角4. CSS3實(shí)例分享之多重背景的實(shí)現(xiàn)(Multiple backgrounds)5. div的offsetLeft與style.left區(qū)別6. 不要在HTML中濫用div7. html清除浮動(dòng)的6種方法示例8. vue實(shí)現(xiàn)將自己網(wǎng)站(h5鏈接)分享到微信中形成小卡片的超詳細(xì)教程9. 詳解CSS偽元素的妙用單標(biāo)簽之美10. 使用css實(shí)現(xiàn)全兼容tooltip提示框

排行榜

					
					尤大大新活petite-vue的實(shí)現(xiàn)
利用CSS3新特性創(chuàng)建透明邊框三角
ASP.NET MVC實(shí)現(xiàn)橫向展示購(gòu)物車(chē)
如何利用python操作注冊(cè)表
如何使用Spring自定義Xml標(biāo)簽
Android View 事件防抖的兩種方案
SpringBoot集成Kafka的步驟
PHP?redis?Sorted?Set實(shí)現(xiàn)字符串去重代碼示例
前后端ajax和json數(shù)據(jù)交換方式
Vue封裝一個(gè)TodoList的案例與瀏覽器本地緩存的應(yīng)用實(shí)現(xiàn)
簡(jiǎn)述python四種分詞工具,盤(pán)點(diǎn)哪個(gè)更好用?
				

成人在线亚洲_国产日韩视频一区二区三区_久久久国产精品_99国内精品久久久久久久

基于Python采集爬取微信公眾號(hào)歷史數(shù)據(jù)