成人在线亚洲_国产日韩视频一区二区三区_久久久国产精品_99国内精品久久久久久久

您的位置:首頁技術文章
文章詳情頁

python 爬取嗶哩嗶哩up主信息和投稿視頻

瀏覽:204日期:2022-06-14 16:00:23
項目地址:

https://github.com/cgDeepLearn/BilibiliCrawler

項目特點 采取了一定的反反爬策略。 Bilibili更改了用戶頁面的api, 用戶抓取解析程序需要重構??焖匍_始 拉取項目, git clone https://github.com/cgDeepLearn/BilibiliCrawler.git 進入項目主目錄,安裝虛擬環境crawlenv(請參考使用說明里的虛擬環境安裝)。 激活環境并在主目錄運行crawl,爬取結果將保存在data目錄csv文件中。

ource activate crawlenvpython initial.py file # 初始化file模式python crawl_user.py file 1 100 # file模式,1 100是開始、結束bilibili的uid

進入data目錄查看抓取的數據,是不是很簡單!

如果需要使用數據庫保存和一些其他的設置,請看下面的使用說明

使用說明1.拉取項目

git clone https://github.com/cgDeepLearn/BilibiliCrawler.git2.進入項目主目錄, 安裝虛擬環境 若已安裝anaconda

conda create -n crawlenv python=3.6source activate crawlenv # 激活虛擬環境pip install -r requirements.txt 若使用virtualenv

virtualenv crawlenvsource crawlenv/bin/activate # 激活虛擬環境,windows下不用sourcepip install -r requirements.txt # 安裝項目依賴3. 修改配置文件

進入config目錄,修改config.ini配置文件(默認使用的是postgresql數據庫,如果你是使用的是postgresql,只需要將其中的參數替換成你的,下面其他的步驟可以忽略) 數據庫配置選擇其中一個你本地安裝的即可,將參數更換成你的 如果你需要更自動化的數據庫配置,請移步我的DB_ORM項目

[db_mysql]user = testpassword = testhost = localhostport = 3306dbname = testdb[db_postgresql]user = testpassword = testhost = localhostport = 5432dbname = testdb

然后修改conf.py中獲取配置文件的函數

def get_db_args(): ''' 獲取數據庫配置信息 ''' return dict(CONFIG.items(’db_postgresql’)) # 如果安裝的是mysql,請將參數替換為db_mysql

進入db目錄,修改basic.py的連接數據庫的DSN

# connect_str = 'postgresql+psycopg2://{}:{}@{}:{}/{}'.format(kwargs[’user’], kwargs[’password’], kwargs[’host’], kwargs[’port’], kwargs[’dbname’])# 若使用的是mysql,請將上面的connect_str替換成下面的connect_str = 'mysql+pymysql://{}:{}@{}:{}/{}?charset=utf8'.format(kwargs[’user’], kwargs[’password’], kwargs[’host’], kwargs[’port’], kwargs[’dbname’])# sqlite3,mongo等請移步我的DB_ORM項目,其他一些數據庫也將添加支持4. 運行爬蟲 在主目錄激活虛擬環境, 初次運行請執行

python initial.py db # db模式,file模式請將db換成file# file模式會將抓取結果保存在data目錄# db模式會將數據保存在設置好的數據庫中# 若再次以db模式運行將會drop所有表后再create,初次運行后請慎重再次使用!!!# 如果修改添加了表,并不想清空數據,請運行 python create_all.py 開始抓取示例

python crawl_user.py db 1 10000 # crawl_user 抓取用戶數據,db 保存在數據庫中, 1 10000為抓取起止idpython crawl_video_ajax.py db 1 100 # crawl_video_ajax 抓取視頻ajax信息保存到數據庫中,python crawl_user_video.py db 1 10000 #同時抓取user 和videoinfo# 示例為uid從1到100的user如果有投稿視頻則抓取其投稿視頻的信息,# 若想通過視頻id逐個抓取請運行python crawl_video_by_aid.py db 1 1000 爬取速率控制

程序內已進行了一些抓取速率的設置,但各機器cpu、mem不同抓取速率也不同,請酌情修改太快太慢請修改各crawl中的sleepsec參數,ip會被限制訪問頻率,overspeed會導致爬取數據不全,之后會添加運行參數speed(high, low),不用再手動配置速率

日志

爬取日志在logs目錄user, video分別為用戶和視頻的爬取日志storage為數據庫日志 如需更換log格式,請修改logger模塊

后臺運行

linux下運行python ......前面加上nohup,例如:

nohup python crawl_user db 1 10000

程序輸出保存文件,默認會包存在主目錄額nohup.out文件中,添加 > fielname就會保存在設置的文件中:

nohup python crawl_video_ajax.py db 1 1000 > video_ajaxup_1_1000.out # 輸出將保存在video_ajaxup_1_1000.out中 更多

程序多線程使用的生產者消費者模式中產生了程序運行的狀況的打印信息,類似如下

produce 1_1consumed 1_1...

如想運行更快,請在程序各項設置好后注釋掉其中的打印程序

# utils/pcModels.pyprint(’[+] produce %s_%s’ % (index, pitem)) # 請注釋掉print(’[-] consumed %s_%sn’ % (index, data)) # 請注釋掉更多

項目是單機多線程,若想使用分布式爬取,請參考Crawler-Celery

以上就是python 爬取嗶哩嗶哩up主信息和投稿視頻的詳細內容,更多關于python 爬取嗶哩嗶哩的資料請關注好吧啦網其它相關文章!

標簽: python 嗶哩嗶哩
相關文章:
成人在线亚洲_国产日韩视频一区二区三区_久久久国产精品_99国内精品久久久久久久
亚洲成人第一页| 久久久久成人黄色影片| 日韩欧美色综合| 美女mm1313爽爽久久久蜜臀| 1000部精品久久久久久久久| 亚洲精品一线二线三线| 粉嫩一区二区三区性色av| 欧美精品xxxxbbbb| 看电视剧不卡顿的网站| 久热re这里精品视频在线6| 亚洲精品视频在线观看网站| 国语自产精品视频在线看8查询8| 久久久国产精品不卡| www.性欧美| 欧美精品一区二区蜜臀亚洲| 成人一级视频在线观看| 欧美一区二区视频网站| 国产乱码字幕精品高清av| 欧美羞羞免费网站| 秋霞电影网一区二区| 久久一区中文字幕| 性做久久久久久免费观看| 亚洲欧美久久久久一区二区三区| 亚洲乱码中文字幕综合| 日韩亚洲欧美精品| 亚洲精品综合在线| 亚洲经典自拍| 一区二区三区日韩在线观看| 中文日韩欧美| 亚洲成av人片在www色猫咪| 午夜在线视频观看日韩17c| 午夜久久久久久久久| 色噜噜狠狠一区二区三区果冻| 日韩黄色小视频| 欧洲日韩一区二区三区| 久久国产精品99精品国产| 欧美性色欧美a在线播放| 精品一区二区三区在线播放| 51精品秘密在线观看| 成人精品免费视频| 国产欧美一区二区精品婷婷| 伊人久久久大香线蕉综合直播 | 最新久久zyz资源站| 亚洲精品在线二区| 亚洲成人福利片| 在线观看国产91| 国产一区二区三区久久悠悠色av| 日韩欧美中文字幕制服| 波多野结衣视频一区| 国产精品美女www爽爽爽| 国产欧美日韩综合一区在线观看 | 伊人开心综合网| 色综合久久久久久久久久久| 久久国产人妖系列| 精品乱码亚洲一区二区不卡| 亚洲国产91| 日本欧美在线观看| 欧美一区二区免费| 欧美三级乱码| 天堂久久久久va久久久久| 欧美区一区二区三区| 波多野结衣在线一区| 日本一区二区三区视频视频| 国产精品毛片va一区二区三区| 久久不见久久见免费视频1| 欧美一区二区免费视频| 欧美喷水视频| 亚洲成av人片在线观看无码| 欧美一区二区三区四区高清| 欧美激情在线| 亚洲国产成人精品视频| 在线播放欧美女士性生活| 99vv1com这只有精品| 亚洲国产色一区| 制服.丝袜.亚洲.另类.中文| 欧美日韩一区二区高清| 一区二区三区精密机械公司| 欧美视频在线播放| av成人免费在线观看| 亚洲精品国产视频| 欧美日韩成人一区| 欧美日本一区二区视频在线观看| 亚洲综合免费观看高清完整版| 欧美日韩电影在线播放| 欧美人与禽猛交乱配| 亚洲 欧美综合在线网络| 日韩美一区二区三区| 国产亚洲欧美另类一区二区三区| 国内精品自线一区二区三区视频| 国产农村妇女毛片精品久久麻豆| 色哟哟一区二区在线观看| 成人免费视频视频在线观看免费| 一区二区三区四区亚洲| 欧美一区二区三区白人| 国产日韩综合| 国产69精品久久久久777| 亚洲欧美另类小说视频| 欧美亚洲图片小说| 91在线视频官网| 男女视频一区二区| 国产精品久久毛片av大全日韩| 欧美午夜片在线观看| 国一区二区在线观看| 国产综合成人久久大片91| 亚洲天堂av一区| 日韩一级免费一区| 亚洲三级毛片| 国产.精品.日韩.另类.中文.在线.播放| 亚洲裸体xxx| 日韩精品最新网址| 麻豆av一区二区三区| 91蝌蚪国产九色| 久久99精品久久久久久动态图| 中文字幕亚洲欧美在线不卡| 欧美日韩国产综合一区二区| 日韩亚洲国产精品| 99久久精品国产一区二区三区| 日韩国产在线一| 亚洲欧洲在线观看av| 日韩精品一区二区三区中文精品| 久久精品二区| 欧美久久99| 国产成人在线免费观看| 亚洲成人免费看| 国产精品初高中害羞小美女文| 欧美日韩国产在线观看| 先锋影音久久| 国产自产精品| 福利电影一区二区三区| 丝袜美腿亚洲综合| 亚洲少妇中出一区| 久久综合国产精品| 欧美乱熟臀69xxxxxx| 免费看亚洲片| 国外精品视频| 91天堂素人约啪| 国产精品亚洲一区二区三区妖精 | 国产精品日韩一区二区| 欧美精品一线| 国产电影一区二区三区| 奇米影视一区二区三区小说| 亚洲老妇xxxxxx| 中文字幕不卡一区| 精品成人在线观看| 欧美理论在线播放| 91搞黄在线观看| 先锋影音久久久| 亚洲无线一线二线三线区别av| 丁香另类激情小说| 久久99热狠狠色一区二区| 亚洲高清不卡在线| 亚洲欧美另类小说视频| 中文一区二区在线观看| 精品国产乱码久久久久久牛牛| 欧美曰成人黄网| 久久精品91| 亚洲永久字幕| 亚洲国产日韩在线| 欧美精品黄色| 91蜜桃婷婷狠狠久久综合9色| 春色校园综合激情亚洲| 精品一区二区在线看| 日韩电影在线免费观看| 亚洲一区在线视频| 亚洲色图制服丝袜| 国产精品无人区| 国产三区在线成人av| 精品国产三级a在线观看| 日韩一区二区三| 欧美日韩国产小视频在线观看| 欧美综合一区二区三区| 色综合久久久久| 91高清视频在线| 欧洲人成人精品| 欧美日韩国产免费| 欧美日韩一区二区欧美激情| 欧美性大战xxxxx久久久| 色噜噜偷拍精品综合在线| 色先锋aa成人| 久久婷婷av| 色综合久久久久| 91行情网站电视在线观看高清版| 免费亚洲一区| 久久久久久网| 色成人在线视频| 欧美日韩在线综合| 欧美精品久久一区二区三区| 欧美顶级少妇做爰| 91精品福利在线一区二区三区 | 亚洲天堂2014| 亚洲欧美日韩在线不卡| 亚洲美女淫视频| 一区二区在线观看视频| 亚洲精选视频在线| 亚洲永久精品国产| 亚洲一区二区在线播放相泽| 午夜精品久久久久久不卡8050| 三级精品在线观看| 蜜桃传媒麻豆第一区在线观看| 国产尤物一区二区在线|