成人在线亚洲_国产日韩视频一区二区三区_久久久国产精品_99国内精品久久久久久久

您的位置:首頁技術文章
文章詳情頁

python實現Scrapy爬取網易新聞

瀏覽:192日期:2022-06-24 13:40:11
1. 新建項目

在命令行窗口下輸入scrapy startproject scrapytest, 如下

python實現Scrapy爬取網易新聞

然后就自動創建了相應的文件,如下

python實現Scrapy爬取網易新聞

2. 修改itmes.py文件

打開scrapy框架自動創建的items.py文件,如下

# Define here the models for your scraped items## See documentation in:# https://docs.scrapy.org/en/latest/topics/items.htmlimport scrapyclass ScrapytestItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() pass

編寫里面的代碼,確定我要獲取的信息,比如新聞標題,url,時間,來源,來源的url,新聞的內容等

class ScrapytestItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() title = scrapy.Field() timestamp = scrapy.Field() category = scrapy.Field() content = scrapy.Field() url = scrapy.Field() pass3. 定義spider,創建一個爬蟲模板3.1 創建crawl爬蟲模板

在命令行窗口下面 創建一個crawl爬蟲模板(注意在文件的根目錄下面,指令檢查別輸入錯誤,-t 表示使用后面的crawl模板),會在spider文件夾生成一個news163.py文件

scrapy genspider -t crawl codingce news.163.com

然后看一下這個‘crawl’模板和一般的模板有什么區別,多了鏈接提取器還有一些爬蟲規則,這樣就有利于我們做一些深度信息的爬取

import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Ruleclass CodingceSpider(CrawlSpider): name = ’codingce’ allowed_domains = [’163.com’] start_urls = [’http://news.163.com/’] rules = ( Rule(LinkExtractor(allow=r’Items/’), callback=’parse_item’, follow=True), ) def parse_item(self, response): item = {} #item[’domain_id’] = response.xpath(’//input[@id='sid']/@value’).get() #item[’name’] = response.xpath(’//div[@id='name']’).get() #item[’description’] = response.xpath(’//div[@id='description']’).get() return item3.2 補充知識:selectors選擇器

支持xpath和css,xpath語法如下

/html/head/title/html/head/title/text()//td (深度提取的話就是兩個/)//div[@class=‘mine’]3.3. 分析網頁內容

在谷歌chrome瀏覽器下,打在網頁新聞的網站,選擇查看源代碼,確認我們可以獲取到itmes.py文件的內容(其實那里面的要獲取的就是查看了網頁源代碼之后確定可以獲取的)

確認標題、時間、url、來源url和內容可以通過檢查和標簽對應上,比如正文部分

主體

python實現Scrapy爬取網易新聞

標題

python實現Scrapy爬取網易新聞

時間

python實現Scrapy爬取網易新聞

分類

python實現Scrapy爬取網易新聞

4. 修改spider下創建的爬蟲文件4.1 導入包

打開創建的爬蟲模板,進行代碼的編寫,除了導入系統自動創建的三個庫,我們還需要導入news.items(這里就涉及到了包的概念了,最開始說的?init?.py文件存在說明這個文件夾就是一個包可以直接導入,不需要安裝)

注意:使用的類ExampleSpider一定要繼承自CrawlSpider,因為最開始我們創建的就是一個‘crawl’的爬蟲模板,對應上

import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rulefrom scrapytest.items import ScrapytestItemclass CodingceSpider(CrawlSpider): name = ’codingce’ allowed_domains = [’163.com’] start_urls = [’http://news.163.com/’] rules = ( Rule(LinkExtractor(allow=r’.*.163.com/d{2}/d{4}/d{2}/.*.html’), callback=’parse’, follow=True), ) def parse(self, response): item = {} content = ’<br>’.join(response.css(’.post_content p::text’).getall()) if len(content) < 100: return return item

Rule(LinkExtractor(allow=r’..163.com/d{2}/d{4}/d{2}/..html’), callback=‘parse’, follow=True), 其中第一個allow里面是書寫正則表達式的(也是我們核心要輸入的內容),第二個是回調函數,第三個表示是否允許深入

最終代碼

from datetime import datetimeimport reimport scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rulefrom scrapytest.items import ScrapytestItemclass CodingceSpider(CrawlSpider): name = ’codingce’ allowed_domains = [’163.com’] start_urls = [’http://news.163.com/’] rules = ( Rule(LinkExtractor(allow=r’.*.163.com/d{2}/d{4}/d{2}/.*.html’), callback=’parse’, follow=True), ) def parse(self, response): item = {} content = ’<br>’.join(response.css(’.post_content p::text’).getall()) if len(content) < 100: return title = response.css(’h1::text’).get() category = response.css(’.post_crumb a::text’).getall()[-1] print(category, '=======category') time_text = response.css(’.post_info::text’).get() timestamp_text = re.search(r’d{4}-d{2}-d{2} d{2}:d{2}:d{2}’, time_text).group() timestamp = datetime.fromisoformat(timestamp_text) print(title, '=========title') print(content, '===============content') print(timestamp, '==============timestamp') print(response.url) return item

python實現Scrapy爬取網易新聞

到此這篇關于python實現Scrapy爬取網易新聞的文章就介紹到這了,更多相關python Scrapy爬取網易新聞內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Python 編程
相關文章:
成人在线亚洲_国产日韩视频一区二区三区_久久久国产精品_99国内精品久久久久久久
99久久久国产精品| 欧美va天堂va视频va在线| 日韩精品最新网址| 欧美成人a在线| 看电影不卡的网站| 成人久久视频在线观看| 牛牛国产精品| 麻豆成人精品| 日韩三级精品电影久久久| 国产精品你懂的在线| 亚洲人成精品久久久久久| 日韩国产欧美视频| 国产成人午夜视频| 欧美日韩99| 在线日韩一区二区| 亚洲精品一区二区三区影院 | 欧美一级视频| 欧美日本韩国一区二区三区视频| 国产日韩欧美精品一区| 日本麻豆一区二区三区视频| 国产精品久久久亚洲一区| 欧美一区二区精品久久911| 亚洲美女视频在线观看| 激情视频一区| 在线不卡免费av| 亚洲无人区一区| 成人深夜视频在线观看| 欧美精品一二三区| 国产一级精品在线| 黄色日韩在线| 最新国产成人在线观看| 国产成人精品影视| 日韩精品专区在线影院重磅| 粉嫩在线一区二区三区视频| 久久久久久婷| 久久精品一区蜜桃臀影院| 蜜芽一区二区三区| 成人丝袜高跟foot| 久久久久久一级片| 精品一区二区免费| 亚洲专区在线| 亚洲欧美综合色| 99久久精品久久久久久清纯| 国产日韩精品一区二区三区| 国产中文一区二区| 精品国产免费久久| 欧美三级网页| 精品av久久707| 99re热这里只有精品视频| 日本一区二区不卡视频| 精品无人码麻豆乱码1区2区 | 一区二区三区在线视频免费| 国产成人免费高清| 久久久噜噜噜久久中文字幕色伊伊| 欧美涩涩网站| 亚洲一区中文日韩| 国内精品福利| 亚洲猫色日本管| 久久一区免费| 国产精品亚洲人在线观看| 久久亚洲视频| 国产综合久久久久久鬼色| 久久人人九九| 国产一区二区视频在线播放| 久久欧美一区二区| 一本色道精品久久一区二区三区| 国产色产综合色产在线视频| aa日韩免费精品视频一| 日本一区二区三区免费乱视频| 亚洲精品欧洲| 国产精品午夜免费| 国产精品毛片| 国产在线观看免费一区| 日韩欧美一级片| 在线精品亚洲一区二区| 久久久久亚洲蜜桃| 亚洲日产国产精品| 奇米四色…亚洲| 精品国精品国产| 国产区二精品视| 久久精品国产网站| 久久精品一区二区| 91精品国产综合久久久久久漫画| 麻豆精品国产91久久久久久| 2023国产一二三区日本精品2022| 国产精品伊人色| 国产精品高潮久久久久无| 欧美三级网页| 日韩精品一区第一页| 午夜亚洲激情| 国产精品影视网| √…a在线天堂一区| 欧美亚洲国产bt| 蜜桃视频第一区免费观看| 久久亚区不卡日本| 亚洲少妇最新在线视频| 欧美三级午夜理伦三级中视频| 奇米精品一区二区三区在线观看 | 天天操天天色综合| 在线播放91灌醉迷j高跟美女| 久久亚洲精选| 中文字幕一区av| 日韩天堂av| 国产做a爰片久久毛片| 日韩三级在线免费观看| 亚洲大胆av| 国内精品伊人久久久久av一坑| 亚洲婷婷国产精品电影人久久| 在线不卡免费欧美| 亚洲第一伊人| 国产成人福利片| 亚洲美女淫视频| 欧美一区二区三区四区在线观看| 日韩视频一区二区三区在线播放免费观看| 韩国一区二区视频| 国产精选一区二区三区| 亚洲综合一二区| 久久综合九色综合97婷婷女人 | 99在线精品观看| 欧美日韩在线精品一区二区三区激情| 午夜精品久久| 久草这里只有精品视频| 国产精品久久久久影院老司| 欧美一区二区在线免费观看| 国产精品一区二区三区观看| 99精品视频一区二区三区| 日韩国产精品91| 国产精品国产三级国产有无不卡 | 欧美一区国产一区| 国产一区二区三区四| 亚洲国产成人高清精品| 国产精品视频在线看| 5858s免费视频成人| 色一区在线观看| 蜜乳av一区二区| 亚洲色大成网站www久久九九| 精品国产三级a在线观看| 欧美偷拍一区二区| 国产精品永久入口久久久| 91免费版pro下载短视频| 中文字幕中文乱码欧美一区二区| 欧美精品亚洲一区二区在线播放| 久久久99国产精品免费| 亚洲精品一区二区三区蜜桃久| 女生裸体视频一区二区三区| 国产91精品欧美| 免费不卡在线观看| 亚洲成人激情社区| 日韩一级免费观看| 色婷婷综合久色| 亚洲一区国产| 99国产精品久久久久久久成人热 | 欧美另类女人| zzijzzij亚洲日本少妇熟睡| 六月丁香婷婷久久| 香蕉久久夜色精品国产使用方法| 中文字幕人成不卡一区| 国产女人18水真多18精品一级做 | 久久午夜精品一区二区| 国产欧美韩日| 伊人激情综合| 欧美日韩1区| 欧美91视频| 欧美一区国产一区| 色综合天天视频在线观看| 国产精品区一区二区三区| 欧美成人激情免费网| 制服丝袜成人动漫| 欧美日韩和欧美的一区二区| 91成人网在线| 欧美日韩国产综合网| 成人一区在线观看| 国产一区二区成人久久免费影院| 久久福利视频一区二区| 蜜臀av性久久久久蜜臀av麻豆| 日韩高清在线观看| 日韩电影免费在线观看网站| 亚洲成a人v欧美综合天堂下载 | 精品国产91久久久久久久妲己 | 日本视频中文字幕一区二区三区| 亚州成人在线电影| 亚洲成人自拍一区| 亚洲二区视频在线| 亚洲一区二区三区影院| 一区二区激情小说| 亚洲乱码中文字幕| 欧美一区二区免费观在线| 欧美精品电影在线播放| 666欧美在线视频| 91精品国产手机| 精品捆绑美女sm三区| 精品国产髙清在线看国产毛片| 欧美精品一区二区三区蜜臀| 久久久久久夜精品精品免费| 久久久99久久精品欧美| 国产婷婷色一区二区三区在线| 中文字幕精品一区二区精品绿巨人| 国产精品国产三级国产普通话三级 | 久久一区二区视频| 欧美mv日韩mv国产网站|