python - beautifulSoup4 .select(’.bnrName’) 取不到到 text 文字
問題描述
背景: Python3 下使用 bs4 的 select 去獲取 ZOZO首頁上方的 coupon 信息中店鋪名字。 (國內ip貌似看不到優惠券信息,需要翻一下才能看到,最好是島國ip)
問題: 發現自己找不到他的店鋪名字在寫在什么地方,不知道怎么取,前端 js 不懂,請教諸位解答。謝謝。
自己的代碼如下:
import requests, bs4shopName = ’BEAUTY&YOUTH’url = ’http://zozo.jp/’def getZozoCoupon(): res = requests.get(url, headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36'}) res.raise_for_status() soup = bs4.BeautifulSoup(res.text, ’html.parser’) elems = soup.select(’.bnrName’) return elems[0].text.strip()
如下截圖中是想要獲取的文字,
發現查看源碼中卻沒有文字。
<p class='couponInfo'> <p class='bnrName'>說好的文字呢。。。</p> <p class='bnrText'></p></p>
請教他的文字是在哪實現的啊,要怎么用bs4 select才出來,謝謝。
問題解答
回答1:有可能用ajax從服務器獲取之后操作dom動態添加的吧,在瀏覽器里執行了js就文字也被添加進來。而你用爬蟲爬的時候沒有執行有關js所以也沒有添加文字。
要是真的這樣的話,你可以在瀏覽器的f12那里查看network,把獲取文字的那個http請求的url找出來,直接請求這個url獲取你需要的信息。
回答2:我在瀏覽器中打開http://zozo.jp/查看源代碼并沒有找到你所要找的bnrName
你在瀏覽器上右鍵“查看網頁源碼”看看能不能找得你那段文字,如果找不到,那網頁應該是用js或者ajax動態加載的,想要爬取這種動態頁面,兩種方法,要么是自己手動模擬請求,要么就用selenium去抓吧
回答4:確實是js生成的,已經采用headless瀏覽器模擬抓取了,謝謝大家!
相關文章:
1. angular.js - webpack build后的angularjs路由跳轉問題2. java - web項目中,用戶登陸信息存儲在session中好 還是cookie中好,取決于什么?3. 數組按鍵值封裝!4. mysql - 查詢字段做了索引為什么不起效,還有查詢一個月的時候數據都是全部出來的,如果分拆3次的話就沒問題,為什么呢。5. mysql 新增用戶 主機名設定 失敗6. 老師,怎么不講一次性添加多個數據7. mySql排序,序號8. 單擊登錄按鈕無反應9. mysql 創建root 用戶出錯,這是什么原因?mysql 中也沒有root用戶10. mysql - navicat 經常打開表一直在載入中 也不能關閉 著急解決
