文章詳情頁(yè)
python - 請(qǐng)教如何爬取簡(jiǎn)書某一時(shí)間段發(fā)帖。
瀏覽:123日期:2022-07-11 10:45:01
問(wèn)題描述
我想爬取簡(jiǎn)書在某一時(shí)間段的帖子,比如 2013 年 4 月 13 — 2013 年 5 月 13
想嘗試的思路如下:
百度
利用百度的 site 語(yǔ)法
限定日期
觀察大約有 70 個(gè)帖子
google 的 site 語(yǔ)法
限定日期
觀察大約有 120 個(gè)帖子
實(shí)現(xiàn):用 Python 直接請(qǐng)求搜索的結(jié)果,然后把得到的網(wǎng)址重定向一下得到真正的簡(jiǎn)書網(wǎng)址,然后對(duì)真正的網(wǎng)址進(jìn)行請(qǐng)求
問(wèn)題
用這種方法得到的結(jié)果是否靠譜?請(qǐng)問(wèn)有更靠譜的方法嗎?
用 Google 還是用百度呢?
問(wèn)題解答
回答1:為了全面,你可以把主流的搜索引擎接口都拿來(lái)用,不一定要限制在某個(gè)搜索引擎接口上。我們有隊(duì)友搜索某些話題就是這么干的,因?yàn)橛械木W(wǎng)站站內(nèi)沒(méi)提供滿足需求的搜索方式,這個(gè)時(shí)候也只有借助搜索引擎了。不過(guò)通過(guò)搜索引擎搜索的方式信息可能不全面,robots協(xié)議規(guī)定了不能搜索的,搜索引擎不會(huì)收錄
相關(guān)文章:
1. node.js - mysql如何通過(guò)knex查詢今天和七天內(nèi)的匯總數(shù)據(jù)2. mysql 插入數(shù)值到特定的列一直失敗3. 360瀏覽器與IE瀏覽器有何區(qū)別???4. mysql - 百萬(wàn)行的表中是否盡量避免使用update等sql語(yǔ)句?5. python - 在使用Pycharm時(shí)經(jīng)??吹饺缦碌臉邮?,小括號(hào)里紅色的部分是什么意思呢?6. Python從URL中提取域名7. javascript - 新浪微博網(wǎng)頁(yè)版的字?jǐn)?shù)限制是怎么做的8. 怎么在網(wǎng)頁(yè)中設(shè)置圖片進(jìn)行左右滑動(dòng)9. javascript - 豆瓣的這個(gè)自適應(yīng)是怎么做的?10. javascript - 用jsonp抓取qq音樂(lè)總是說(shuō)回調(diào)函數(shù)沒(méi)有定義
排行榜

熱門標(biāo)簽