javascript - nodejs抓取網(wǎng)頁的問題
問題描述
我準備抓用nodejs抓取下面這個網(wǎng)站的所有新聞, 按照一般的思路,是首先取得每頁新聞的URL,然后取得每個新聞的URL按照使用request把每個網(wǎng)址的內(nèi)容取下來就OK了.
但是下面的這個網(wǎng)址的所有分頁信息, 還有每個新聞點擊進去URL都沒有任何變化, 貌似都是在后臺通過js實現(xiàn)的.用chrome的F12的newwork的tab也查看不到有什么請求,有哪位大神能指導一下我怎么來抓取嗎?
http://www.xxxxxxxxx.com/glob...
問題解答
回答1:1.從上一篇與下一篇的地方可以看到,click綁定的函數(shù):boardView(1);
2.通過boadrview在頁面中找到對應(yīng)的函數(shù):
function boardView(idx){ var listNum = 10; // ?? ? ?? var resultLenplistNum = Math.floor(idx/listNum); // ?? ??? ??? var resultLenRestlistNum = Math.floor(idx%listNum); // ?? ??? ??? if (resultLenRestlistNum == 0){ pageNum = resultLenplistNum; } else { pageNum = resultLenplistNum + 1; } cmsView.style.display = ’block’; cmsList.style.display = ’none’; resultViewStr = ’<p class='news_view'><p class='news_hd'>’; resultViewStr = resultViewStr + ’<strong>’+list.artCatTitles[resultSearch[idx]] +’</strong>’; resultViewStr = resultViewStr + ’<p>’+list.artTitles[resultSearch[idx]]+’</p>’; resultViewStr = resultViewStr + ’<span>’+list.artTimes[resultSearch[idx]]+’</span></p>’; resultViewStr = resultViewStr + ’<p class='news_bd'>’+list.artTexts[resultSearch[idx]]; resultViewStr = resultViewStr + list.artFiles[resultSearch[idx]]+’</p>’; resultViewStr = resultViewStr + ’<p class='news_link'><ul>’; resultViewStr = resultViewStr + ’<li><strong><span></span>’;
.........
3.看到數(shù)據(jù)來自于list這個變量,再尋找list
4.在1739行看到:
var artId = '';var catId = 'se14_24';var tplId = '';list = new jsList();list.cmsInit(catId, artId, tplId, new data()); // list ?? ??
5.調(diào)用了一個構(gòu)造函數(shù):jsList()找到相應(yīng)的代碼在這里:http://www.samsungsem.com/js/...
6 看回第2步的代碼:list.artTitles-->這些數(shù)據(jù)是通過jsList的cmsInit方法設(shè)置的,而cmsInit中:
function cmsInit(catId, artId, tplId, data) { this.artIds = data.artIds; this.artCatTitles = data.artCatTitles; this.artTitles = data.artTitles; this.artUrls = data.artUrls; this.artTimes = data.artTimes; this.artImgs = data.artImgs; this.artTexts = data.artTexts; this.artTexts2 = data.artTexts2; this.artKeywords = data.artKeywords; this.artFiles = data.artFiles;
...的數(shù)據(jù)來自第四個參數(shù)data
7.再看第4步的傳的data是new data()于是,我們找到data這個函數(shù)定義的地方。往上找,找到了:<script src='http://www.piao2010.com/global/news/data.js.jsp'></script>
8.打開后看一下:http://www.samsungsem.com/glo... 好奇怪的感覺,怎么樣式那么奇怪?
再右鍵查看源代碼:view-source:http://www.samsungsem.com/glo...可以看到data函數(shù)是在這里定義的,而你看到的數(shù)據(jù)也在這個頁面里。
回答2:多謝回答,我先去看看去.....
基本看明白了,還有一點不是很懂的地方再慢慢去看,多謝了..
相關(guān)文章:
1. MySQL的聯(lián)合查詢[union]有什么實際的用處2. PHP訂單派單系統(tǒng)3. 怎么能做出標簽切換頁的效果,(文字內(nèi)容隨動)4. mysql - sql 左連接結(jié)果union右連接結(jié)果,導致重復性計算怎么解決?5. 網(wǎng)頁爬蟲 - python 爬取網(wǎng)站 并解析非json內(nèi)容6. mysql 遠程連接出錯10060,我已經(jīng)設(shè)置了任意主機了。。。7. php多任務(wù)倒計時求助8. 數(shù)組排序,并把排序后的值存入到新數(shù)組中9. 默認輸出類型為json,如何輸出html10. mysql時間格式問題
