網(wǎng)頁爬蟲 - Java爬蟲已獲取圖片鏈接但是無法下載圖片
問題描述
利用爬蟲在html中獲取的相應(yīng)圖片資源src的代碼是這樣的

但是再通過代碼將資源轉(zhuǎn)成鏈接的形式下載圖片的時候,就報了400的錯誤

然而,我使用chrome去測試鏈接是否存在是,發(fā)現(xiàn),真正對方網(wǎng)站服務(wù)器能夠識別的是

也就是說我通過網(wǎng)頁獲得圖片資源的鏈接是http://www.neofactory.co.jp/i... 2.jpg然而,正常能夠獲取圖片的鏈接是http://www.neofactory.co.jp/i...
請各位大神指導(dǎo)之后應(yīng)該怎么辦,我在網(wǎng)上查了好多資料,還是沒有解決辦法。ps:奇怪的是我用Firefox的話,上面的那個鏈接也能得到圖片,我就百思不得其解了。
代碼:
public class Image {
private String urlNeo='';public String getUrlNeo() { return urlNeo;}public void setUrlNeo(String urlNeo) { this.urlNeo = urlNeo;}public String getHtml() throws Exception{ ArrayList<String> list=new ArrayList<String>();String line=''; String Html=''; URL url=new URL(urlNeo); URLConnection connection=url.openConnection(); InputStream in=connection.getInputStream(); InputStreamReader isr=new InputStreamReader(in); BufferedReader br=new BufferedReader(isr); while((line=br.readLine())!=null){Html+=line;list.add(line); } br.close(); isr.close(); in.close(); return Html;}public String getImgSrc() throws Exception{ String html=getHtml(); String IMGURL_REG_xpath='//p[1]/p[2]/p[2]/p/node()'; String imginfomation=''; JXDocument jxDocument = new JXDocument(html); imginfomation=(jxDocument.sel(IMGURL_REG_xpath).toString()).substring(1,jxDocument.sel(IMGURL_REG_xpath).toString().length() - 1); return imginfomation;}public List<String> getImgXpath() throws Exception{ String str=''; String IMGSRC_REG = 'img.product.w.*.jpg'; List<String> list1=new ArrayList<String>(); List<String> list2=new ArrayList<String>(); String listimg = getImgSrc(); Matcher matcher = Pattern.compile(IMGSRC_REG).matcher(listimg); while (matcher.find()) {list1.add(matcher.group()); } for(int i=1;i<=(list1.size()/2);i++){int j=i*2;list2.add(list1.get(j-1)); } return list2;}public void download(String admin_no) throws Exception{ List<String> list=new ArrayList<String>(); list=getImgXpath(); for(String img:list){System.out.println(img);String url='http://www.neofactory.co.jp/'+img;URL uri=new URL(url);URLConnection con=uri.openConnection();con.setConnectTimeout(5000);InputStream in=con.getInputStream();byte[] buf=new byte[1024];int length=0; File sf=new File('D:item_neo_photo'+admin_no);if(!sf.exists()){ sf.mkdirs();}String[] a=img.split('/');OutputStream os=new FileOutputStream(sf.getPath()+''+a[a.length-1]);while((length=in.read(buf))!=-1){ os.write(buf, 0, length);}os.close();in.close(); }}
}
問題解答
回答1:直接把域名+獲取的img src屬性拼起來不行么
回答2:url編碼下
相關(guān)文章:
1. javascript - 打算寫一個c++的node圖像處理模塊,有沒有推薦的c++圖片處理庫?2. java - 同步/異步與阻塞/非阻塞之間的差異具體是什么?3. html5 - 前端面試碰到了一個緩存數(shù)據(jù)的問題,來論壇上請教一下4. macos - 無法source activate python275. css - 移動端 盒子內(nèi)加overflow-y:scroll后 字體會變大6. java - butterknife怎么綁定多個view7. css3 讓圖片變成灰色(filter),但針對IE11瀏覽器無效8. angular.js - angularjs 怎么封裝 upload 上傳9. 運行python程序時出現(xiàn)“應(yīng)用程序發(fā)生異常”的內(nèi)存錯誤?10. android - Genymotion 模擬器可以做屏幕適配檢測嗎?

網(wǎng)公網(wǎng)安備