成人在线亚洲_国产日韩视频一区二区三区_久久久国产精品_99国内精品久久久久久久

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

java - 使用Webmagic網(wǎng)頁(yè)無(wú)法下載

瀏覽:188日期:2024-01-09 17:41:53

問(wèn)題描述

使用webmagic進(jìn)行簡(jiǎn)單的網(wǎng)頁(yè)數(shù)據(jù)爬取時(shí),遇到了網(wǎng)頁(yè)無(wú)法下載的問(wèn)題,不過(guò)在調(diào)試的時(shí)候,偶爾也會(huì)出現(xiàn)可以下載的情況,挺令人抓狂,在網(wǎng)上多次搜索,沒(méi)有找到相關(guān)的解決辦法,自己代碼能力有限,還不能看懂問(wèn)題所在,還請(qǐng)大神出手相救。報(bào)的錯(cuò)誤

2017-03-31 13:55:54,610 WARN [us.codecraft.webmagic.downloader.HttpClientDownloader] - download page http://www.neofactory.co.jp/product_detail/000004/ errorjava.net.SocketTimeoutException: Read timed out at java.net.SocketInputStream.socketRead0(Native Method) at java.net.SocketInputStream.socketRead(Unknown Source) at java.net.SocketInputStream.read(Unknown Source) at java.net.SocketInputStream.read(Unknown Source) at org.apache.http.impl.io.SessionInputBufferImpl.streamRead(SessionInputBufferImpl.java:139) at org.apache.http.impl.io.SessionInputBufferImpl.fillBuffer(SessionInputBufferImpl.java:155) at org.apache.http.impl.io.SessionInputBufferImpl.readLine(SessionInputBufferImpl.java:284) at org.apache.http.impl.conn.DefaultHttpResponseParser.parseHead(DefaultHttpResponseParser.java:140) at org.apache.http.impl.conn.DefaultHttpResponseParser.parseHead(DefaultHttpResponseParser.java:57) at org.apache.http.impl.io.AbstractMessageParser.parse(AbstractMessageParser.java:261) at org.apache.http.impl.DefaultBHttpClientConnection.receiveResponseHeader(DefaultBHttpClientConnection.java:165) at org.apache.http.impl.conn.CPoolProxy.receiveResponseHeader(CPoolProxy.java:167) at org.apache.http.protocol.HttpRequestExecutor.doReceiveResponse(HttpRequestExecutor.java:272) at org.apache.http.protocol.HttpRequestExecutor.execute(HttpRequestExecutor.java:124) at org.apache.http.impl.execchain.MainClientExec.execute(MainClientExec.java:271) at org.apache.http.impl.execchain.ProtocolExec.execute(ProtocolExec.java:184) at org.apache.http.impl.execchain.RetryExec.execute(RetryExec.java:88) at org.apache.http.impl.execchain.RedirectExec.execute(RedirectExec.java:110) at org.apache.http.impl.client.InternalHttpClient.doExecute(InternalHttpClient.java:184) at org.apache.http.impl.client.CloseableHttpClient.execute(CloseableHttpClient.java:82) at org.apache.http.impl.client.CloseableHttpClient.execute(CloseableHttpClient.java:107) at us.codecraft.webmagic.downloader.HttpClientDownloader.download(HttpClientDownloader.java:102) at us.codecraft.webmagic.Spider.processRequest(Spider.java:404) at us.codecraft.webmagic.Spider$1.run(Spider.java:321) at us.codecraft.webmagic.thread.CountableThreadPool$1.run(CountableThreadPool.java:74) at java.util.concurrent.ThreadPoolExecutor.runWorker(Unknown Source) at java.util.concurrent.ThreadPoolExecutor$Worker.run(Unknown Source) at java.lang.Thread.run(Unknown Source)

我的代碼

import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import java.net.SocketTimeoutException;import java.util.ArrayList;import java.util.Date;import java.util.regex.Matcher;import java.util.regex.Pattern;import jxl.Cell;import jxl.Sheet;import jxl.Workbook;import jxl.read.biff.BiffException;import us.codecraft.webmagic.Page;import us.codecraft.webmagic.Site;import us.codecraft.webmagic.Spider;import us.codecraft.webmagic.processor.PageProcessor;public class GithubRepoPageProcessor implements PageProcessor { jxl.Workbook readwb=null; String[] a=new String[]{}; Goodsdata gd=new Goodsdata(); DatabaseControl dc=new DatabaseControl(); static ArrayList<String>list=new ArrayList<String>(); private Site site = Site.me().setRetryTimes(3).setSleepTime(100).setCharset('Shift_JIS'); public void process(Page page) {String todey_status='';String maker_no='';String oem_no='';String color='';String material='';String size='';String innerGoods='';String rightMor='';String warning='';String introduction='';String referedGoods='';String similiarGoods='';String similiarGoodscheck='';maker_no=page.getHtml().xpath('//p[1]//p[2]//p[2]//table[5]//tbody//tr[4]//td//table//tbody//tr[2]//td[1]/text()').get();oem_no=page.getHtml().xpath('//p[1]//p[2]//p[2]//table[5]//tbody//tr[4]//td//table//tbody//tr[2]//td[2]/text()').get();color=page.getHtml().xpath('//p[1]//p[2]//p[2]//table[5]//tbody//tr[4]//td//table//tbody//tr[4]//td[1]/text()').get();material=page.getHtml().xpath('//p[1]//p[2]//p[2]//table[5]//tbody//tr[4]//td//table//tbody//tr[4]//td[2]/text()').get();size=page.getHtml().xpath('//p[1]//p[2]//p[2]//table[5]//tbody//tr[4]//td//table//tbody//tr[6]//td/text()').get();innerGoods=page.getHtml().xpath('//p[1]//p[2]//p[2]//table[5]//tbody//tr[4]//td//table//tbody//tr[8]//td/text()').get();rightMor=page.getHtml().xpath('//p[1]//p[2]//p[2]//table[5]//tbody//tr[4]//td//table//tbody//tr[10]//td/text()').get();warning=page.getHtml().xpath('//p[1]//p[2]//p[2]//table[5]//tbody//tr[4]//td//table//tbody//tr[12]//td/text()').get();introduction=page.getHtml().xpath('//p[1]//p[2]//p[2]//table[5]//tbody//tr[4]//td//table//tbody//tr[14]//td/text()').get();String todey_status_check=page.getHtml().xpath('//p[1]//p[2]//p[2]//table[4]//tbody//tr//td').get();if(todey_status_check.contains('売り切れ中です。')){ todey_status='0';}else{ String[] str=null; str=todey_status_check.split('>'); todey_status=RegexString(str[str.length-2],'d{1,2}');}String html=page.getHtml().toString();a=html.split('n');if(page.getHtml().xpath('//p[1]//p[2]//p[2]//table[6]//tbody//tr[1]//td//table//tbody//tr[1]//th').match()){ for(int i=0;i<a.length;i++){if(!a[i].contains('この商品の関連商品')){ continue;}else{ for(int j=i+1;j<a.length;j++){if(a[j].contains('</table>')){ referedGoods=referedGoods.substring(0, referedGoods.length()-1); break;}else{ if(a[j].contains('商品番號(hào)')){ String regEx='d{6}|bw{2,3}d{3,4}'; referedGoods=referedGoods+'nf-'+RegexString(a[j],regEx)+':';//調(diào)用正則函數(shù)表達(dá)式函數(shù),返回關(guān)聯(lián)商品番號(hào)] }} }} }}if (page.getHtml().xpath('//p[1]//p[2]//p[2]//table[6]//tbody//tr[2]//td//table//tbody//tr[1]//th//strong').match()) { similiarGoodscheck = page.getHtml() .xpath('//p[1]//p[2]//p[2]//table[6]//tbody//tr[2]//td//table//tbody//tr[1]//th//strong/text()') .get(); for (int i = 0; i < a.length; i++) {if (!a[i].contains(similiarGoodscheck)) { continue;} else { for (int j = i + 1; j < a.length; j++) {if (a[j].contains('</table>')) { similiarGoods = similiarGoods.substring(0, similiarGoods.length() - 1); break;} else { if (a[j].contains('商品番號(hào)')) {String regEx = 'd{6}|bw{2,3}d{3,4}';similiarGoods = similiarGoods + 'nf-' + RegexString(a[j], regEx) + ':';// 調(diào)用正則函數(shù)表達(dá)式函數(shù),返回關(guān)聯(lián)商品番號(hào)] }} }} }} // System.out.println(todey_status);//System.out.println(maker_no+' '+oem_no+' ');//System.out.println(color+' '+material+' '+size+' ');//System.out.println(innerGoods+' '+rightMor+' '+warning+' '+introduction);//System.out.println(referedGoods);//System.out.println(similiarGoods);gd.setMaker_no(maker_no);gd.setOem_no(oem_no);gd.setColor(color);gd.setMaterial(material);gd.setSize(size);gd.setInnerGoods(innerGoods);gd.setRightMor(rightMor);gd.setWarning(warning);gd.setIntroduction(introduction);gd.setReferedGoods(referedGoods);gd.setSimiliarGoods(similiarGoods);//dc.insert(gd); } public String RegexString(String targetStr,String patternStr){//正則表達(dá)式函數(shù),接收目標(biāo)html字符串,正則表達(dá)式String goodsnum=null;Pattern pt=Pattern.compile(patternStr);Matcher matcher=pt.matcher(targetStr);boolean rs=matcher.find();if(rs){ goodsnum=matcher.group();}return goodsnum; } public Site getSite() {return site; } public void openXls() throws BiffException, IOException{//獲得excel的內(nèi)容try { int column=0; InputStream instream=new FileInputStream('C:UsersxujioDesktopitemdatabase_neo.xls'); readwb=Workbook.getWorkbook(instream); Sheet readsheet =readwb.getSheet(0); int rsColumn=readsheet.getColumns(); int rsRows=readsheet.getRows(); for(int j=0;j<rsColumn;j++){Cell cell=readsheet.getCell(j, 0);if(cell.getContents().equals('管理番號(hào)')){ column=j; break;} } for(int i=1;i<rsRows;i++){String originNum=null;Cell cell=readsheet.getCell(column,i);originNum=cell.getContents();String[] numGoods=originNum.split('-');list.add(numGoods[1]); }} catch (Exception e) { e.printStackTrace();}finally{ readwb.close();} } public static void main(String[] args) {int check=0; String strNum=null;try { new GithubRepoPageProcessor().openXls();//讀取一個(gè).xls文件} catch (BiffException e) { // TODO Auto-generated catch block e.printStackTrace();} catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace();}for(int i=0;i<5;i++){ strNum=list.get(i);//獲取商品代號(hào) String url='http://www.neofactory.co.jp/product_detail/'+list.get(i)+'/';//獲取相關(guān)商品代號(hào)下的網(wǎng)頁(yè)的地址 Spider.create(new GithubRepoPageProcessor()).addUrl(url).thread(5).run();} }}

問(wèn)題解答

回答1:

親,你的異常信息里面,那個(gè)url好像本來(lái)就訪問(wèn)不了吧,所以404了,就爬不到數(shù)據(jù)了呀

標(biāo)簽: java
相關(guān)文章:
成人在线亚洲_国产日韩视频一区二区三区_久久久国产精品_99国内精品久久久久久久
91久久精品午夜一区二区| 99久久精品国产毛片| 成人中文字幕在线| 欧美伦理影视网| 奇米一区二区三区av| 男女精品网站| 污片在线观看一区二区| 性欧美精品高清| 亚州成人在线电影| 亚洲欧美大片| 亚洲sss视频在线视频| 国产精品综合| 亚洲已满18点击进入久久| 亚洲欧洲在线一区| 国产精品毛片无遮挡高清| 欧美一区不卡| 欧美激情一区在线观看| 91影院在线免费观看| 日韩欧美电影在线| 成人视屏免费看| 久久久久久久电影| 欧美在线一二三区| 国产精品理论在线观看| 影音欧美亚洲| 亚洲男人电影天堂| 小嫩嫩精品导航| 日韩不卡一区二区三区| 在线免费不卡电影| 国产资源在线一区| 日韩美一区二区三区| a亚洲天堂av| 中文字幕欧美激情| 伊人成人在线| 亚洲福利电影网| 欧洲一区在线电影| 国产成人综合在线播放| 日韩精品一区二区三区三区免费 | 欧美亚洲另类激情小说| 国产综合久久久久久久久久久久| 日韩欧美国产三级| 欧美日韩在线观看一区二区三区| 亚洲精品欧美二区三区中文字幕| 亚洲一区二区动漫| 日韩国产精品久久久| 欧美日韩国产影片| 成人妖精视频yjsp地址| 国产清纯在线一区二区www| 亚洲第一在线综合在线| 亚洲h精品动漫在线观看| 精品视频123区在线观看| av不卡一区二区三区| 国产精品毛片a∨一区二区三区| 日韩午夜电影| 免费在线观看视频一区| 欧美tickling网站挠脚心| 国产一区二区三区自拍| 亚洲综合成人网| 欧美日韩国产精品成人| 91蜜桃网址入口| 亚洲黄色免费网站| 欧美性色黄大片| av亚洲产国偷v产偷v自拍| 1区2区3区精品视频| 91极品美女在线| av成人免费在线| 夜夜嗨av一区二区三区中文字幕| 欧美色爱综合网| 欧美一区二区三区四区在线观看地址| 亚洲精品视频在线| 欧美挠脚心视频网站| 欧美精品一区二区视频| 日韩精品久久理论片| 精品久久久久99| 国产日产高清欧美一区二区三区| 麻豆视频一区二区| 久久久久久久久久久久电影| 国产亚洲欧美一区二区| 国产成人精品三级| 亚洲男同1069视频| 欧美日韩小视频| 欧美日产一区二区三区在线观看| 亚洲成人一二三| 欧美电视剧免费观看| 99精品欧美| 国产成a人亚洲精品| 一区二区在线观看免费| 67194成人在线观看| 亚洲一级二级| 国产又黄又大久久| 中文字幕亚洲区| 欧美日韩三级视频| 亚洲国产精品一区| 国产一本一道久久香蕉| 亚洲欧美成aⅴ人在线观看| 91精品在线麻豆| 国产女主播一区二区| 99久久久免费精品国产一区二区 | 97超碰欧美中文字幕| 午夜影院久久久| 国产人成亚洲第一网站在线播放| 色爱区综合激月婷婷| 国产精品啊啊啊| 老司机午夜精品| 亚洲柠檬福利资源导航| 日韩欧美的一区二区| 美女久久网站| 国产精品v欧美精品v日韩精品| 激情欧美一区二区| 一级日本不卡的影视| 2014亚洲片线观看视频免费| 狂野欧美一区| 亚洲国产激情| av网站免费线看精品| 欧美aⅴ一区二区三区视频| 国产精品国产精品国产专区不蜜| 制服丝袜在线91| 久久精品国产清高在天天线 | 伊人激情综合| 懂色av噜噜一区二区三区av| 日韩二区三区四区| 亚洲视频在线一区观看| 精品日韩99亚洲| 精品视频一区二区三区免费| 国产精品试看| 欧美人与禽性xxxxx杂性| 国产在线麻豆精品观看| 性感美女极品91精品| 最新国产成人在线观看| 精品国产一区二区三区不卡| 欧美午夜片在线看| 欧美一级二区| 亚洲精品一区二区三区蜜桃久| 93久久精品日日躁夜夜躁欧美| 国模一区二区三区白浆| 首页欧美精品中文字幕| 玉米视频成人免费看| 国产精品久久毛片av大全日韩| 欧美videossexotv100| 欧美精品一卡二卡| 色婷婷综合五月| 免费h精品视频在线播放| 在线日本成人| 欧美高清视频一区| 不卡电影一区二区三区| 国产一区二区免费看| 日韩黄色一级片| 亚洲一区视频在线观看视频| 亚洲国产经典视频| 亚洲精品在线免费播放| 日韩区在线观看| 日韩一区二区免费在线电影| 欧美亚洲综合一区| 色综合久久久网| 免费视频一区二区三区在线观看| 亚洲经典在线| 亚洲午夜在线观看| 亚洲视频高清| 狠狠综合久久| 国产在线不卡| 亚洲成色精品| 一本一本久久| 国产农村妇女精品一二区| 国产精品区一区| 性娇小13――14欧美| 久久xxxx| 日本国产一区二区| 欧美亚洲日本国产| 欧美三区在线观看| 欧美女孩性生活视频| 7777精品伊人久久久大香线蕉经典版下载 | 制服丝袜中文字幕一区| 欧美男人的天堂一二区| 欧美蜜桃一区二区三区| 69久久99精品久久久久婷婷| 69久久夜色精品国产69蝌蚪网| 717成人午夜免费福利电影| 欧美精品丝袜中出| 91麻豆精品国产91久久久久| 日韩亚洲欧美在线| 精品国产精品网麻豆系列| 精品久久五月天| 欧美精品一区男女天堂| 久久久无码精品亚洲日韩按摩| 国产喂奶挤奶一区二区三区| 日本一区二区三区国色天香| 国产精品久久国产精麻豆99网站| 亚洲蜜臀av乱码久久精品蜜桃| 亚洲午夜精品网| 日本中文字幕不卡| 狠狠色丁香久久婷婷综合_中| 国产一二三精品| 成人黄页在线观看| 欧美精品九九| 99国产一区| 久久一二三区| 欧美色图一区二区三区| 欧美精品日韩一区| 久久综合一区二区| 亚洲欧洲www| 午夜久久久影院|