文章詳情頁(yè)

Java中用爬蟲進(jìn)行解析的實(shí)例方法

瀏覽：15日期：2022-08-19 10:50:30

我們都知道可以用爬蟲來找尋一些想要的數(shù)據(jù)，除了可以使用python進(jìn)行操作，我們最近學(xué)習(xí)的java同樣也支持爬蟲的運(yùn)行，本篇小編就教大家用java爬蟲來進(jìn)行網(wǎng)頁(yè)的解析，具體內(nèi)容請(qǐng)往下看：

1、springboot項(xiàng)目，引入jsoup

<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.10.2</version></dependency>

2、準(zhǔn)備解析對(duì)象

Content.javapackage com.asia.pojo;import lombok.AllArgsConstructor;import lombok.Data;import lombok.NoArgsConstructor;@Data@NoArgsConstructor@AllArgsConstructorpublic class Content { private String title; private String img; private String price;}

3、爬蟲工具類

HtmlParseUtil.javapackage com.asia.utils;import java.net.URL;import java.net.URLDecoder;import java.util.ArrayList;import java.util.List;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;import com.asia.pojo.Content;public class HtmlParseUtil {public static void main(String[] args) throws Exception {new HtmlParseUtil().parseJD('西瓜').forEach(System.out::println);}public List<Content> parseJD(String keywords) throws Exception {String url = 'https://search.jd.com/Search?keyword=' + URLDecoder.decode(keywords, 'GBK');// 解析網(wǎng)頁(yè).（Jsoup返回Document就是瀏覽器的Document對(duì)象）Document document = Jsoup.parse((new URL(url)), 30000);Element element = document.getElementById('J_goodsList');Elements elements = element.getElementsByTag('li');List<Content> list = new ArrayList<Content>();for (Element el : elements) {String src = el.getElementsByTag('img').eq(0).attr('data-lazy-img');String price = el.getElementsByClass('p-price').eq(0).text();String name = el.getElementsByClass('p-name').eq(0).text();list.add(new Content(name, src, price));}return list;}}

到此這篇關(guān)于Java中用爬蟲進(jìn)行解析的實(shí)例方法的文章就介紹到這了,更多相關(guān)Java中如何使用爬蟲進(jìn)行解析內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

Java

上一條：java 注解默認(rèn)值操作下一條：Java 利用binarySearch實(shí)現(xiàn)抽獎(jiǎng)計(jì)算邏輯

相關(guān)文章：

1. Laravel操作session和cookie的教程詳解2. html小技巧之td,div標(biāo)簽里內(nèi)容不換行3. XML入門的常見問題(一)4. css進(jìn)階學(xué)習(xí) 選擇符5. 將properties文件的配置設(shè)置為整個(gè)Web應(yīng)用的全局變量實(shí)現(xiàn)方法6. PHP字符串前后字符或空格刪除方法介紹7. jsp實(shí)現(xiàn)登錄界面8. 解析原生JS getComputedStyle9. 淺談SpringMVC jsp前臺(tái)獲取參數(shù)的方式 EL表達(dá)式10. Echarts通過dataset數(shù)據(jù)集實(shí)現(xiàn)創(chuàng)建單軸散點(diǎn)圖

排行榜

					
					python 浮點(diǎn)數(shù)四舍五入需要注意的地方
關(guān)于Java下奇怪的Base64詳解
Redis Java Lettuce驅(qū)動(dòng)框架原理解析
Python使用shutil模塊實(shí)現(xiàn)文件拷貝
python批量替換文件名中的共同字符實(shí)例
python matlab庫(kù)簡(jiǎn)單用法講解
java開發(fā)時(shí)各類工具的使用規(guī)范
Python 如何將integer轉(zhuǎn)化為羅馬數(shù)(3999以內(nèi))
Java程序執(zhí)行Cmd指令所遇問題記錄及解決方案
如何基于windows實(shí)現(xiàn)python定時(shí)爬蟲
python 實(shí)現(xiàn)aes256加密