본문 바로가기
Java

Jsoup

by Mecodata 2024. 10. 23.

정의

- HTML 파싱 JAVA 외부 라이브러리

- 웹 스크래핑, 데이터 추출, HTML 문서 수정 및 웹 페이지의 내용 분석에 널리 사용

- DOM과 CSS 선택자를 사용하여 HTML 요소를 쉽게 다룰 수 있음

- DOM의 데이터 타입에 대응하는 Document, Element, Elements, Attributes 클래스가 존재

 

Document

Document doc = Jsoup.connect("https://example.com").get();
Document doc = Jsoup.parse(new File(./example.html));

- Jsoup.parse(File file) 혹은 Jsoup.connect(String url).get()을 통해 HTML 파일에 접근

- 위 과정을 통해 얻은 Document 객체에는 해당 html의 모든 코드가 담겨있음

- select(String cssQuery) = CSS 선택자를 활용하여 HTML의 특정 요소를 선택 

 

Element

- HTML 문서 내의 각각의 HTML 요소를 나타내는 클래스

- getElementById, getElementsByClass, getElementsByTag, getElementsByAttribute 등의 요소 선택 메소드 존재

'Java' 카테고리의 다른 글

순수 Java로 서버 구동  (0) 2024.10.23
java.nio.file.Files  (0) 2024.03.12
java.io.FileWriter & FileReader  (0) 2024.01.29
com.google.gson.Gson  (0) 2024.01.15
java.util.Iterator  (0) 2023.12.21

댓글