정의
- HTML 파싱 JAVA 외부 라이브러리
- 웹 스크래핑, 데이터 추출, HTML 문서 수정 및 웹 페이지의 내용 분석에 널리 사용
- DOM과 CSS 선택자를 사용하여 HTML 요소를 쉽게 다룰 수 있음
- DOM의 데이터 타입에 대응하는 Document, Element, Elements, Attributes 클래스가 존재
Document
Document doc = Jsoup.connect("https://example.com").get();
Document doc = Jsoup.parse(new File(./example.html));
- Jsoup.parse(File file) 혹은 Jsoup.connect(String url).get()을 통해 HTML 파일에 접근
- 위 과정을 통해 얻은 Document 객체에는 해당 html의 모든 코드가 담겨있음
- select(String cssQuery) = CSS 선택자를 활용하여 HTML의 특정 요소를 선택
Element
- HTML 문서 내의 각각의 HTML 요소를 나타내는 클래스
- getElementById, getElementsByClass, getElementsByTag, getElementsByAttribute 등의 요소 선택 메소드 존재
'Java' 카테고리의 다른 글
순수 Java로 서버 구동 (0) | 2024.10.23 |
---|---|
java.nio.file.Files (0) | 2024.03.12 |
java.io.FileWriter & FileReader (0) | 2024.01.29 |
com.google.gson.Gson (0) | 2024.01.15 |
java.util.Iterator (0) | 2023.12.21 |
댓글