Java
Jsoup
Mecodata
2024. 10. 23. 17:24

정의
- HTML 파싱 JAVA 외부 라이브러리
- 웹 스크래핑, 데이터 추출, HTML 문서 수정 및 웹 페이지의 내용 분석에 널리 사용
- DOM과 CSS 선택자를 사용하여 HTML 요소를 쉽게 다룰 수 있음
- DOM의 데이터 타입에 대응하는 Document, Element, Elements, Attributes 클래스가 존재
Document
Document doc = Jsoup.connect("https://example.com").get();
Document doc = Jsoup.parse(new File(./example.html));
- Jsoup.parse(File file) 혹은 Jsoup.connect(String url).get()을 통해 HTML 파일에 접근
- 위 과정을 통해 얻은 Document 객체에는 해당 html의 모든 코드가 담겨있음
- select(String cssQuery) = CSS 선택자를 활용하여 HTML의 특정 요소를 선택
Element
- HTML 문서 내의 각각의 HTML 요소를 나타내는 클래스
- getElementById, getElementsByClass, getElementsByTag, getElementsByAttribute 등의 요소 선택 메소드 존재