자바 html 파싱 예제

첫 번째는 문서의 필요한 요소를 쉽게 선택할 수 있는 CSS 선택기입니다. 그러나 이름에 따라 요소를 찾거나 태그 (예 : 제목)에 직접 액세스하는 간단한 기능도 있습니다. 둘 다 매우 강력하지만 첫 번째는 JavaScript 사용자에게 더 친숙하지만 다른 하나는 더 파이썬입니다. Cheerio의 구문과 사용은 자바 스크립트 개발자에게 매우 익숙해야합니다. 우리는 자바, C #, 파이썬 및 자바 스크립트에 대한 몇 가지 라이브러리를 보았다. HTML의 인기에도 불구하고 일반적으로 각 언어에 대한 성숙한 선택이 거의 없다는 사실에 놀랄 수 있습니다. HTML은 매우 인기 있고 구조적으로 간단하지만 모든 여러 표준에 대한 지원을 제공하는 것은 어려운 작업이기 때문입니다. 다음 예제는 Jsoup을 사용하여 Google 검색을 수행합니다. 다음 예제에서는 파서, 워커 및 직렬화기가 작동하는 것을 보여 주습니다. 사용할 수있는 많은 Jodd 구성 요소 중에는 Java의 jQuery로 정의 된 LAgarto, HTML 파서 및 제리가 있습니다. 다른 작업을 수행 할 수있는 더 많은 구성 요소가 있습니다.

예를 들어 CSS 선택기 문자열 및 권한 제리에 대한 파서인 CSSelly와 HTML 문서의 크기를 줄이는 StripHtml을 예로 들 수 있습니다. 설명서는 훌륭합니다 : 모든 기능에 대한 설명과 많은 예제가 있습니다. 공식 튜토리얼은 없지만 문서의 품질을 감안할 때 실제로 필요하지 않습니다. 첫 번째 예제에서는 HTML 문자열을 구문 분석합니다. 위의 방법을 사용하여 원하는 요소를 찾았을 때만. Jsoup API를 사용하여 해당 요소의 속성 또는 내부 HTML을 업데이트할 수 있습니다. 예를 들어 문서 내부에 있는 “rel=nofollow”로 모든 링크를 업데이트하려고 합니다. 이 코드 예제에서는 jsoup을 사용하여 Java에서 HTML을 구문 분석하는 방법을 보여 주며 있습니다. 다양한 용도로 많은 라이브러리가 있기 때문에 Java에는 많은 html 파서가 있습니다. 많은 개발자들이 HTML 파서에 대한 결정을 내리기 전에 어느 것이 가장 좋은지 궁금해합니다. Jsoup은 아주 좋은 시작입니다.

리처드 디킨슨. 이는 클래스 경로가 올바르지 않기 때문입니다. 나는 같은 단계를 수행하고이 오류를 얻었다. 나는이 명령 자바 -cp 대상 / htmlLParser-1.0-SNAPSHOT.jar com.fatBas.com.Main i 때문에 -cp정의 오류가 발생했습니다 프로젝트를 실행했다. 그런 다음 main.java를 마우스 오른쪽 버튼으로 클릭하여 main.java에서 클래스를 실행합니다. 그것은 작동합니다. 이 도움이 희망 파서는 또한 몇 가지 추가 기능을 추가합니다. 예를 들어 JavaScript와 같은 구문(예: setAttribute 함수)을 사용하는 대신 속성(예: tag.id = “nope”)을 직접 수정합니다.

또한 HTML 문서의 기본 유효성 검사(예: 닫는 토큰 누락 확인)를 수행하고 미리 지정된 HTML을 출력할 수도 있습니다. 이 특정 사이트의 HTML 콘텐츠를 가져오고 싶습니다. 아주 좋은 기사,하지만 난 또한 주어진 쿠키를 aubmitting 웹 사이트에서 HTML 문서를 얻거나 서비스에 일부 로그온하고 로그인 된 사용자로 페이지를 확인하고 싶습니다.