[웹 크롤러] crawler4j 링크
ITWeb/개발일반 2016. 12. 19. 13:17웹 크롤러가 많이 있습니다.
그 중에서 그냥 java 로 쉽게 구현 할 수 있는 crawler4j 링크 공유해 봅니다.
https://github.com/yasserg/crawler4j
샘플 코드는 그냥 위 링크에 올라와 있는 코드 그대로 테스트 해보시면 동작 잘 합니다.
robots.txt 에러가 발생 하는 부분이 있을 경우 아래 설정 추가해 주시면 됩니다.
RobotstxtConfig robotstxtConfig = new RobotstxtConfig();
robotstxtConfig.setEnabled(false);
다른 크롤러가 궁금하신 분들은 아래 구글링 링크 참고하세요.