강의4

송파구청 특강 (2021-06 ~ 2021-07)/SpringBoot

배워도끝이없네 2021. 6. 28. 13:43

크롤링을 막아둔 사이트는 403 (FORBIDDEN)에러가 난다

왜냐하면 그 사이트에서 막아둿기 때문...

하지만 유저는 브라우저로 볼때 보인다

이유는 브라우저가 아닌것들을 막아놧기때문에..

내가 브라우전지 아닌지의 정보는 http헤더에 정보를 싣어서 보내는것에 달려있다.

크롤링을 할때 단계

1. 대상URL을 찾는다.(2가지 스타일이 있다. 한번에 모든정보를 다 나타내는 url과 ajax로 그때그때 불러오는 스타일)

2. HTML 파싱을 한다(상세주소들을 얻어온다)->상세주소당 URL을 연결하고->이미지 태그를찾고->save해야한다.

정상적인 브라우저의 접근을 체크하는것이

-> user-agent를 이용해서 체크 or 브라우저에서는 보이지 않는 값을 전달 or 특정한 파라미터를 쓰는겅우(CSRF가 가장 대표적인 방식이다)

CSRF(Cross site ....) ->요청을 위조하는것을 변조하는것이다.

배워도 끝이 없음을 느끼는 블로그

드림코딩엘리, JavaScript, JS,

개발이랑 일상이랑