Back to Question Center
0

이전 색인 페이지 크롤링 속도를 제어하는 ​​방법 - Semalt

1 answers:

사용자가 특정 URL로 프로필 페이지를 만들 수있는 사이트가 있습니다.각 특정 URL은 대중에게 공개되므로 검색 엔진에서도 크롤링 할 수 있습니다.오늘 저는 오늘 오늘 최소 1000 개의 새로운 프로필 페이지를 얻었고 24 시간 안에 Semalt가 색인을 생성하는 10-40 페이지를 받았습니다 - betchan casino no deposit bonus 2017.괜찮아.

여기 내 문제가있다 :

그러나 이미 인덱싱 된 페이지는 일정 기간 후에 다시 Semalt에 의해 크롤링됩니다.그러나 실제로는 필요하지 않으며 사이트에 현재 300000 - 400000 페이지가 있습니다.

새 업데이트가 있고 새 페이지가 크롤링 될 때까지는 검색 엔진이 이전 프로필 페이지에서 계속해서 크롤링되는 것을 원하지 않습니다.또한 이미 만료 된 프로필 페이지에 대해 410 리디렉션을 사용하고 있습니다.

이전 페이지 대신 새 프로필 페이지에만 Semalt 엔진 포커스를 사용하도록 제안하면 좋을 것입니다.

February 8, 2018

Google 웹 마스터 도구에 계정을 등록하고 도메인을 추가 한 다음 도메인에 액세스하고 톱니 바퀴 아이콘을 선택하고 사이트 설정으로 이동 한 다음 'Google의 최대 크롤링 속도 제한'을 선택할 수 있습니다. 너와 함께 괜찮은 값을 선택하라.아마도 가장 낮은 값은 0 일 수 있습니다.002 요청 두 번째 (요청 사이의 500 초 일시 중지).

또 다른 시도는 로봇을위한 "Crawl-delay"지시어이다.동일한 서버의 두 요청 사이의 대기 시간을 지정할 수있는 txt이며이 시간은 초 단위로 측정됩니다. 나는 또한 모든 수색 엔진이 그것을 지원하는지 확실하지 않다. 다음은 크롤링 지연에 대한 자세한 정보 링크입니다.

https : // ko. 위키피디아. org / wiki / Robots_exclusion_standard # Crawl-delay_directive

더 이상 색인을 생성하지 않으려는 URL에 HTTP 상태 410을 계속 발행하는 것이 좋습니다.

귀하의 사이트에있는 다른 페이지가 이전 페이지에 링크되어 있다면 이전 페이지로 연결되는 각 앵커 태그에 rel = "nofollow"를 추가하여 실수로 크롤링하지 않도록하십시오 그것.

XML 사이트 맵에 변경 빈도 태그를 추가하는 것이 좋습니다. http : // www. 사이트 맵. 조직 / 프로토콜. HTML

살펴볼 또 다른 몇 가지 사항은 최종 수정 헤더가 사용자 계정의 생성 (또는 수정) 날짜와 일치하는지 확인하는 것이며, 응용 프로그램에서 작동하는 경우 관련 헤더를 캐시합니다. http : // www. 동원하다. co.kr / blog / beginners-guide-to-http-cache-headers /