BEER&DEV

<Next.JS 14 - SEO> SSR 웹 애플리케이션과 웹 크롤러 로봇 본문

생활/블로그

<Next.JS 14 - SEO> SSR 웹 애플리케이션과 웹 크롤러 로봇

사당맥주 2024. 1. 8. 14:58

 

"내 블로그가 어떻게 구글에 노출이 되는 거지?"

로봇이 웹사이트를 크롤링할 때 어떤 부분을 허용하고 어떤 부분을 차단할지를 결정하는 중요한 파일이 있습니다. 그 파일은 바로 "robots.txt"입니다. 이 파일은 웹사이트의 루트 디렉터리에 위치하며, 검색 엔진 로봇에게 특정 지침을 제공합니다. "robots.txt" 파일은 특정 로봇에 대한 지시를 설정하는 데 사용됩니다. 

아래처럼 크게 두 가지로 나눠 볼 수 있습니다.

"User-agent" 부분에서는 어떤 로봇에게 적용할지를 지정하고, "*"는 모든 로봇을 의미합니다.

"Disallow"는 크롤링에서 제외할 디렉터리나 파일을 지정하며, "Allow"는 허용하는 부분을 나타냅니다.

예를 들어, "Disallow: /private/"는 "/private/" 디렉토리 아래의 모든 콘텐츠를 크롤링에서 제외하라는 지시입니다. 반면에 "Allow: /public/"는 "/public/" 디렉터리에 대한 크롤링을 허용하는 것을 의미합니다.

"robots.txt" 파일을 통해 웹사이트 관리자는 로봇이 어떤 부분을 크롤링할지를 제어할 수 있습니다. 이는 특히 검색 결과에서 특정 페이지를 숨기고자 할 때 유용합니다. 그러나 이 파일이 항상 보안을 제공하지는 않으므로 중요한 정보는 다른 방법으로 보호하는 것이 좋습니다.

 

"그럼 로봇은 누구이며, 크롤링은 무엇인가?"


Google의 로봇 (Googlebot)

  • Googlebot은 Google 검색 엔진이 사용하는 웹 크롤러 또는 로봇입니다.
  • Googlebot은 웹페이지를 탐색하고 그 내용을 Google의 데이터베이스에 추가하여 검색 결과를 생성합니다.
  • 웹 사이트 소유자는 로봇의 동작을 지정할 수 있으며, robots.txt 파일을 사용하여 특정 부분의 크롤링을 허용하거나 차단할 수 있습니다.

robots.txt 

  • robots.txt 파일은 웹 사이트의 루트 디렉토리에 위치한 파일로, 검색 엔진 로봇에게 어떤 부분을 크롤링해도 되는지 지시하는 역할을 합니다.
  • 웹 사이트 소유자가 특정 페이지나 디렉터리를 검색 엔진 로봇의 크롤링에서 제외하거나 허용하고 싶을 때 사용됩니다.

sitemap.xml

  • sitemap.xml 파일은 웹 사이트의 페이지 구조를 검색 엔진에 제공하는 데 사용됩니다.
  • 이 파일은 XML 형식으로 작성되며, 웹 페이지의 URL, 갱신 날짜, 우선순위 등의 정보를 포함합니다.
  • 검색 엔진은 sitemap.xml을 통해 웹 페이지를 효과적으로 크롤링하고 새로운 콘텐츠를 빠르게 감지할 수 있습니다.
  • Sitemap은 검색 엔진 최적화 (SEO)에 도움을 주며, 큰 사이트나 동적인 콘텐츠를 가진 사이트에서 특히 유용합니다.

 

"어떻게 Google의 로봇이 나의 "robots.txt", 와 "sitemap.xml" 파일을 읽는 거지?"

Google이 새로운 웹페이지를 찾고 크롤링하여 검색 결과에 나타내기까지 걸리는 시간은 다양한 요인에 따라 다릅니다. 보통은 몇일에서 몇 주 정도가 소요될 수 있습니다. 다음은 이에 영향을 미치는 주요 요인들입니다:


1. 웹페이지의 중요성

검색 엔진은 중요한 콘텐츠를 가진 웹페이지를 더 높은 우선순위로 취급합니다. 높은 품질의 콘텐츠와 관련성이 높은 웹페이지일수록 빨리 크롤링되고 인덱싱 될 가능성이 높습니다.


2. 외부 링크

다른 웹사이트에서 해당 웹페이지로의 링크가 많을수록 검색 엔진은 해당 페이지를 더 빨리 발견하고 크롤링합니다. 외부에서의 링크는 검색 엔진에게 신뢰성을 부여하는 역할을 합니다.


3. 사이트의 크기

큰 웹사이트보다는 작은 웹사이트가 더 빨리 크롤링되기 쉽습니다. 큰 사이트의 경우, 검색 엔진은 모든 페이지를 순차적으로 크롤링하는 데 시간이 더 걸릴 수 있습니다.

4. Google Search Console 사용

Google Search Console을 통해 웹사이트를 등록하고 사이트맵을 제출하면 새로운 페이지가 검색 엔진에 더 빨리 등록될 수 있습니다.

5. 검색 엔진의 크롤링 일정

검색 엔진은 웹페이지를 정기적으로 크롤링합니다. 일부 웹페이지는 자주 업데이트되며 검색 엔진은 이러한 페이지를 더 자주 크롤링할 수 있습니다.

6. 프로토콜 및 메타데이터

웹페이지의 메타데이터, 특히 `last-modified` 헤더 등이 검색 엔진에게 페이지가 얼마나 자주 업데이트되는지 알려줄 수 있습니다.


요약하면, 신규 웹페이지가 Google에서 검색 가능하게 되기까지의 시간은 다양한 요인에 의해 영향을 받습니다. 일반적으로는 몇일에서 몇 주 정도가 소요되지만, 웹페이지의 품질과 중요성, 외부 링크, 웹사이트의 크기 등이 크롤링 속도를 결정하는 데 중요한 역할을 합니다.

 

"검색 엔진이 스스로 찾기 전에 등록하여 더욱 빨리 노출시키고 싶다면?"

구글의 경우 Google Search Console에 등록을 하여 비교적 빠르게 웹사이트를 검색엔진에 노출시킬 수 있습니다. 아래는 Google Search Engine에 등록하는 간단한 사용법입니다.

Google Search Console 이란?

링크 ->  https://search.google.com/search-console/welcome?hl=ko 

 

Google Search Console은 웹 사이트 소유자가 웹 페이지를 Google 검색 결과에 최적화하고 모니터링하기 위해 사용하는 도구 중 하나입니다. Google Search Console을 통해 robots.txt 파일과 sitemap.xml 파일을 제출하고 관리할 수 있습니다.

1. robots.txt 파일 등록
   - Google Search Console에 로그인합니다.
   - 웹 사이트 속성을 선택하고 해당 속성의 대시보드로 이동합니다.
   - 왼쪽 메뉴에서 "크롤" 섹션으로 이동한 후 "robots.txt Tester"를 클릭합니다.
   - 이곳에서 새로운 robots.txt 파일을 테스트하거나 현재 사용 중인 파일을 확인할 수 있습니다.
   - 변경된 내용이 있다면 "Submit"을 클릭하여 Google에 제출합니다.

2. sitemap.xml 파일 등록
   - Google Search Console 대시보드에서 해당 웹 사이트 속성을 선택합니다.
   - 왼쪽 메뉴에서 "커버리지" 섹션으로 이동하고 "Sitemap" 탭을 클릭합니다.
   - 페이지 상단에 있는 "새 사이트맵 제출" 버튼을 클릭합니다.
   - "사이트맵 경로"란에 sitemap.xml 파일의 상대 경로를 입력하고 제출합니다.

3. 확인과 모니터링
   - robots.txt 및 sitemap.xml 파일이 성공적으로 등록되었다면 Google Search Console에서 이를 확인할 수 있습니다.
   - "robots.txt Tester"에서는 테스트 결과를 확인하고, "Sitemap" 탭에서는 제출된 사이트맵의 상태를 모니터링할 수 있습니다.

로봇 텍스트 파일은 검색 엔진 로봇에게 웹 페이지의 크롤링 지침을 제공하고, 사이트맵 파일은 웹 페이지의 구조를 검색 엔진에 알려줍니다. 이 두 파일을 Google Search Console에 등록하면 검색 엔진에서 웹 사이트를 더 효과적으로 색인화하고 검색 결과에 나타나게 할 수 있습니다.

반응형