얇은 콘텐츠 페이지 검색 제외, 핵심 콘텐츠만 노출
목차
얼마 전 검색 엔진 최적화(SEO) 차원에서 사이트의 페이지 인덱싱 정책을 개선했다. 앨범, 회사, 팬덤 관련 페이지들은 검색 결과에서 제외하고, 그룹·뉴스·멤버 같은 가치 있는 콘텐츠만 명시적으로 구글에 노출하는 작업이었다.
왜 이런 변경이 필요했나
이 작업의 배경을 이해하려면 "thin page"라는 개념을 먼저 짚고 가야 한다. Thin page는 검색 엔진 입장에서 중복도가 높거나 원본 가치가 낮다고 판단되는 페이지를 말한다. 예를 들어 앨범 페이지가 수천 개 있는데 각 페이지의 고유한 콘텐츠가 거의 없거나, 회사 상세 정보가 메타 데이터만 있는 식이면 검색 엔진은 이들을 "의도적으로 채운 저품질 페이지"로 낙인찍을 수 있다.
문제는 이런 페이지들이 구글의 크롤 예산(crawl budget)을 낭비한다는 것이다. 구글 크롤러가 우리 사이트에 할당하는 리소스는 유한하다. 크롤러가 의미 없는 페이지에 시간을 쓸 바에 정말 중요한 콘텐츠(뉴스, 멤버 프로필, 그룹 정보 같은)를 더 자주, 더 깊게 인덱싱하는 게 낫다. 또한 검색 순위 알고리즘 입장에서도 사이트 전체가 높은 품질의 콘텐츠로 일관되어 있을 때 도메인 권위(domain authority)가 더 올라간다.
어떻게 구현했나
변경 파일을 보면 세 가지 작업이 동시에 일어났다:
| 파일 | 역할 | 변경 의도 |
|---|---|---|
bot/translate.py |
SEO 메타데이터 생성 | Thin 페이지 식별 로직 추가 또는 SEO 번역 규칙 수정 |
src/components/Seo.astro |
Astro 컴포넌트 레벨 SEO | <meta name="robots" content="noindex"> 태그 삽입 로직 |
src/pages/sitemap-content.xml.ts |
XML 사이트맵 생성 | 가치 콘텐츠만 포함하는 별도 사이트맵 |
Astro 컴포넌트에 noindex 처리를 추가한 것이 핵심이다. 이건 "이 페이지는 구글이 검색 결과에 나타내지 마"라고 명시적으로 지시하는 메타 태그다. robots.txt로도 할 수 있지만, 페이지별로 세밀한 제어가 필요할 때는 메타 태그가 더 유연하다.
동시에 sitemap-content.xml.ts에서 콘텐츠 사이트맵을 별도로 구성했다. 이건 역으로 "이 페이지들은 꼭 크롤링해줘"라는 신호를 보내는 것. 검색 엔진 봇이 우리 사이트를 처음 방문할 때 robots.txt를 읽고, 사이트맵을 찾아가서 우선순위 높은 페이지들을 먼저 인덱싱하도록 유도한다.
검색 최적화의 일반론
이런 종류의 작업을 하면서 배운 생각들:
1. Noindex ≠ 완전 차단
Noindex는 검색 결과에서만 숨긴다. 직접 URL을 알고 있는 사람은 여전히 접근할 수 있다. 만약 정말 봇의 접근까지 막아야 한다면 disallow (robots.txt) 또는 nofollow를 써야 한다.
2. 크롤 예산의 현실성
대규모 이커머스나 콘텐츠 사이트에서는 이 개념이 정말 중요하다. 페이지가 수백만 개인데 모두를 자주 크롤링할 수는 없다. 그래서 핵심 페이지의 업데이트 감지를 빠르게, 주변부 페이지는 느리게 하는 식으로 예산을 배분한다.
3. 사이트맵의 명시적 우선순위
사이트맵에 <priority> 값을 넣을 수 있다(0.0~1.0). 하지만 이건 검색 엔진 최적화보다는 우리 크롤링 주기 계획용이라고 생각하는 게 낫다. 구글은 이 값을 크게 신뢰하지 않는다.
팀과 비즈니스에 미치는 영향
개발자 입장에서는 "단순히 태그 추가"로 보일 수 있지만, 이 변경의 효과는 꽤 광범위하다:
- 검색 트래픽 질 개선: 가치 있는 페이지로 유입되는 검색 트래픽이 상대적으로 증가. Thin 페이지로 유입되던 저품질 트래픽은 줄어든다.
- 도메인 신뢰도: 사이트 전체가 "의도적으로 관리되는 높은 품질의 콘텐츠"라는 신호를 검색 엔진에 보낸다.
- 유지보수 관점: Thin 페이지의 SEO 메타데이터를 일일이 관리할 필요가 없어진다. 한 번 규칙을 정해두면 페이지 타입별로 자동 적용된다.
한 가지 주의할 점은, 이런 변경 후 Google Search Console에서 변화를 추적해야 한다는 것이다. 몇 주 후에 인덱스 커버리지, 검색 성과, 평균 클릭 위치(CTR) 등이 실제로 개선되는지 확인해야 수정이 성공했다고 말할 수 있다.
배운 점
이 작업을 통해 느낀 건, SEO는 단순히 "트래픽을 많이 받는 것"이 아니라 "맞는 트래픽을 받는 것"이라는 원칙이다. 특히 팀이 성장할 때 페이지 수도 기하급수적으로 늘어나는데, 모든 페이지를 검색 가능하게 두면 오히려 핵심 콘텐츠가 묻힌다. 명확한 인덱싱 전략을 초기에 수립하고 자동화하는 게 나중에 고생을 덜 수 있는 길이다.
🛒 이 글과 어울리는 추천 상품
*위 링크는 쿠팡파트너스 활동의 일환이며, 일정액의 수수료를 제공받을 수 있습니다.
댓글 0
첫 댓글 달아줘.