버튜버 발견 자동화, 검증 게이트로 품질 보증하기
목차
신규 버튜버를 수동으로 찾고 등록하는 프로세스에 자동화 기능을 들였다. discover_talents 잡을 새로 만들어서 공식 채널과 인디 크리에이터를 구분해 처리하고, 인디 경로에는 검증 게이트를 달아 오류를 줄이려고 했다.
수동 큐레이션의 병목
보통 버튜버 프로필 시스템은 공식 계정/채널과 인디 크리에이터 데이터를 섞어서 다룬다. 공식 경로는 신뢰할 만한 소스(공식 사이트, 공식 채널 계정 등)에서 오는 반면, 인디는 사용자 제보나 크롤링, 스크래핑 같은 비공식 경로에서 온다. 이 둘을 전부 손으로 검수하려면 매일 상당한 인력을 써야 한다.
특히 인디 크리에이터 경로는 오류가 잦다. 잘못된 채널명, 중복된 프로필, 비활성 계정 등이 섞이면 사용자가 보는 데이터 품질이 떨어진다. 큐레이션을 자동화하되 검증 단계를 두겠다는 생각은 여기서 나왔다.
공식 vs 인디 경로 분리
discover_talents 잡은 두 가지 흐름을 따로 탄다.
| 경로 | 소스 | 처리 방식 | 검증 |
|---|---|---|---|
| 공식 | 공식 채널, 공식 계정 메타 | 바로 적재 | 소스 신뢰도로 스킵 |
| 인디 | 사용자 제보, 크롤링, 기타 | claude_cli/codex 검증 게이트 | 채널명·계정 존재 확인, 프로필 정합성 검증 |
공식 경로는 진입 속도를 최우선으로 본다. 공식 출처는 이미 어느 정도 검증된 상태니까 중간 단계를 빼고 바로 DB에 적재한다. 반대로 인디는 느리지만 정확해야 한다. 검증 게이트를 거쳐야만 등재된다.
검증 게이트 설계
인디 경로의 핵심은 claude_cli/codex 를 활용한 자동 검증이다. 프로필 데이터가 들어오면 다음을 체크한다:
# 개념적 검증 흐름
def validate_indie_profile(profile_data):
# 1. 채널/계정 존재 여부 확인
channel_exists = check_channel_existence(profile_data)
# 2. 프로필 데이터 정합성 (이름, 설명, 이미지 등)
data_valid = validate_profile_metadata(profile_data)
# 3. 중복 검사
is_duplicate = check_for_duplicates(profile_data)
# 게이트: 모두 통과해야만 진행
if channel_exists and data_valid and not is_duplicate:
return APPROVE
else:
return REJECT_WITH_REASON
게이트를 두지 않으면 무효한 프로필이 쌓여서 나중에 정리 비용이 든다. 미리 거르는 게 싸다.
배포 파이프라인
변경 파일은 세 개다. discover_talents.py 는 메인 로직이고, publish.sh 는 잡을 프로덕션에 올리는 배포 스크립트, README.md 는 운영자를 위한 문서다. publish.sh 를 보면 잡의 스케줄(아마 매시간 또는 매일), 환경 설정, 로깅 경로 같은 운영 정보가 들어 있을 거다.
# 예시 구조 (실제와 다를 수 있음)
$ ./publish.sh
↓ discover_talents.py 실행
├─ 공식 경로: 즉시 적재
├─ 인디 경로: 검증 게이트 통과 후 적재
└─ 결과 로깅 및 모니터링
배포 스크립트를 두면 잡 업데이트가 손쉬워진다. 로직만 수정하고 publish.sh 한 줄로 반영할 수 있다.
회고: 경로 분리의 트레이드오프
이 설계에서 배운 점이 있다. 공식/인디를 나누면 커버리지는 넓어지지만 복잡도가 올라간다. 두 경로의 에러 처리도 다르고, 모니터링도 따로 봐야 한다.
특히 검증 게이트가 너무 엄격하면 좋은 인디 크리에이터도 떨어질 수 있다. 너무 관대하면 오류가 섞인다. 초기에는 게이트의 임계값을 낮게 설정하고 며칠 모니터링한 뒤 조정하는 게 맞다.
또 하나—공식과 인디를 이렇게 나누려면 소스 분류 로직이 명확해야 한다. "이건 공식 소스인가?" 판단이 틀리면 전체 파이프라인이 삐그덕거린다. 소스 분류 기준을 문서화하는 게 중요한데, 그게 README.md 가 담당할 부분이다.
결국 이런 자동화는 단순히 수동 작업을 없애는 게 아니라, 신뢰도를 정량화하고 프로세스를 투명하게 만드는 게 진짜 가치다. 나중에 "왜 이 버튜버가 없어?" 라는 문의가 들어왔을 때, 게이트에서 떨어진 이유를 명확히 설명할 수 있으니까.
🛒 이 글과 어울리는 추천 상품
*위 링크는 쿠팡파트너스 활동의 일환이며, 일정액의 수수료를 제공받을 수 있습니다.
댓글 0
첫 댓글 달아줘.