CMS 게시물의 자격요건을 자동으로 구조화

정부 규정 관련 CMS 게시물에서 자격 정보를 자동으로 추출하는 기능을 만들었다. 게시물이 텍스트 형태로 저장되어 있다면, 그 안에 산재된 자격요건들을 구조화된 데이터로 변환해야 하는 경우가 자주 생긴다. 이번 작업은 그 변환 과정을 체계화한 것이다.

왜 이 기능이 필요했나

CMS에 올라오는 게시물들은 사람이 읽기 좋은 형태의 마크업이나 HTML이다. "다음 조건을 만족하는 사람이 신청 가능합니다", "①소득 기준은 월 xxx 이하" 같은 자유로운 텍스트 형식이 대부분이다.

그런데 시스템에서 이런 정보를 활용하려면?
- 사용자 프로필과 자동 매칭하기
- 자격 조건을 구조화된 쿼리로 검색하기
- 대시보드나 API 응답에서 정규화된 형태로 제공하기

이 모든 게 텍스트 덩어리 상태론 불가능하다. 따라서 추출기(extractor)가 필요했다.

자격요건 추출이 단순해 보이지만, 실제론 꽤 까다롭다:

추출기를 구축할 때는 정규표현식만으로는 부족하고, 도메인 규칙(domain rules)을 체계적으로 정의해야 한다.

추출기를 만들 때 팀에서 고민했던 부분:

이 작업을 하면서 느낀 건, "텍스트 파싱은 생각보다 훨씬 복잡하다"는 것이다. 특히 사람이 작성한 비정형 데이터에서는:

특히 정부 관련 내용처럼 정확성이 중요한 도메인에선 추출된 데이터를 그대로 사용하기보다 "후보군"으로 보고, 최종 검증을 거치는 워크플로우를 설계하는 게 좋다.

이번 기능이 추가되면서 CMS 게시물이 한층 더 '머신 리더블'해졌다. 단순히 디스플레이용 콘텐츠가 아니라 시스템이 이해하고 활용할 수 있는 자산이 된 셈이다.

🛒 이 글과 어울리는 추천 상품

*위 링크는 쿠팡파트너스 활동의 일환이며, 일정액의 수수료를 제공받을 수 있습니다.