기업 AX를 위한 데이터 파이프라인 설계 방법

박준규

기술이사

전 삼성전자 PM, 매치스 플랫폼 상용화 주도

2026.04.07

기업 AX에서 가장 자주 과소평가되는 것은 데이터 파이프라인입니다. 많은 팀이 모델과 프롬프트부터 고민하지만, 실제 운영에서 문제를 만드는 것은 데이터의 위치, 품질, 권한, 최신성, 기록 방식입니다. AI가 참고할 데이터가 불안정하면 아무리 좋은 모델을 써도 결과는 흔들립니다.

데이터 파이프라인은 단순히 DB를 연결하는 일이 아닙니다. 업무 데이터가 어디에서 생기고, 어떻게 정제되고, 누가 볼 수 있으며, AI가 어떤 형태로 읽고, 결과가 다시 어디에 기록되는지 설계하는 일입니다. 기업 AX는 이 흐름이 있어야 운영 가능한 시스템이 됩니다.

파이프라인은 입력보다 피드백까지 포함한다

AI 자동화의 데이터 파이프라인을 입력 데이터 수집으로만 보면 반쪽짜리입니다. AI가 만든 결과, 사람이 수정한 내용, 승인 여부, 실패 사유가 다시 저장되어야 합니다. 그래야 다음 자동화와 품질 개선이 가능합니다.

기본 구조는 다음과 같습니다.

업무 시스템에서 데이터가 생성됩니다.
파이프라인이 데이터를 수집하고 정제합니다.
권한과 마스킹을 적용합니다.
AI가 사용할 컨텍스트로 변환합니다.
AI 결과를 저장합니다.
사람이 수정하거나 승인합니다.
피드백이 다시 품질 개선 데이터로 쌓입니다.

이 전체 흐름이 있어야 AX가 반복적으로 좋아집니다.

수집: 모든 데이터를 가져오지 않는다

처음부터 모든 데이터를 연결하려고 하면 프로젝트가 느려집니다. AX 파이프라인은 업무 목적에 필요한 데이터부터 연결해야 합니다. 예를 들어 리드 분류 자동화라면 CRM, 문의 내용, 캠페인 소스, 상담 이력 정도가 우선입니다. 회계 데이터나 내부 인사 데이터는 필요하지 않을 수 있습니다.

수집 단계에서 확인할 것은 다음입니다.

데이터가 생성되는 원천 시스템
실시간이 필요한지 배치로 충분한지
변경 이력을 저장해야 하는지
개인정보나 민감 정보가 포함되는지
API, DB, 파일, 웹훅 중 어떤 방식으로 가져올지

모든 데이터를 한 번에 가져오는 것보다, 작은 목적에 맞는 데이터셋을 안정적으로 가져오는 것이 중요합니다.

정제: AI가 이해할 수 있는 업무 언어로 바꾼다

기업 데이터는 AI가 바로 이해하기 어렵습니다. 코드값, 줄임말, 부서별 용어, 오래된 상태값, 자유 입력 메모가 섞여 있습니다. 이 데이터를 그대로 넣으면 AI는 맥락을 오해합니다. 정제 단계에서는 사람이 업무에서 쓰는 언어로 바꿔야 합니다.

정제 작업에는 다음이 포함됩니다.

코드값을 설명 가능한 라벨로 변환
중복 고객 또는 중복 리드 정리
날짜, 금액, 상태값 표준화
개인정보 마스킹
불필요한 HTML, 첨부 노이즈 제거
긴 문서의 섹션 분리
변경 이력 요약

정제는 화려하지 않지만 AI 품질에 직접 영향을 줍니다. 프롬프트를 아무리 잘 써도 입력 데이터가 지저분하면 결과가 흔들립니다.

권한: AI도 사용자 권한을 따라야 한다

기업 AX에서 AI는 별도의 초권한 사용자가 되어서는 안 됩니다. 사용자가 볼 수 없는 데이터를 AI가 참고해 답을 만들면 정보 유출이 발생합니다. 따라서 AI 컨텍스트 구성 단계에서 사용자 권한을 반영해야 합니다.

권한 설계는 다음 수준으로 나눕니다.

수준	설명
테넌트 권한	고객사 또는 조직 단위 데이터 분리
역할 권한	관리자, 운영자, 세일즈 등 역할별 접근 범위
객체 권한	특정 고객, 계약, 문서 단위 접근
필드 권한	금액, 개인정보, 내부 메모 등 필드별 제한

특히 문서 검색과 벡터 검색에서는 권한 필터링이 중요합니다. 문서 원본만 제한하고 검색 인덱스를 제한하지 않으면 원치 않는 정보가 검색 결과로 나올 수 있습니다.