
박준규
기술이사전 삼성전자 PM, 매치스 플랫폼 상용화 주도
기업 AX를 위한 데이터 파이프라인 설계 방법

박준규
기술이사전 삼성전자 PM, 매치스 플랫폼 상용화 주도

기업 AX에서 가장 자주 과소평가되는 것은 데이터 파이프라인입니다. 많은 팀이 모델과 프롬프트부터 고민하지만, 실제 운영에서 문제를 만드는 것은 데이터의 위치, 품질, 권한, 최신성, 기록 방식입니다. AI가 참고할 데이터가 불안정하면 아무리 좋은 모델을 써도 결과는 흔들립니다.
데이터 파이프라인은 단순히 DB를 연결하는 일이 아닙니다. 업무 데이터가 어디에서 생기고, 어떻게 정제되고, 누가 볼 수 있으며, AI가 어떤 형태로 읽고, 결과가 다시 어디에 기록되는지 설계하는 일입니다. 기업 AX는 이 흐름이 있어야 운영 가능한 시스템이 됩니다.
파이프라인은 입력보다 피드백까지 포함한다
AI 자동화의 데이터 파이프라인을 입력 데이터 수집으로만 보면 반쪽짜리입니다. AI가 만든 결과, 사람이 수정한 내용, 승인 여부, 실패 사유가 다시 저장되어야 합니다. 그래야 다음 자동화와 품질 개선이 가능합니다.
기본 구조는 다음과 같습니다.
- 업무 시스템에서 데이터가 생성됩니다.
- 파이프라인이 데이터를 수집하고 정제합니다.
- 권한과 마스킹을 적용합니다.
- AI가 사용할 컨텍스트로 변환합니다.
- AI 결과를 저장합니다.
- 사람이 수정하거나 승인합니다.
- 피드백이 다시 품질 개선 데이터로 쌓입니다.
이 전체 흐름이 있어야 AX가 반복적으로 좋아집니다.
수집: 모든 데이터를 가져오지 않는다
처음부터 모든 데이터를 연결하려고 하면 프로젝트가 느려집니다. AX 파이프라인은 업무 목적에 필요한 데이터부터 연결해야 합니다. 예를 들어 리드 분류 자동화라면 CRM, 문의 내용, 캠페인 소스, 상담 이력 정도가 우선입니다. 회계 데이터나 내부 인사 데이터는 필요하지 않을 수 있습니다.
수집 단계에서 확인할 것은 다음입니다.
- 데이터가 생성되는 원천 시스템
- 실시간이 필요한지 배치로 충분한지
- 변경 이력을 저장해야 하는지
- 개인정보나 민감 정보가 포함되는지
- API, DB, 파일, 웹훅 중 어떤 방식으로 가져올지
모든 데이터를 한 번에 가져오는 것보다, 작은 목적에 맞는 데이터셋을 안정적으로 가져오는 것이 중요합니다.
정제: AI가 이해할 수 있는 업무 언어로 바꾼다
기업 데이터는 AI가 바로 이해하기 어렵습니다. 코드값, 줄임말, 부서별 용어, 오래된 상태값, 자유 입력 메모가 섞여 있습니다. 이 데이터를 그대로 넣으면 AI는 맥락을 오해합니다. 정제 단계에서는 사람이 업무에서 쓰는 언어로 바꿔야 합니다.
정제 작업에는 다음이 포함됩니다.
- 코드값을 설명 가능한 라벨로 변환
- 중복 고객 또는 중복 리드 정리
- 날짜, 금액, 상태값 표준화
- 개인정보 마스킹
- 불필요한 HTML, 첨부 노이즈 제거
- 긴 문서의 섹션 분리
- 변경 이력 요약
정제는 화려하지 않지만 AI 품질에 직접 영향을 줍니다. 프롬프트를 아무리 잘 써도 입력 데이터가 지저분하면 결과가 흔들립니다.
권한: AI도 사용자 권한을 따라야 한다
기업 AX에서 AI는 별도의 초권한 사용자가 되어서는 안 됩니다. 사용자가 볼 수 없는 데이터를 AI가 참고해 답을 만들면 정보 유출이 발생합니다. 따라서 AI 컨텍스트 구성 단계에서 사용자 권한을 반영해야 합니다.
권한 설계는 다음 수준으로 나눕니다.
| 수준 | 설명 |
|---|---|
| 테넌트 권한 | 고객사 또는 조직 단위 데이터 분리 |
| 역할 권한 | 관리자, 운영자, 세일즈 등 역할별 접근 범위 |
| 객체 권한 | 특정 고객, 계약, 문서 단위 접근 |
| 필드 권한 | 금액, 개인정보, 내부 메모 등 필드별 제한 |
특히 문서 검색과 벡터 검색에서는 권한 필터링이 중요합니다. 문서 원본만 제한하고 검색 인덱스를 제한하지 않으면 원치 않는 정보가 검색 결과로 나올 수 있습니다.
로그: 재현 가능한 자동화를 만든다
AI 자동화에서 로그는 선택이 아닙니다. 결과가 이상할 때 어떤 데이터가 들어갔고, 어떤 프롬프트가 쓰였고, 어떤 모델이 응답했는지 재현할 수 있어야 합니다. 재현이 안 되면 개선도 어렵고 책임도 흐려집니다.
남겨야 할 로그는 다음과 같습니다.
- 입력 데이터 스냅샷 또는 참조 ID
- 적용된 권한 정책
- 프롬프트 버전
- 모델명과 호출 시간
- 출력 결과
- 사용자 수정 내용
- 승인 또는 반려 정보
- 비용과 처리 시간
로그는 개발팀만 보는 것이 아닙니다. 운영팀은 품질을 보고, 사업팀은 ROI를 보고, 보안팀은 접근 기록을 봅니다.
피드백: 사람이 수정한 데이터를 다시 쓴다
AX 파이프라인의 마지막은 피드백입니다. 사람이 AI 결과를 수정했다면 그 차이를 버리면 안 됩니다. 그 안에 업무 기준이 들어 있습니다. 어떤 표현을 바꿨는지, 어떤 추천을 반려했는지, 어떤 데이터가 부족했는지를 모아야 합니다.
피드백 데이터는 다음 개선에 쓰입니다.
- 프롬프트 수정
- 입력 데이터 추가
- UI 개선
- 자동화 범위 조정
- 위험 케이스 분리
- 교육 데이터 또는 평가셋 구성
피드백이 없는 AX는 매번 처음부터 시작합니다. 피드백이 있는 AX는 쓸수록 조직에 맞아집니다.
결론
기업 AX를 위한 데이터 파이프라인은 수집, 정제, 권한, 로그, 피드백까지 포함하는 운영 구조입니다. 데이터가 안정적으로 흐르고, AI가 권한 안에서 읽고, 결과와 사람의 수정이 다시 기록되어야 자동화가 오래갑니다.
AX의 성패는 모델 선택만으로 결정되지 않습니다. 조직의 업무 데이터를 얼마나 정확히 연결하고, 얼마나 안전하게 제한하고, 얼마나 꾸준히 개선 데이터로 되돌리는지가 더 중요합니다. 좋은 데이터 파이프라인은 보이지 않지만, 모든 AI 자동화의 바닥을 지탱합니다.
WRITTEN BY

박준규
기술이사전 삼성전자 PM, 매치스 플랫폼 상용화 주도




