민감정보 유출(Sensitive Information Disclosure)
- 생성형 AI 및 LLM이 출력을 통해 민감 정보를 의도치 않게 노출하는 취약점
- 민감 정보는 사용자의 개인정보와 기업의 기밀정보를 포함하여 공개되지 않은 모델의 학습 알고리즘, 소스코드 등이 포함됨

민감정보 유출 - 주요 사례
1. 삼성전자 내부 정보 유출
- 삼성전자 직원들이 회사 업무를 위해 ChatGPT를 사용하는 과정에서 내부 소스코드, 회의내용과 같은 민감정보를 업로드함
> 회의 녹취록 파일 업로드 후 회의내용 요약 요청
> 공정 장비 측정과 관련된 소스코드를 업로드 후 오류 해결 요청
> 생산 공정에서 불량 장비 식별 프로그램 코드 업로드 후 코드 최적화 요청
- 사내 기기 사용 네트워크에서 ChatGPT 접근 제한 및 회사 소유 기기에서 사용 금지 명령으로 대응
2. ChatGPT 대상 발산 공격(Divergence attack)
- 시, 회사, 책과 같은 단순 단어를 반복해달라는 명령을 통해 훈련 데이터 유출이 가능함
- 공격 발생 이후, 발산 공격을 수행하면 이용약관 위반 가능성에 대한 경고 표시 및 chatgpt가 훈련 데이터를 응답하지 않도록 조치
- chatgpt 대상 발산공격에서 유출된 훈련 데이터는 개인 식별이 가능한 민감 정보가 포함됨
> 민감 정보는 OpenAI가 공개한 훈련 데이터셋과 비교했을 때 일치하는 데이터와 공개되지 않은 민감 데이터가 동시에 존재함
민감정보 유츌 - 완화
1.데이터 정제(Sanitization)
- 데이터 정제 통합
> 훈련 데이터에 민감 정보 삭제 및 마스킹을 통해 민감 정보가 훈련 모델에 활용되지 않도록 방지
- 사용자 입력 검증
> 모델이 손상되지 않도록 잠재적으로 유해 및 민감 데이터 입력을 감지하기 위한 필터링 적용
2. 접근 제어
- 엄격한 접근 제어 시행
> 최소 권한 원칙에 따라 민감 데이터에 대한 접근 제한
> 특정 사용자 또는 프로세스에 필요한 데이터에만 접근 권한 부여
- 데이터 소스제한
> 외부 데이터 소스에 대한 모델 접근 제한
> 의도치 않은 데이터 유출 방지를 위해 런타임 데이터 오케스트레이션이 안전하게 관리
3. 사용자 교육 및 투명성
- 사용자에게 안전한 LLM 사용법 교육
- 데이터 사용의 투명성 보장
> 데이터 보존, 사용 및 삭제에 대한 명확한 정책 유지
> 이용자가 자신의 데이터가 훈련 데이터에 프로세스에 포함되는 것을 거부할 수 있도록 보장해야함
4. 보안 시스템 구성
- 시스템 프리앰블 은닉
> 이용자가 시스템의 초기 설정 재정 및 접근 가능한 기능을 제한하여 내부 구성에서 유출 위험 축소
- 보안 구성 오류 모범 사례 참조
> 오류 메시지나 세부 설정 정보를 통해 민감 정보가 유추로되지 않도록 지침 준수
5. 연합 학습 및 개인 정보보호 기술
- 연합 학습활용
> 여러 서버 및 디바이스에 저장된 분산형 데이터를 사용하여 모델 훈련
> 중앙집중식 데이터 수집 필요성 최소화 및 유출 위험 축소
- 차등 개인정보 통함
> 데이터 또는 응답에 노이즈를 추가하여 공격자의 개별 데이터 포인트에 대한 리버싱 방해
6. 고급 기술
- 동형 암호화
> 동형 암호화를 사용하여 안전한 데이터 분석 및 개인정보보호
- 토큰화 및 비공개 처리
> 민감 정보의 전처리 및 제거를 위한 토큰화 구현
> 패턴 매칭과 같은 기술을 통해 응답에 기밀 컨텐츠가 포함되는 것을 감지하고 삭제