본문 바로가기
사이버 안전

생성형AI(GenAI)에 대한 레드팀 활동(Red Teaming)

by renesuno 2024. 5. 1.
반응형

생성형AI (GenAI)에 대한 보안에서 레드팀 활동(Red Teaming)은 선제적으로 위험을 파악하고 측정하는 중요한 부분이다. 생성형AI(GenAI)은 빠르게 혁신을 이루고 기존의 업무 프로세스를 자동화하며 일하는 방식을 재구성하는 중요한 변화 요인으로 부상했다. 오늘날 55% 이상의 기업이 생성형AI 솔루션을 시험하거나 적극적으로 사용하고 있다고 한다.

 

* 레드팀: 사이버 보안 테스트에서 평가에 참여하는 다양한 팀 중 레드팀은 공격 작전을 담당하여 잠재적 공격자를 시뮬레이션하는 그룹이다

 

Credit: Flickr

 

그러나 이러한 전망에도 불구하고 생성형AI는 상당한 위험 요소를 내포하고 있다. ISMG의 비즈니스 및 사이버 보안 전문가를 대상으로 한 설문 조사에 응답한 사람들은 생성형AI 구현과 관련하여 데이터 보안이나 민감한 데이터 유출, 개인 정보 보호, 환각, 오용 및 사기, 모델 또는 출력 편향 등에 대한 여러가지 우려를 지적했다. 생성형AI 사용에 대한 추가 보호장치를 만들려는 조직에게 있어서 레드 팀을 활용하는 것은 이러한 위험을 선제적으로 발견하기 위한 전략 중 하나이다. 여기에 대한 작동 방식을 살펴보겠다.


생성형AI를 위한 레드팀 활동 시 고려 사항

생성형AI 레드팀은 복잡한 다단계 프로세스로서 기존의 AI 시스템이나 전통적인 소프트웨어에 대한 레드팀 활동과는 크게 다르다. 먼저, 기존의 소프트웨어나 전통적인 AI 레드팀이 주로 보안 결함을 식별하는 데 초점을 맞추고 있는 반면, 생성형AI 레드팀은 책임 있는 AI 위험을 고려해야 한다. 이러한 위험은 공정성 문제가 있는 콘텐츠를 생성하거나 미지의 또는 부정확한 정보를 생산하는 등 다양할 수 있다. 생성형AI 레드팀은 잠재적인 보안 위험과 책임 있는 AI 실패를 동시에 탐색해야 한다. 또한, 생성형AI 레드팀은 전통적인 레드팀보다 확률적이다. 전통적인 소프트웨어 시스템에서 동일한 공격 경로를 여러 번 실행하면 유사한 결과가 나올 가능성이 높다.

그러나 생성형AI  다단계의 결정 불확실성으로 인해 동일한 입력에 대해 다른 결과를 도출할 수 있다. 이는 앱별 로직이나 생성형AI 모델 자체로 인한 것이다. 때로는 시스템 출력을 제어하는 오케스트레이터가 다른 확장 기능이나 플러그인을 활용할 수도 있다. 잘 정의된 API와 매개변수를 갖춘 전통적인 소프트웨어 시스템과 달리, 레드팀은 기술을 평가할 때 생성형AI 시스템의 확률적인 성격을 고려해야 한다.

마지막으로, 다양한 유형의 생성형AI  도구 사이의 시스템 아키텍처는 크게 다르다. 독립형 응용 프로그램, 기존 응용 프로그램과의 통합, 텍스트, 오디오, 이미지 및 비디오와 같은 입력 및 출력 양식이 있다. 이러한 다양한 시스템 아키텍처로 인해 수동 레드팀 프로빙을 실시하기가 매우 어려워진다. 예를 들어, 브라우저 호스팅 채팅 인터페이스에서 폭력적인 콘텐츠 생성 위험을 발견하기 위해 레드 팀은 여러 번 다른 전략을 시도하여 잠재적인 실패의 증거를 충분히 모아야 한다. 모든 유형의 피해, 모든 양식 및 전략에 대해 이를 수동으로 수행하는 것은 극도로 지루하고 느릴 수 있다.

Credit: rawpixel.com

 

 

생성형AI 레드팀 활동을 위한 Best Practice

수동 레드팀 활동은 시간이 많이 걸리고 노동 집약적인 프로세스이지만 잠재적인 블라인드 스팟을 식별하는 가장 효과적인 방법 중 하나이다. 레드팀은 또한 일부 측면을 자동화하여 일상적인 작업을 자동화하고 더 많은 관심이 필요한 잠재적으로 위험한 영역을 식별하는 데 도움을 줄 수 있다.

마이크로소프트에서는 생성형AI 시스템에 대한 레드팀을 위해 Python Risk Identification Tool for generative AI (PyRIT)라는 오픈 자동화 프레임워크를 사용한다. 이는 수동 생성형AI 레드팀 활동을 대체하기 위한 것은 아니지만, 기존 도메인 전문 지식을 보완하고 잠재적으로 위험한 영역을 자동화하며 잠재적인 위험을 식별하기 위한 새로운 효율성 향상을 창출할 수 있다. 이를 통해 보안 전문가는 자신의 생성형AI 레드팀 전략과 실행을 제어할 수 있으며, PyRIT은 보안 전문가가 제공한 유해한 프롬프트의 초기 데이터 집합을 기반으로 잠재적으로 해로운 프롬프트를 생성하는 자동화 코드를 제공할 수 있다. PyRIT는 또한 생성형AI 시스템의 응답에 따라 전술을 변경하고 다음 입력을 생성할 수 있다.

사용하는 방법에 상관없이, PyRIT와 같은 생성형AI 레드팀 활동 리소스를 산업군 전반에 공유하는 것은 모든 조직을 견고하게 만든다. 레드팀은 선제적인 생성형AI 보안의 중요한 부분이며, AI 위험을 매핑하고 식별된 위험을 측정하고 이를 최소화하기 위한 범위를 확장할 수 있게 한다. 이를 통해 기업은 최신 AI 기술을 책임 있게 혁신할 수 있는 확신과 보안을 얻을 수 있다. 최고의 결과는 기업이 위협이 나타나기도 전에 그 위협을 탐지하는 것이다.

 

 

출처: Microsoft Security, Microsoft (2024년 4월 29일)

반응형