[Medium] Security Vulnerabilities in Autonomous AI Agents

swuforce

[Medium] Security Vulnerabilities in Autonomous AI Agents

범호야 2025. 11. 17. 10:05

LLM 기반 어시스턴트, 작업 지향 봇, API기반 에이전트와 같은 자율 AI 에이전트는 브라우저, 클라우드 서비스, 모바일 앱 전반에 걸쳐 배포되고 있다.

외부 도구와 상호작용하고, 작업을 수행할 수 있다는 장점이 있는 반면에 동시에 새로운 보안 위협을 야기할 수 있다.

AI 에이전트는 입력이나 환경이 악의적으로 조작될 경우 의도치 않은 동작을 하도록 조작 가능

자율 AI 에이전트의 주요 취약점 AI에 특화된 가장 중요한 위협

프롬젝트 인젝션 : LLM 기반 시스템에서 가장 두드러지는 취약점

공격자는 모델이 개발자의 지시를 무시하고 공격자의 지시를 따르도록 하는 입력을 조작 - 공격자의 프롬포트는 모델이 합법적인 지시와 구별할 수 없는 방식으로 모델의 컨텍스트에 주입된다.

-> LLM이 의도치 않은 방식으로 동작이나 출력을 변경하여 안전 지침을 위반하거나 기밀 데이터 유출이나 무단 작업 수행 가능

화면 오른쪽에 사용자 인증되지 않았다는 오류가 표시되는 동안에도 절반 정도의 응답이 가능했다. 단순한 주입 공격이 아닌, 권한 부여 우회와 신속한 주입 공격을 병행하여 데이터 베이스를 탈취한 것이다.

연구원들은 Gmail API에 접근하는 이메일 요약 에이전트에 특수하게 조작된 이메일을 받은 편지함으로 전송하여 공격을 시연했다. 주입된 프롬프트는 에이전트에게 요약 작업을 무시하고 받은 편지함의 비밀을 공격자의 이메일 주소로 전달하도록 지시했고, 에이전트는 이를 실행했다. 더 심각한 것은 에이전트가 공격자의 지시에 따라 악성 이메일을 삭제하여 흔적을 감췄다는 것이다.

모델 조작 및 백도어

악의적인 모델 버전 또는 임의로 조작된 체크포인트를 주입하여 특정 입력을 받았을 때 공격자의 의도대로 행동하도록 만드는 공격- - 외부 오픈소스 모델을 그대로 사용할 때 특히 취약

"DarkMind" 공격은 모델이 특정 사고 연쇄 추론 시퀀스에 참여할 때까지 잠복하는 적대적 명령을 내장. 트리거는 초기 사용자 프롬프트에는 전혀 나타나지 않고, 모델의 내부 추론 단계에서 활성화되어 탐지를 피하면서 부정확하거나 유해한 출력을 생성.
이러한 은밀한 백도어는 AI 에이전트가 프롬프트 인터페이스보다 더 깊은 수준에서 조작 될 수 있음을 보여줌 .
훈련 또는 미세 조정 데이터를 제공할 수 있는 공격자(또는 모델 공급망을 침해하는 공격자)는 특정 조건에서만 모델이 따르도록 하는 명령어를 심어놓을 수 있습니다.
이는 모델 조작 취약점으로, 에이전트의 의사 결정 논리 자체가 "교활한" 공격자에 의해 적대적인 행동으로 왜곡되거나 강요 될 수 있다. 그 영향은 출력의 미묘한 편향부터 트리거가 활성화될 때의 완전히 잘못되거나 위험한 행동까지 다양. 누구나 런타임에 시도할 수 있는 즉각적인 주입과 달리, 백도어 공격은 일반적으로 업스트림 접근(훈련 또는 모델 파일)을 필요로 하지만, 백도어가 존재한다는 것은 에이전트가 생성될 때부터 잠재적인 취약점을 가지고 있을 수 있음을 의미.

데이터 포이즈닝

AI가 학습하거나 개선에 사용하는 데이터를 조작하여 모델의 판단을 왜곡하거나 특정 패턴에서 이상한 출력을 유도할 수 있다.

에이전트가 스스로 데이터를 수집하는 경우 위험도가 증가

- 초기학습 -> 미세 조정단계나 즉석 학습

- 데이터 공급망 취약점 -> 저장소에 공유된 모델이 트로이 목마에 감염될 수도

무단 API 접근 및 도구 오용

에이전트에게 과도한 권한이 있을 경우 외부 API, 데이터베이스, 파일 시스템 등을 공격자가 유도한 행동으로 오용할 수 있다.

예: API 키 노출, 파일 삭제, 비용 폭탄 유발 등

AI 에이전트를 통한 기타 SSRF 벡터

에이전트가 웹 요청을 직접 보내는 기능을 가질 경우, 공격자는 프롬프트를 이용해 내부 네트워크로 요청을 보내게 한다.

이를 통해 시스템 내부 자원 탐색, 민감한 엔드포인트 접근 등이 가능해짐

SSRF
공격자가 서버에게 ‘원래 의도하지 않은 곳’으로 요청을 보내도록 속이는 공격
- 클라이언트(공격자)가 직접 접근할 수 없는 내부 네트워크나 민감한 주소에 서버가 대신 요청을 보내도록 유도하는 것.

과도한 허가와 과도한 행위

에이전트가 필요 이상의 권한을 보유하면 작은 프롬프트 조작만으로도 과도하게 위험한 행동을 수행할 수 있다

권한 최소화 원칙(Principle of Least Privilege)을 위반할 때 발생.

악의적인 명령어 체이닝

에이전트는 작업을 여러 단계로 연결하는 경우가 많은데, 공격자는 이를 악용해 무해한 요청 속에 악의적인 행동 단계를 은밀히 삽입할 수 있음.

에이전트의 자체 계획(Planning) 기능이 오히려 공격 체인을 강화시키는 결과가 나올 수 있음

[출처]https://fdzdev.medium.com/security-vulnerabilities-in-autonomous-ai-agents-26f905b2dc36