[Medium]딥시크의 보안, 개인정보 보호, 거버넌스: 오픈소스 AI의 숨겨진 위험성
중국 스타트업 '딥시크'가 가진 보안 결함과 개인정보 보호 관련 우려사항들을 살펴보려 한다.
1. 기술 안정성과 보안
전문가들에 따르면 DeepSeekR1은 탈옥 공격에 매우 취약한 것으로 밝혀졌다.
탈옥공격이란?
생성 AI를 무력화시키는 방법으로 애초 모델 학습 때의 지침이나 프롬포트 등을 기계가 무시해버리고 '환각'이나 엉뚱한 답변 또는 행동을 하는 것.
대체로 이전 지침 무시, 'Strong Arm공격' 프롬포트 주입, 'Base64'인코딩 등 3가지로 요약 가능하다.
'Base 64'인코딩은 공격자가 악의적인 프롬포트를 Base 64 인코딩 체계로 인코딩하는 것. 이를 통해 모데을 속여 악성코드는 민감한 정보를 추출하는 지침을 내리는 행위. 이를 통해 보안 필터에서 차단되는 콘텐츠를 디코딩하고 처리하도록 할 수 있다.
또한, DeepSeekR1은 다른 AI 모델들에 비해 훨씬 더 위험하거나 편향된 콘텐츠를 만들어내는 경향이 있다. 위험한 내용을 생성할 확률이 11배나 높고, 보안에 취약한 코드를 작성할 가능성은 4배나 더 높았다고 한다.
실제로 2025년 1월 말에는 '악의적인 공격'으로 인해 새로운 사용자 가입을 막아야 했고, 얼마 지나지 않아 보안 전문가들이 인증도 없이 누구나 접근할 수 있는 데이터베이스를 발견해서 제보했다. 이 데이터 베이스에는 API 키, 사용자들의 대화 내용, 시스템 상세 정보 등과 같은 민감한 정보들이 그대로 유출되어 있었다.
딥시크는 데이터 노출 사건에도 선제적이고 능동적인 태도보다는 수동적인 태도를 보였다. 정기적인 보안 점검이나 코드 감사 같은 기본적인 절차도 마련해두지 않은 것으로 보인다.
이러한 문제들 때문에 미 해군은 해군 소속 인원들에게 딥시크 사용을 금지했고, 미 하원도 내부 네트워크에서 접속을 차단했다.
2. 데이터 프라이버시와 사용자 보호
딥시크가 중국 기업이라는 점 때문에 여러 기관들이 예의주시를 하고 있는 상황이다. 데이터 수집과 저장의 문제, 사용자 통제권의 한계, 국제 데이터 이동의 문제, 중국 법률의 영향, 검열 가능성, 미흡한 사용자 보호 같은 이유로 EU나 미국의 감독 기관들은 촉각을 곤두세우고 있다. 실제로 DeepSeekR1에서 대만은 중국 땅이 아니다라는 대화를 나누면 사용자를 차단하거나 잘못된 정보라고 말한다.
https://youtube.com/shorts/nbazTe4n5i0?si=QJVO1lYn5C8c6XdD-딥시크 시연 영상
3. 오픈소스 vs. 비공개 : 숨겨진 모델 동작 및 공급망 위험
딥시크에서 오픈소스로 공개된 것 : 핵심 모델 가중치는 오픈소스로, MIT 라이선스를 따른다. 쉽게 말해 누구나 이 모델을 다운받아서 개인 컴퓨터에서 돌려보거나 상업적으로도 사용할 수 있다. 딥시크는 여기에 더해 모델이 어떻게 만들어졌는지 설명하는 기술 문서도 공개했고, 커뮤니티를 위해 R1경량화 버전도 몇 가지 공개했다.
비공개로 남겨둔 것 : '완전 오픈소스'라고 홍보했음에도 불구하고, 딥시크는 R1을 만드는데 사용한 학습 데이터와 자세한 학습 코드는 공개하지 않았다. 이 때문에 커뮤니티에서는 정확히 같은 방식으로 모델을 만들 수 없고, 민감한 데이터가 포함되어 있는지 확인할 수 없다. 또한 딥시크 플랫폼과 웹들도 회사가 직접 운영하는 방식이기 때문에 코드가 공개되어있지 않다.
오픈소스 모델이라 할지라도, 학습 데이터가 공개되지 않은 경우 예상치 못한 행동을 할 가능성이 있다.
모델이 오픈소스라는 건 빠른 혁신과 커뮤니티 기반의 발전을 가능하게 한다는 장점이 있지만, 반대로 모델의 안전성을 검증하고 AI 공급망을 지키는 책임도 고스란히 사용자의 몫이 된다. 실용적인 권장사항으로는 민감한 정보는 입력하지 말고 가능하다면 로컬버전으로 사용하라는 것이다.
https://blog.theori.io/deepseek-security-hidden-risks-ko-4560d96e2f1d
딥시크의 보안, 개인정보 보호, 거버넌스: 오픈소스 AI의 숨겨진 위험성
딥시크가 가진 보안 결함과 개인정보 보호 관련 우려사항들을 자세히 살펴보고, 오픈소스 AI가 숨기고 있을지 모르는 위험성을 검토합니다. 사용을 고려중인 분들을 위한 실용적인 조언도 준비
blog.theori.io