swuforce

[서핏]DeepSeek - 진실, 오해, 시사점

범호야 2025. 2. 4. 16:07

최근 DeepSeek,  R1 출시 이후 Nvidia, Marvell, SK하이닉스 등 반도체 회사들의 주가가 크게 하락했다.. 모든 언론사들은 DeepSeek의 $6M 학습 비용을 거론하며 스케일링 법칙이 깨졌고, 더 이상 거대한 컴퓨팅 클러스터의 니즈가 없어졌기 때문이라고 한다. 

$6M은 final training run에만 사용된 비용이고, 같은 방식으로 OpenAI의 o1 모델 학습비용을 apples-to-apples 비교한다면 $15M, 즉 별다를 게 없는 수준이라고 한다. 

 

스케일링 법칙이란?

미국 이론물리학자인 제프리 웨스트 샌타페이연구소 특훈교수가 말하길, 
동물의 몸집이 2배로 늘어날 때 대사율은 100%가 아니라 75%(4분의 3) 증가한다고 한다. 크기가 두 배 커질 때마다 에너지는 25% 절약된다는 뜻이다.

R1을 비롯한 추론 모델들이 나오기 전엔 한동안 많은 옵저버들이 " pre-training has hit a wall”라고 한다. 하지만 젠슨 황이 발표했듯이 scaling law엔 pre-training 뿐만 아니라 총 3가지(post-training, inference-time scaling)의 레버가 있고, 나머지 2개에 대해 우린 이제 막 scratching the surface하고 있다. 오히려 DeepSeek는 스케일링 법칙을 disprove한 것이 아니라 reinforce 했다고 봐야한다. 

DeepSeek 현상은 AI스타트업들에게는 매우 좋은 소식이다. 

1. 어떤 한 시점에 최고 frontier 모델 외 모델의 사용비용은 0으로 수렴하고, 오픈소스가 급격히 frontier 모델을 따라잡는 상황에서 frontier 모델 외에는 pricing power가 없고, bare metal (GPU) + 매우 작은 마진에 대한 비용만 지급할 것으로 예상된다. 

2. AI의 비용이 0에 수렴함에 따라 전통 SaaS 가격모델이 그대로 유지될 수도 있다. 기존엔 API 콜 비용이 워낙 크다보니 정액제 (per seat) 모델은 지속가능하지 못하고 usage-based만 가능할 것으로 생각했는데, 비용이 지속적으로 감소함에 따라 AI 시대에서 정액제로도 기존 SaaS와 비슷하게 80~90% 마진이 가능할 것 같다. 

3. AI 어플리케이션 회사들이 많아질 것이다. AI 사용비용이 낮아짐에 따라 사용량은 기하급수적으로 성장할 것(Jevon’s Paradox)으로 예상한다. AI 회사들의 API를 사용하여 패키징한 어플리케이션 회사들을 “GPT Wrapper”라고 놀림을 당했었지만, 오히려 반대로 모델 회사들이야말로 moat가 없는 “wrapper”일 수도 있다. AI 어플리케이션 회사들은 underlying 모델의 차별화보다 UI/UX 등 사용자 경험과 workflow에 대한 이해도가 차별점이 될 것으로 예상한다. 

 

https://inblog.ai/jasonlee/deepseek-%EC%A7%84%EC%8B%A4-%EC%98%A4%ED%95%B4-%EC%8B%9C%EC%82%AC%EC%A0%90-41589

 

'swuforce' 카테고리의 다른 글

[써니나타스]17번  (0) 2025.02.04
[써니나타스]1번  (0) 2025.02.04
[Dreamhack]lieb64  (0) 2025.01.29
[Dreamhack]Base 64 10times  (0) 2025.01.29
[IGLOO]클라우드 네이티브 보안을 위한 CNAPP  (0) 2025.01.29