본문 바로가기

단상/기술

DLSS 5, 성능이 아니라 패러다임의 변화를 봐야지

https://namu.wiki/w/DLSS#s-4

 

DLSS

파일:NVIDIA-DLSS-4.5.jpg D eep L earning S uper S ampling 2018

namu.wiki


최근 논란이 되고 있는 기술이다. GTC에서 발표되고나서 핫하다. 게이머로서는 신경쓰이지 않을 수 없는 기술이다. 기대도 많고 논란도 많아보인다. 그리고 이에 대한 비판이 상당히 맹렬하다. 거기에는 사실 3D 그래픽 아트에서 디자이너의 영역보다 기술의 영역이 커짐에 따른 반발도 있지 않을까 한다.

DLSS 5는 슈퍼 레졸루션(Super Resolution, 초해상도) 기술의 일종인 DLSS (Deep Learning Super Sampling) 시리즈의 차세대 버전이다. DLSS는 이미지를 딥러닝 기술을 이용해 시/공간적으로 보간하는 기술이다. 공간적으로 고해상도로 만드는 업스케일링, 시간적으로 보간하는 프레임 보간, 또한 이것도 이미지 생성기술의 연장선에 있기 때문에 부자연스러운 계단현상이 완화되는 안티에일리어싱 효과까지 포함하는 기술이다. 원리적으로 보면 DLSS 5는 기존의 DLSS와 다를 바 없는 딥러닝 기반 필터 기술이고 이를 통해 화질을 개선하는 기술이라 볼 수 있다.

 

그런데 왜 이제와서 논란이 될까? 가장 큰 논란은 저 기술이 단순히 해상도를 올리는 슈퍼 레졸루션을 넘어 화풍에까지 영향을 끼친다는 것이다. 디자이너의 의도와 다른 드래픽 변화가 나타나 디자인을 해친다는 것. 당연히 나올 수 밖에 없는 이슈고 나와야 한다. 이미지라는 건 미세한 차이로 인상이 확 달라지기도 하기 때문이다. 이미지 생성 기술 때문이 아니더라도, 올드 게임의 리마스터에서조차 항상 나오는 이슈다. 마비노기도 그래서 옛날에 디자인 된 옷들을 입으면 몸이 벽돌이 되는데 못 고친...

암튼.

그래서 저 기술은 나와서는 안 될 무언가였을까? 아니다. 내가 보기엔 필연이었다.

 

 

먼저 완전히 맥을 달리하는 새로운 기술이 아니라 DLSS와 본질적으로 다르지 않은 기술이기 때문이다. 위에서 언급했지만 그냥 딥러닝 필터링 기술이라고 보면 된다. 단지 원본 스타일을 그대로 유지하고 고해상도로 만드는 모델 대신 원본에 없던 질감이나 특징을 생성해내는 차이다. 하지만 애초에 이미지 필터라는 게 언제나 원본을 그대로 보존하는 것을 목적으로 하는 건 아닌 법이다. 원래 원본을 재구성, 재해석, 변화를 일으키는 게 필터의 역할이다.

 

그리고 또 하나의 중요한 것은, 이런 변화가 단순히 컴퓨터 그래픽을 보조하는 차원에서 발전하는 게 아니라, AI 분야에서 세상을 해석하는 방법의 변화를 담고 있는 변화에 속하기 때문이다. AI를 연구하는 연구 그룹과 산업계에서 AI를 보는 시각이 바뀐 이상 그것이 개별 기술에도 적용될 수 밖에 없다. 그리고 그 새로운 방향은, 단순히 AI가 현실의 극히 일부의 기능을 모사하는 게 아니라, 현실을 인지하는 인간의 해석을 모방하는 쪽으로 변하고 있음을 가리킨다. 그 방향성은 바로,

 

월드 모델이다.

슈퍼 레졸루션(Super Resolution, 초해상도)의 확장


나는 이전에 슈퍼  레졸루션 기술이 나왔을때, 저걸 어따 쓰는데? 라고 생각했다. 이미 많은 컨텐츠들이 고화질로 만들어지고 있었고, 3D그래픽은 실사에 가까운 수준에 해상도는 마음대로 설정할 수 있는 시스템이었다. 아무리 잘 만든 모델로 한다 해도 결국 모델의 편향성이 영상에 반영될 수 밖에 없고, 그러면 왜곡이 일어난다. 그리고 그걸 구현하는 기술은 딥러닝. 추론비용이 비싸다.

내 예상대로 슈퍼  레졸루션은 어디에나 요구되는 필수기술에는 이르지 못했다. 하지만 그 기능을 탑재한 TV가 나오고 다양한 곳들에 탑재되었으며 옛 컨텐츠들의 리마스터링에 활용되는 등 상용 기술로서는 충분히 정착했다. 그건 내가 컴퓨팅에 드는 비용이 시간에 따라 감소함을, 특히 전용 머신이 나온다면 훨씬 경감될 수 있다는 점을 간과한 탓이다.  그리고 기술의 발달은 생각보다 빨랐고,

이번에 나온 기술은 그 편향까지 이용해먹은 기술이다. 단점을 장점으로 만든 것이다. 애초에 슈퍼  레졸루션에서 그 편향은 잘 눈에 띄지도 않았지만.

 

아무튼 DLSS의 내용들을 보면 기본 기술은 이 해상도의 확장, 그리고 프레임간의 보간이다. 하지만 거기서 그치지 않고 광원 효과를 향상시키는 DLSS Ray Reconstruction (광선 재구성), DLAA (Deep Learning Anti-Aliasing), Smooth Motion 등의 기술들을 포함한다. 이런 건 어디까지를 단순 보간이라고 할 수 있을까? 혹은 이미지의 생성이라고 할 수 있을까? 혹은 이미지의 변형, 또는 재해석이라고 할 수 있을까? 애초에 그런 구분이 의미가 있을까?

 

슈퍼 레졸루션 자체가 대다수의 이미지에서 나타나는 패턴이 저해상도에서 어떤 식으로 뭉개지는지에 대한 법칙에 근거하여, 그걸 역으로 하여 저해상도 이미지를 고해상도로 바꾸는 기술이다. 여기에서 나타나는 건 통계적 타당성, 통계적 합리성이다. 사실 저런 기술들은 이전에 Deep Learning에 기반하지 않은 방법들로도 있었다. 그리고 그런 고전 방법에서는 고해상도 이미지가 저해상도로 다운 샘플링 될 때 어떠한 규칙에 의해서 이루어질 거라 가정하고, 그 규칙을 역산해 패턴을 재구성하는 식으로 구현되었다. 이런 방식은 주로 보간법 (Interpolation) 에 기반했는데, 그 패턴 구조가 어떻게 나타날지를 수리적인 모델로 설정해 계산했다고 할 수 있다. 슈퍼 레졸루션은 이를 수리적이 아닌 통계적으로, 다양한 데이터에서 자주 나오는 패턴에 따라, 학습 기반으로 이를 수행했다고 할 수 있다.

 

하지만 그렇다면 DLSS 5에서와 같은 비주얼 향상을 못 할 이유가 없다. 포토 리얼리스틱한 하이 레벨 그래픽이 저수준 그래픽에서 어떻게 뭉개지는지에 대한 통계적인 패턴을 역산해 하이 레벨 그래픽을 재현하는 것이다. 방법론이 같으며 데이터만 다르다. 물론 실제로 저렇게 고도의 그래픽을 재구성하기 위해서는 초기에 슈퍼 레졸루션을 구현했던 CAE (Convolutional Auto-Encoder) 와 같은 단순한 모델보다 더 복잡한 모델이 필요하긴 했을 것이다. 하지만 근본적인 원리는 같은 것이다.

 

기술적으론 동일 기술의 응용 정도 되겠다. 하지 않을 이유가 없다.

 

그리고 월드 모델, 세상을 보는 관점의 변화


아무튼 슈퍼 레졸루션 자체는 나에게는 그렇게 가치있는 기술로 다가오지 않았다. 하지만 이에 대해 내가 생각을 바꾸게 된 더 결정적인 이유는 동영상 생성 모델과 거기에서 나아간 월드 모델의 등장이었다. 그리고 그런 점에서, 이건 단순히 기존 기술의 변형과는 다른 의미를 가진다.

 

월드 모델은 간단히 말하면, 물리학 법칙이라는 수리적으로, 수학적으로 해석되는 원리를 고도화하기보다, 오히려 경험적으로 모델링하는 것을 말한다. 자동차가 가속하고, 공이 튀고, 물체가 부딪칠 때 튕겨나가거나 파괴되는 등등의 물리적 현상을 물론 수학적으로 해석할 수 있다. 그렇게 해석하여 만든 것을 물리 엔진이라 하고 시뮬레이터라고 한다. 하지만 좀 더 정밀한 세상을 구현하려니 난이도가 점점 올라가 너무나 많은 복잡한 계산이 필요해졌다. 하지만 그렇다면, 어라? 이미지도 그럴싸하게 잘 그리는 딥러닝 모델로는 안 되나?

 

월드 모델의 시작은 비디오 생성 모델이고, 비디오 생성 모델은 보기에 그럴싸한 물리법칙을 재현한다. 그건 바로 컴퓨터 그래픽과 그에 포함된 물리 엔진의 역할과 정확히 동일하다. 하지만 다들 경험해봤겠지만 비디오 생성 모델은 여전히 말도 안 되는 이상한 영상들을 많이 생성해낸다. 국지적으로 보면 그럴싸하지만, 전체 시퀀스를 놓고 볼 때 어색한 경우가 많다. 그건 프레임과 프레임 간의 자연스러움은 어떻게든 모사해 냈지만 긴 시간에 걸친 논리적인 타당성을 모사해내지 못했기 때문이다. 하지만 반대로, 기존의 컴퓨터 그래픽과 물리 엔진은 긴 시간에 걸친 논리적인 타당성을 모사하는 건 잘하지만 그 장면을 더 디테일하게, 더 사실적으로 표현하기 위해서는 컴퓨팅 자원을 어마어마하게 소모한다. 그로 인해, 로봇 연구에서도 시뮬레이션에만 의존하기보다 이런 월드 모델이 필요하다는 의견들이 나오고 있다.

 

나는 월드 모델을 그닥 신뢰하지 않는다. 하지만 그건 내가 하는 로보틱스 분야에서의 월드 모델이 지향하는 것이, 단지 눈에 보이는 영상이 아니라 물리세계의 모델링이란 너무 커다란 주제고, 아직까지 거기에 걸맞는 기술발달이 이루어지지 않은, 기술 성숙도의 문제지 방향성에 대한 문제가 아니다. 그리고 월드 모델이 지향하는 것 자체가, 물리 세계가 너무 복잡하니 통계적으로 접근하자, 라는 게 모티브이다. 그리고 현재 로봇에 적용하기엔 아직 미성숙한 기술이지만 이미 비디오 생성 기술은 어마어마하게 발달한 걸 모두가 알고 있다. 그러면.

그걸 그래픽에 이용하지 못할 이유가 무엇인가.

오히려, 이용하지 않아도 되는가?

 

컴퓨터 그래픽스, 그리고 차원의 저주


3D그래픽스의 문제는 계산해야할 대상이 늘어나면 늘어날수록 기하급수적으로 계산량이 폭발한다는 것이다. 화면 내의 오브젝트 수에 따라, 그 오브젝트의 메쉬와 텍스쳐 해상도에 따라, 광원에 따라, 뷰 포인트의 개수와 해상도에 따라, 그야말로 한 단계 올라가려 할 때마다 한도끝도없이 계산량이 늘어난다. 그걸 감당하기 위해 그래픽 기술이 무지막지하게 발전한 결과, 우리는 그걸로 AI연구에서 비약적 발전을 이루었다...

현재 고도로 발전된 그래픽 카드로 집집마다 엄청난 지능을 가진 LLM모델에 기반한 챗봇을 마음대로 이용할 수 있게 되었다. 그런데 정작 집집마다 실사에 가까운 그래픽 게임을 이용할 수 있나? 아니다. 물론 그건 그래픽 기술의 특성상 클라우드 서버에서 한번에 계산해 전송하기 어려운 특성때문도 있지만.

아마도 그래픽 기술에 대한 요구치는 더 빠르게 올라갈것이고, 개인이 소지할 컴퓨팅 파워가 이를 따라가지 못할 것이다.

한편 고화질 게임을 개발하는 비용은 이미 천문학적으로 증가하고 있다. 이제는 그냥저냥한 그래픽의 게임조차 천억 단위의 투자를 해야 만들 수 있는 레벨이 되었다. 게임의 개발비는 기하급수적으로 증가하고 있다. 그런데 게임 가격은 오르지 않는다. 오르기도 힘들다. 게이머들이 할 수 있는 게임은 이미 넘치도록 많고, 새로 나오는 게임은 수십 년 된 게임들과도 경쟁해야 한다.

그럼 그래픽이 게임계에서 빅 이슈가 아니기 때문일까? 아니다. 게이머들도 선택해야 하기 때문에 발생하는 문제다. 고 그래픽 게임의 경우 실사와 같은 영상미 대신 게임성을 포기해야 할 수도 있기 때문이다. 이미 수천억이 투자된 사업에서 도전적인 시도는 제한될 수밖에 없고, 때때로 악질적인 BM이 따르기도 한다. 게임에서 그래픽은 중요한 요소지만 전부는 아니다.

그런 상황에서 DLSS 5는 새로운 해법이 될 수도 있다. 더 심플한 디자인 난이도, 더 빠른 개발과 출시, 그에 비해 더 사실적이고 고화질의 그래픽 경험.

그게 디자이너의 예술성을 침범할까? 나는 그렇게 보지 않는다. DLSS 5와 같은 AI 증강 기술은 일종의 이미지 필터다. 사진사가 사진에 어떤 필터를 넣을 지 선택하는 것 또한 사진을 통한 예술 표현의 일부이듯이 DLSS 5의 필터를 고르고 설정하는 것 또한 그래픽 디자이너의 역할이자 역량이자 표현이자 기여가 될 것이다.

실제 공개된 예시에서 디자이너의 의도가 깨지지 않느냐고? 그건 지금 한 건 기술 공개지 디자인 공개가 아니기 때문이다. 예를 들어, 멋진 터치가 가능한 새로운 붓이 나와서, 그걸 만든 기술자가 '이 붓으로 이런 선도 그릴 수 있어요'하고 시연해 보이니 그걸 보고 '지금 그걸 그림이라고 그린 거냐'라고 놀리는 꼴이다.

당연히 디자이너가 선택할 수 있는 옵션은 늘어날거고 게임에 따라 그 그래픽 디자이너의 의도에 따라 옵션은 선택될 것이다. 기존 게임의 증강에는 적용되지 않더라도 새로운 게임은 적용될 것이다. 그리고 아예,

앞으로는 메쉬와 텍스쳐의 고도화보다 DLSS 5 필터의 정교한 설정이 그래픽 디자인의 핵심이 될 수도 있다. 왜냐하면 그래픽의 정밀도를 올리는 것 보다, 신경망 추론을 가속하는 게 일정 레벨 이상에서는 더 효과적인 그래픽 가속이 될 것이기 때문이다.

고 해상도에서 그래픽은 수많은 변수 요소가 곱해져 그야말로 기하급수적으로 복잡도가 늘어나지만 슈퍼 레졸루션과 같은 신경망 모델은 해상도에 비례한 비용밖에 들지 않으니까.

그래픽 뿐만이 아니라 앞으론 물리 엔진까지 저런 것이 적용될 것이다.

 

비판들과 결론

 

나무위키에는 아래와 같은 비판이 있다.

심지어 시연회에서의 설명 역시 완전히 과장된 헛소리였음이 밝혀지면서 비난이 더욱 커지고 있다. 시연회에서는 기하학적 수준에서의 생성 제어가 이루어진다는 설명에 더불어 광원, 텍스처, 그림자를 재해석한다는 식으로 마치 렌더 파이프라인의 정점이나 픽셀 단계에서 접근 가능한 것처럼 말했지만, 근본적으로 2D 프레임 후처리 기술인 DLSS의 특성상 지오메트리를 다룬다는 것은 가능성이 거의 없는 이야기이기에 전문가들은 처음부터 회의적이었다. 결국 얼마 지나지 않아 엔비디아 측에서 DLSS5는 지오메트리나 Z버퍼는 커녕, 모션 벡터와 단일 2D 프레임만을 입력받는 사실상 AI 이미지 필터나 다름없는 기술임을 인정하였다.
 즉, 예술적 의도를 존중한다는 발언 역시 그레이스의 외양을 통해 드러나는 예술적 의도를 완전히 무시한 것에서 보듯 립서비스성일 뿐이며, 개선 사항 적용범위를 개발자 레벨에서 제어할 수단은 현재로서는 전혀 없다는 것이다.

 

맞다. AI 이미지 필터라니까. 내가 DLSS 5를 높이 평가하는 건 그것이 기하학적 수준에서 생성 제어가 이루어져서가 아니다. 저런 설명이 있었나? 잘 모르겠지만 영상 보면 그냥 이미지 필터인데 뭘. 오히려 기하학적인 수준의 개입이 이루어지면 문제가 되며, 비판 내용에서도 자동차의 바퀴가 6개가 되는 등 생성오류가 나오는 것이 확인되었다고 한다. 그건 잡아야 할 요소다.

 

하지만 문제는 앞으로 계속 모든 디자이너들이 캐릭터의 솜털 하나하나까지 설계하고 모델링 할 수 있느냐는 거다. 못한다고. 지금 수천억 쏟아붇고 망하는 게임이 얼마나 많은데.

 

예술적 의도를 완전히 무시하며 개선 사항 적용범위를 개발자 레벨에서 제어할 수단이 전혀 없다는 건 과장이다. 실제 NVIDIA에서 DLSS 5가 어떻게 구현되고 그것의 인터페이싱이 어떻게 나올지는 솔직히 모르겠고, 그에 따라서는 저 말이 사실이 될 수도 있다. 하지만 NVIDIA가 바보가 아니고서야 최소한 저 필터를 제어하는 변수들을 조절할 수 있게 할 것이며 고유의 필터를 만들어 적용할 수 있게 만들 수도 있다. 다양한 필터 프리셋들을 개발자 애셋으로 제공할 수도 있다.

 

GPT에 물어보니 저 표현은 아래와 같은 문제제기라는 해석을 했다.

 

나 : DLSS 5와 같은 AI 를 통한 고화질 구현은 사실 AI 필터 기술이고 필터의 종류와 파라미터 등을 바꾸면 게임 제작자가 효과와 표현을 바꿀 수 있을 거 같은데 왜 다들 개발자 레벨에서 제어할 수단이 없다고 말하는거야?

더보기

짧게 말씀드리면
👉 “아예 제어가 없는 게 아니라, 원하는 수준으로 ‘정밀 제어가 안 된다’는 의미입니다.”


✅ 왜 “제어 못 한다”는 말이 나오는가

1. 필터가 아니라 “블랙박스 생성기”에 가까움

기존 필터:

  • 샤픈, 블러 → 파라미터 = 결과 직결

DLSS류:

  • 입력 → 신경망 → 출력
    👉 내부 변환 과정이 불투명

즉,

“파라미터를 바꾸면 결과가 어떻게 변할지 예측하기 어렵다”


2. “스타일”을 직접 지정할 수 없음

개발자가 원하는 건:

  • “이 재질은 거칠게”
  • “이 캐릭터는 원화 스타일 유지”

하지만 DLSS는:

  • 전체 화면 단위 처리
  • 로컬 의미(semantic) 제어 없음

👉 결과:

특정 오브젝트만 원하는 스타일로 유지하기 어려움


3. 학습된 분포에 끌려감

AI 모델은:

  • “가장 그럴듯한 방향”으로 출력

문제:

  • 그게 디자이너 의도와 다를 수 있음

예:

  • 애니풍 → 실사풍으로 살짝 변형
  • 텍스처 디테일이 과장됨

👉 개발자가 막기 어려움


4. 시간축 일관성 제어 문제

DLSS는:

  • 프레임 간 정보 사용

문제:

  • 특정 디테일이 프레임마다 달라짐
  • 미묘한 깜빡임 / 질감 변화

👉 이건 단순 파라미터로 해결 안 됨


5. “엔진 내부”가 아니라 “외부 모듈”

게임 엔진:

  • 모든 요소를 명시적으로 제어

DLSS:

  • GPU 드라이버 / SDK 레벨

👉 개발자 입장:

“내가 컨트롤 못 하는 영역에서 화면이 바뀐다”


🔥 핵심 정리

개발자들이 말하는 건 이겁니다:

“조절은 되지만, 의도대로 만들 수는 없다


✅ 그렇다면 당신 말이 틀린 건가?

👉 아닙니다. 오히려 방향은 맞습니다.


✔ 맞는 부분

  • DLSS = 필터
  • 파라미터/모델 선택으로 스타일 변화 가능
  • 결국 디자인 요소로 흡수될 가능성 있음

❗ 현재 한계

  • 제어 granularity 부족
  • semantic control 없음
  • 결과 예측 어려움

🔮 그래서 미래는?

당신 글의 주장과 연결하면 핵심은 이겁니다:


지금

  • “AI가 멋대로 바꾼다”

앞으로

  • “디자이너가 AI를 디렉팅한다”

실제로 갈 방향

  • region-based control
  • material-aware DLSS
  • style-preserving mode
  • prompt 기반 제어 (가능성 있음)

🔥 글에 쓰기 좋은 한 문장

이거 넣으면 논쟁 부분 완벽해집니다:

“문제는 제어가 불가능한 것이 아니라,
아직 디자이너의 의도를 정밀하게 반영할 만큼
제어 수단이 성숙하지 않았다는 점이다.”


✅ 한줄 결론

👉 “DLSS는 제어 불가능한 기술이 아니라,
‘아직 디자이너가 다루기엔 거친 도구’다.”


원하시면
👉 이 내용을 글에 자연스럽게 녹여서 논란 반박 파트로 정리해드리겠습니다.

 

그런데 반대로 생각해보자. 정말로 DLSS 5가 적용되지 않은 지금은 정밀제어가 되고 있다고 생각하나?

 

 

물리엔진 버그로 악명높은 써든어택 2다. 물론 이 역대급 망겜은 매우 과장된 사례지만, 3D 게임 하면서 이런 오류는 무수히 많이 보았을 것이다. 그래픽 시스템은 갈수록 너무 복잡해지고 있고, 그 모든 디테일을 디자이너가 완벽히 통제하는 건 어려워지고 있다. 캐릭터, 복장, 환경 애셋 등등 하나하나 디자인하는 게 너무 복잡하고 비용이 많이 들어 동일한 애셋을 재사용하는 경우도 많다. 그것 또한 몰입감을 해치는 요소가 된다.

 

어차피 현재의 컴퓨터 그래픽이란 것 자체가 현실 그대로가 아닌 현실의 모사이자 근사일 뿐이다. 아무리 디자이너의 의도로 캐릭터나 애셋의 디자인을 설계한다 해도 광원, 그림자, 카메라, 상호작용 등의 변수에 따라 자연스럽지 않은 상황들이 나온다. 하물며 컴퓨팅 파워로 인해 그래픽 수준을 낮추면 더하다. 다시 말하지만 개인이 소유할 수 있는 컴퓨팅 파워는 무한하지 않다. 그리고 자연스러운 묘사를 위해 점점 복잡한 물리적인 특성들이 그래픽에 반영되고 있고, 그 복잡도에 따른 계산 난이도는 폭발적으로 오른다. 차라리 잘 튜닝된 AI 필터 하나가 더 가성비 있게 먹힐 수도 있다.

 

위 나무위키에 정리된 비판 자체가 얼토당토 않다는 게 아니다. 다만 저러한 문제들은 기술의 성숙도에 따른 일시적 문제일 가능성이 높으며, 일부 문제가 쉽게 해결되지 않더라도 가성비 측면에서 오히려 더 나은 선택이 될 수 있다는 것이다.

 

당장의 기술의 퀄리티에 대해서는 일단 나와보고 평가하려 한다. 하지만 그거와 별개로 저 방향성 만큼은 의의가 있다. 겔폴드가 나왔을 때, 내구성에 대한 이슈가 계속 제기되었고, 나도 겔폴드 4를 중고로 구입했다가 1년도 못 쓰고 액정이 개박살이 나는 참사를 겪었다. 하지만 폴더블 폰 자체가 쓰레기라고 누가 생각할까. 패러다임의 변화는 그 자체로 주의깊게 볼 필요가 있다. 왜냐하면 그런 변화는 결국 계속 이어지기 마련이기 때문이다.