본문 바로가기

AI/LLM

2025년 K-LLM 총 결산..?

https://www.aitimes.com/news/articleView.html?idxno=205216

 

2025년 국내 AI 모델 30개 이상 출시...'국가대표' 프로젝트의 결과 - AI타임스

2025년 국내는 'AI 모델 풍년'을 맞았다고 해도 과언이 아니다. 무려 30개가 넘는 다양한 크기의 모델이 출시됐다.이는 정부의 '독자 AI 파운데이션 모델

www.aitimes.com

 

저렇게만 보면 어마무시하고 정말 한국이 AI 기술을 선두하는 엄청난 국가로 보인다. 물론 저 결과를 만들어내기 위해 많은 분들이 노력해 왔을테고 그걸 모두 까내리고 싶진 않다. 오히려 박수치고 싶다. 정말 수고 많았다고.

 

하지만 그래서 한국 AI의 전망은? 글쎄...

 

 

모델이 너무 작다

 

먼저 치명적인 문제 하나. 저기 보면 100B 이상의 모델이 하나도 보이지 않는다. 개인적으로 엑사원 3.5 32B 모델을 써보고 상당히 준수한 성능임을 확인했다. 하지만 32B 모델 자체의 한계가 있다. 체급이 딸리는 것이다. 그리고 AI 연구개발에서 체급은 그냥 GPU 더 넣으면 해결되는 그런 문제가 아니다.

 

AI 분야에서는 Model Capacity라는 개념이 있다. 모델이 저장할 수 있는 정보의 용량을 말한다. 모델이 크면 클 수록 더 많은 정보를 저장할 수 있다. 메모리와 같다. 하지만 메모리와 다른 부분이 있다. 그건 냅다 큰 모델에 적은 정보를 넣으면 성능이 안 나올 수 있다는 것. 대표적인 이유가,

 

https://brunch.co.kr/@gimmesilver/44

 

Overfitting 과  Underfitting

관련링크 https://www.facebook.com/groups/TensorFlowKR/permalink/745634182444309/ https://www.facebook.com/groups/TensorFlowKR/permalink/759594357714958/ 대개 많은 자료에서 overfitting 과 underfitting 을 모델의 복잡도 측면

brunch.co.kr

오버피팅 문제다. 모델이 온갖 디테일을 잡아낼 수 있을 정도로 크면 불필요한 디테일까지 다 잡아내느라 오히려 성능이 떨어지는 현상이다. 학습 데이터에서는 온갖 노이즈까지 다 잡아내지만 노이즈는 노이즈일 뿐, 노이즈까지 정보로 오인해 잡아내느라 정작 일반적인 패턴을 놓치는 현상이 발생한다.

 

따라서 큰 용량의 모델을 학습시킬 땐 그에 맞는 적절한 데이터의 양, 데이터의 분포, 학습 방법 등이 필요하다. 저 성과를 그냥 스케일업 하면 끝나는 게 아니란 것이다.

 

뭐, 첫 술에 배부르랴, 다음에 그쪽도 더 하면 되지, 라고 하기엔 문제가 많다. 왜냐하면, 저 기업들이 과연 더 많은 리소스를 들여 더 고수준의 모델을 개발하는 데 얼마나 투자를 더 할까 하는 문제가 있기 때문이다.

 

투자 규모 축소?

 

https://www.etnews.com/20250907000022

 

정규돈 카카오 CTO “LLM은 OS… 그 위에 무엇을 만들지가 관건”

정규돈 카카오 최고기술책임자(CTO)가 'AI 네이티브'에 대한 관점을 공유했다. 강력한 거대언어모델(LLM)은 운용체계(OS)처럼 바라봐야 한다면서, AI를 활용한 코딩 등 인식 전환이 필요하다고 강조

www.etnews.com

 

모델 개발보다 모델 활용에 초점을 맞추는 쪽으로 돌아서는 듯 하다.

 

https://www.100ssd.co.kr/news/articleView.html?idxno=203006

 

명분은 AI 직무 전환 ‘재배치’… SKT 산하 AI CIC 인력 ‘지방 발령’논란 - 백세시대

최근 고객 개인정보 해킹 피해 보상 증가 비용 ‘인건비 감축’ 전가 비판도 회사 “전원 지방 발령 사실 아냐…전사 차원 AI 전환 일부 전환배치” 해명[백세시대

www.100ssd.co.kr

 

SKT 는 시작하자마자 사람 자르는 중.

 

개인적인 의견으로도 모델 개발보단 모델 활용에 투자하는 게 맞다. 하지만 그건 그쪽이 더 현명하기 때문이 아니다. 모델 개발이 늦었기 때문이다. 왜냐하면 LLM 모델 만드는 건 진즉에 경쟁 끝났기 때문이다. 우리나라는 그 트렌드를 전혀 따라가지 못했다.

 

지금 구글과 오픈AI가 한창 경쟁중 아니냐고? 아니다. 걔들이 경쟁하는 건...

 

멀티모달 LLM은 어디?

https://wikidocs.net/217849

 

저 항목이 생겨난게 2023.10 이다. 23년에 이미 GPT에 이미지 처리가 들어갔고 지금은 LLM 챗봇이 이미지를 입력받지 못한다는 걸 일반인은 이해 못한다. 그런데 위의 24년 국내 모델 중 멀티모달을 지원하는 게 몇개인가? 엑사원은 이야기가 없고 별도의 의료 특화모델에서 이미지를 처리한다는 말만 나와있다. 일반적인 VLM이 아니다. 하이퍼클로바는 말이 없고, 카나나도 소형 멀티모달 (3B) 만 나온 수준, VARCO 가 그나마 이미지 처리에 신경쓰는 모양새다.

 

https://v.daum.net/v/FC5pO0Sghg

 

[단독] AI라더니…사진·영상 분석 안되는 '경찰 AI'

경찰이 추진하는 생성형 인공지능(AI) 기반 수사지원 형사사법정보시스템(KICS)이 포털 검색 수준을 조금 넘어선 단계에 그치는 것으로 16일 확인됐다. 하루가 멀다하고 AI 성능이 향상되는데 예산

v.daum.net

 

국회의원 분이 뭘 모르고 하는 소리다. 국내에 멀티모달이 가능한 모델이 거의 없어. 근데 무슨 사진, 영상 분석이야? 없다고 ㅅㅂ 기술이 없다고.

 

어차피 그래도 세계 3위 아니야?

https://marketin.edaily.co.kr/News/ReadE?newsId=01846646642370968

 

“제미나이3.0 써봤니?”…구글 맹추격에 ‘1등’ 오픈AI의 위기

챗GPT 개발사인 오픈AI가 인공지능(AI) 시장에서 우위를 차지하고 있는 가운데 경쟁사인 구글과 앤스로픽이 이를 맹추격하고 있다고 30일(현지시간) 파이낸셜타임스(FT)가 보도했다.구글. (사진=AFP)

marketin.edaily.co.kr

 

https://www.aitimes.com/news/articleView.html?idxno=204647

 

중국 오픈 소스 모델 사용량 급증..."전체 트래픽의 3분의 1 차지" - AI타임스

올해 들어 중국이 개발한 오픈 소스 인공지능(AI) 모델이 글로벌 시장에서 급부상하며 영향력을 크게 확대하는 것으로 나타났다. 글로벌 사용량이 1년 만에 25배로

www.aitimes.com

 

선두 경쟁은 치열하다못해 진짜 유혈난무다. 제미나이의 성능이 올해 무서울 정도로 챗GPT를 따라잡았고 이미지 생성 쪽에서는 한 발 앞섰다는 느낌이다. 우리와 1위와의 격차는 날로 커져가는데 따라잡기는 고사하고 구석에 작은 자리 확보하는 길도 요원하다. 그런 와중에 중국은 이미 고성능의 오픈 모델들을 다수 냈고 우리보다 앞서 서비스도 하고 있다.

 

서비스. 중요하다. 데이터를 모으기 위해 서비스는 절대적으로 필요하다.

 

https://www.aitimes.com/news/articleView.html?idxno=205107

 

구글, 검색 결과 스크래핑해 AI 학습용으로 판매한 업체 고소 - AI타임스

구글이 온라인 검색 데이터를 무단으로 대량 수집해 온 웹 스크래핑 업체를 상대로 법적 대응에 나섰다. 검색 데이터를 AI 기업에 모델 학습용으로 판매하는 데 제동

www.aitimes.com

 

인터넷 데이터 크롤링은 초기 AI 개발의 원동력이었고 현재로서도 후발 주자가 선두 그룹을 따라잡기 위해 가장 필수적인 요소다. 그런데 그것도 막으려 하고 있다. 당연하지. 구글은 바보가 아니다.

 

https://www.aitimes.com/news/articleView.html?idxno=167974

 

미국 법원 "저작권물 AI 학습 무단 활용은 '공정 사용' 아니야" - AI타임스

미국에서 인공지능(AI) 모델 학습에 다른 회사의 콘텐츠를 무단으로 사용한 것이 '공정 사용(fair use)'에 해당하지 않는다는 첫 판결이 나왔다. 공정 사용

www.aitimes.com

 

AI 학습에서 저작권 요건도 점점 강화되고 있는 추세다. 그런 와중에 한 번 뒤로 밀리면 따라잡는 건 더욱 빡세질 수밖에 없다. 데이터를 확보하는 것 부터가 어마어마한 비용이 되고 있다. 그런 와중에 후발주자는 선두 그룹보다 더 큰 비용을 지불하여 데이터를 확보해 따라잡아야 하는데, 이미 상요 서비스가 있는 선두 그룹은 구차하게 법적 이슈 있는 데이터 안 건드려도 이미 많다.

 

https://www.khan.co.kr/article/202512211730001#ENT

 

‘싫으면 나가라’는 카카오…개인정보 사실상 ‘강제수집’ 논란

카카오가 내년 2월부터 이용자들의 서비스 이용 기록과 이용 패턴을 사실상 강제 수집하겠다고 밝히면서 이용자들이 반발하고 있다. 최근 대형 플랫폼들의 잇따른 개인정보 유출 사고로 가뜩이

www.khan.co.kr

 

그러니까 카카오가 지금 무리수를 두는 것이다. 하지만 이미 사용자들의 데이터에 대한 인식이 변하고 있고 저항이 발생하고 있다.

 

https://zdnet.co.kr/view/?no=20251125173356

 

韓, 'AI 3대 강국' 외쳤지만…글로벌 모델 톱 20 '전무'

한국 정부가 '인공지능(AI) 3대 강국'을 외치고 있지만, 정작 글로벌 경쟁에서 뒤처지고 있다는 분석이 나왔다. 미국과 중국이 AI 모델 개발 속도를 높이면서 양강 구도를 공고히 하는 사이, 국내

zdnet.co.kr

 

3위면 뭐하나. 성능도 밀렸고 상품성이 안 되는데. 거기에 국내 기업들은 빠르게 AI 개발 접고 외국의 AI 기술의 설치기사를 자처하는 분위기다. 

 

OS 는 윈도우 미만 잡이었고, 지금도 Mac OS 정도나 경쟁자가 된다. 리눅스 계열은 오픈소스 커뮤니티 영역이니 별도로 치고.

 

검색엔진도 수많은 세력들이 일어났지만 지금은 구글 미만 잡이다.

 

LLM? 이곳도 소수의 선두 그룹이 평정할 거고 다른 세력은 오픈소스 모델과 선두 모델의 API에 기반한 서비스들만 남을 것이다. 이미 밀렸다. 그런데 LLM의 API 만 갖다 쓰는 것도 이제 못 할지도 모른다. 선두 그룹이 만든 에이전트 시스템을 가져다 포장만 바꾸는 수준이 될 위험도 크다. 그렇게 되면 당연히 핵심적인 영업이익은 선두그룹이 더 많이 가져가게 되는 것이다.

 

https://openai.com/ko-KR/index/chatgpt-shopping-research/

 

커머스 한다더니 이것도 나오고 있다. 예전에 유행하던 슈퍼 앱? LLM 을 기반으로 판이 다시 짜질 것이다. 거기에 국내 기업들이 조금이라도 준비가 되었나?

 

온프레미스 환경에서도 요즘 GPT-oss 테스트 해달라는 곳이 많다. 클라우드 기반 서비스 뿐만 아니라 보안이 중요한 조직 내 시스템에서도 이미 GPT의 침공이 진행중이다. 소형 모델도 설 자리가 좁아지고 있다. 그런 와중에 국내 기업은 어느정도로 경쟁력이 있나. 진짜로 GPT-oss 설치기사로 전락하는 거 아닌가?

 

범용 모델은 어차피 선두 그룹을 따라갈 수 없다. 하지만 특화 모델은 따라가야 했다. 국내의 서비스나 산업 환경에 맞춘 특화 파인튜닝 모델이 올해 본격적으로 나왔어야 한다. 얼마나 환경이 좋은가. K-컨텐츠가 세계적으로 힘을 발휘하는데 웹툰을 위한 AI 툴들이 이미 나와서 본격적으로 사용되고 있었어야 한다. 일부 웹툰이 AI 이미지 쓴 거 아니냐고 욕먹고 있는데, 대단히 사치스런 이야기다. 오히려 본격적인 웹툰 툴이 나와서 더 많은 사람들이 웹툰 작가로 도전할 수 있게 만들었어야 했다. 하지만 이미 나노 바나나가 나왔다. 이미지의 일관성을 유지시킬 수 있는 모델이 나온 이상 그것이 컨텐츠 제작 툴로 발전할 가능성은 대단히 높다.

 

온프레미스 환경에서 설치해 바로 활용할 수 있는 수준의 LLM 솔루션이 올해 이미 나왔어야 했다. 쓸데없는 고객 요구사항에 휘둘릴 필요가 없었다. 일단 모든 사람들이 바라는 건 챗GPT잖아. 그럼 챗GPT와 같은 기능들은 나왔어야지. 성능이 떨어지는 거야 그렇다 치지만. 하지만 SI 사업들은 기존 하던대로 주먹구구식으로 진행되었고 올해가 다 갔다. 내년은 에이전트의 해다. 챗봇도 겨우 하는데 에이전트를 무슨 수로 한단 말인가.

 

https://openai.com/ko-KR/index/memory-and-new-controls-for-chatgpt/

 

이런 건 수천, 수만 개의 GPU가 아니더라도 시도해 볼 수 있던 기술이 아닌가. 아니, 지금이라도 늦지 않았다. 실제로 사용자 경험을 바탕으로 독자적인 메모리 기술, 워크플로우 설계 기술들을 확보해 나가야 한다. 근데 그러려면 뭐든 서비스를 하고 거기에서부터 데이터를 받으며 연구해야 할 거 아닌가.

 

https://zdnet.co.kr/view/?no=20250912100104

 

[AI는 지금] 내년 AI에 10조원 투입…한국 경제 체질 확 바꾼다

대한민국 정부가 미래 기술 패권 확보를 위해 주요 부처의 예산을 인공지능(AI) 중심으로 재편하고 있다.12일 업계에 따르면 과학기술정보통신부와 산업통상자원부를 포함한 핵심 부처들은 이달

zdnet.co.kr

 

이걸 걸 봐도 불안한 것은,

 

https://www.donga.com/news/Economy/article/all/20250716/132007960/2

 

‘AI 민간투자’ 美 151조, 韓은 1.8조… ‘주목할 만한 AI’ 美 40개, 韓 1개뿐

세계적으로 인공지능(AI) 기술 개발 경쟁이 치열해지며 AI 디바이드 현상은 국가 간 투자 규모 및 개발 수준에서도 나타나고 있다. 미국 중국 등 대규모 AI 투자가 가능한 국가들과 이들의 AI 발전

www.donga.com

 

근데 저것조차, 저기서 연구개발 투자가 얼마나 될지 심히 의심된다는 것이다. 근처에서 100억 가지고도 벌벌 떠는 꼴을 봐서... 심지어 그나마도 투자한다 해놓고 다음 해 연구소 연구원들 죄다 과제 핑계로 현장 이행 내보냈다. ㅅㅂ... 연구는 누가하고?

 

AI 뿐만이 아니다. 우리나라는 자원도 없는데 인적자원도 이미 피크를 넘어 하락세로 가고 있다. 심지어 국내의 젊은이들은 직장을 구하지 못해 숙련도도 앞으로 급락할 일만 남았다. 기술 개발에 더 투자해야 하고 기술 인력 육성에 더 진심이어야 한다. 안 그래도 기존의 산업들도 변화하는 환경 속에서 위기를 맞고 있는 상황이다. 뭐라도 새로운 신 성장 동력을 확보해야 한다.

 

그런 점에서 국내 AI 기술에서의 과도한 낙관론은 경계할 필요가 있다.