본문 바로가기
일반상식/기술

LeCun 교수님 지적한 LLM의 한계에 대한 의견

by 트렌디한 건강 상식 2024. 8. 1.
반응형

LeCun 교수님 지적한 LLM의 한계에 대한 의견
LeCun 교수님 지적한 LLM의 한계에 대한 의견

 

LeCun 교수님이 LLM의 한계를 지적한 데 대해 의견이 분분하다. AI의 미래에 대한 정답은? 아무도 아는 사람이 없다. 서로 모르는 것을 필요 이상으로 주장하지 말고 그냥 하던 대로 연구하면 된다. LLM이 AI의 미래라는 의견도, LLM은 미래가 없다는 의견도 자신의 지식과 경험에 기반한 믿음에 불과하다. 과학기술의 발전이 그러했듯이 과거의 유산을 계승 발전시켜 좀 더 똑똑하고 경제적인 AI를 만들기 위해 노력하면 된다. LLM에 대한 지나친 추종자나 비판자가 되는 것은 하이브-민희진 사건에 과몰입하는 것만큼 무가치하다.

 

Transformer는 현존 최강의 building block이며 경험 많은 전문가들만 인지할 수 있는 비밀 ingredient들이 많이 들어가 있다. 아주 잘 만들어진 building block이다. 그러나, CNN, LSTM이 없었다면 Transformer는 탄생하지 못했을 것이다. 또한 Transformer의 강력한 위력은 충분한 데이터와 계산을 담보로 한다. 제한된 환경에서는 CNN이나 Conv+MHSA 조합이 더 높은 성능을 보일 수 있다. 더 제한된 환경에서는 전통적인 ML기법이 CNN보다 높은 성능을 보일 수도 있다. 즉, Transformer를 맹종하면 안 되고 문제와 상황에 가장 적합한 building block을 선택해야 한다.

 

LLM과 Transformer는 다르다. Transformer는 MHSA, FFN, LN, skip connection, PE등으로 구성된 building block, 또는 architecture이고 LLM은 AR방식에 의해 과거의 context로부터 다음 token을 예측하는 AI모델이다. 일반적으로 대규모 SSL에 의해 pretraining하고 SL이나 RL에 의해 fine-tuning한다. LLM이 Transformer decoder, 또는 encoder-decoder 조합에 의해 구현되기 때문에 둘을 혼동하는 사람들이 많다. LLM은 CNN이나 RNN으로 구현할 수도 있다. 단, 성능은 Transformer기반 LLM보다 못하다.

 

LLM은 명시적인 다단계 추론 기능이나 World Model이 없다. (RAG는 매우 제한적인 형태의 World Model로 볼 수 있다.) 엄청난 파라미터수와 학습 데이터에 의해 깊은 사고가 요구되는 작업을 단순 작업처럼 처리할 뿐이다. 예를 들면, 복잡한 수학문제는 고도의 사고를 요구하지만, 선행학습에서 비슷한 유형의 문제를 접한 학생은 피상적인 사고력만으로 풀 수 있다. (선행학습은 사고력 훈련을 암기력 훈련으로 대체한다.) 이러한 LLM의 동작은 추론능력이 아니라 추론을 simulate하는 능력이다. (Weak AI는 다 그런 방식으로 만들어지므로 문제는 아니다.) 단, LLM은 규모에 의존하기 때문에 비효율적이다.

 

반응형

LLM의 한계가 Transformer의 한계는 아니다. 예를 들어, JEPA는 LLM이 아니지만 Transformer를 이용해 구현되기도 한다. 차세대 AI에서 Transformer를 배재할 이유는 없다.

 

LLM이 왜 그렇게 강력한 성능을 보이는지 정확히 이해하는 사람은 없다. 그러나, 짐작하는 사람은 좀 있다. LeCun 교수님도 그 중의 한 분이다. 이분의 의견이 100% 맞는지는 모르겠으나 함부로 무시할 레벨은 결코 아니다. LeCun 교수님의 의견을 무시할 자격이 있는 딥러닝 전문가가 세계에 몇 명이나 있을까? 한국에 있기는 할까?

 

LeCun 교수님이 지적한 LLM의 한계에 대하여 기술적으로 정확한 반박은 찾기 어렵다. LLM이 현존 최강의 AI임을 반복하며 LeCun 교수님이 LLM을 능가하는 방법을 보이지 못했음을 지적할 뿐이다. 이런 식의 LLM 옹호는 별로 생산적이지 못하다. LLM이 현존 최강임과 기술적으로 한계가 있음은 모두 맞는 말이다.
LLM이 아무리 강력해도 계속 한계를 지적하고 개선책을 찾는 것이 연구자의 길이다. LLM의 기술적 의미를 인정하면서도 한계를 지적하는 것은 얼마든지 가능하다.

 

LeCun 교수님이 AI 학생들에게 LLM에 뛰어들지 말라고 하신 이유는 LLM 분야가 빅테크 기업들의 무대라서 대부분의 사람들은 할 수 있는 것이 별로 없기 때문이다. LLM의 기술적 한계와는 또 다른 이슈이다. 당신이 LLM을 scratch부터 학습할 만한 인프라를 갖지 못했다면 LLM의 핵심에 접근하기는 어렵다.

 

LLM을 직접 만들지 않아도 상당히 많이 이해할 수 있다. 딥러닝 전문가라면 LLM에 사용되는 기술에 대해 대부분 익숙하다. 또한 LLM의 구조와 학습방법은 과거 AI 기술에 비해 매우 단순하다. 요즘 발표되는 LLM 논문들은 고액의 연구비를 사용했음을 쉽게 알 수 있지만 기술적인 깊이는 매우 얕다. 수학적으로는 Wasserstein GAN이나 DDPM보다 훨씬 피상적이다. 그럼에도 실제 LLM을 학습해 본 분들의 경험과 노하우는 매우 가치 있다.

 

우리나라가 AI 강국이 되려면 LeCun 교수님과 일론 머스크의 논쟁을 단순히 실어 나르기보다는 자신의 기술적 의견을 제시하거나 깊이 있는 해설을 해주는 사람이 많아야 하지 않을까?


 

 

지각변동이 시작된 실리콘밸리 (feat. AI 엔지니어의 기본소양)

실리콘밸리에 지각변동이 시작되었다. 모든 큰 변화는 구성원들에게는 재앙이다. 실리콘밸리에 새로운 시대가 시작되고 있다. 실리콘밸리의 역사는 몇 번의 큰 변화를 거쳤다. 70년대 반도체로

mkpark02.tistory.com

 

 

더 커밍 웨이브 (feat. 딥마인드의 창조가가 말하는 AI와 인류의 미래)

더 커밍 웨이브 읽었다. 딥마인드 창업자인 무스타파술레이만 이 쓴 책이다. 인공지능을 비롯한 첨단 기술이 얼마나 발전해 있고, 어디까지 발전할 것이며, 그로 인해 어떤 변화가 일어날 것인

mkpark02.tistory.com

 

 

ChatGPT를 이용한 사업 손익분기점 조절 (feat. 원가 절감)

GPT가 미치는 영향 중에 하나가 어떤 업무에 대한 '원가'를 파격적으로 낮춘다는 것인데요, 달리 말하면 사업의 손익분기점을 많이 낮춘다는 뜻이기도 합니다. 얼마 전에 사경인 회계사님과 대화

mkpark02.tistory.com

반응형

댓글