애플은 무엇을 보았나요? 좋은 것은 없었습니다.

애플의 연구자 그룹이 발표한 논문에 따르면, 오늘날 ChatGPT나 Llama와 같은 AI의 가장 인기 있는 제품의 근본을 이루는 대규모 언어 모델(LLMs)은 진정으로 추론할 수 없다고 주장하고 있습니다. 즉, 이들의 지능 주장은 매우 과장되었다고 볼 수 있습니다 (혹은 비관적인 시각에서 보면, 우리는 거짓말을 당하고 있는 셈입니다).

일련의 테스트를 통해 그들은 이들의 추론 능력이 대개 — 혹은 전적으로 — 기억의 결과이지 진정한 지능이 아님을 증명합니다.

이것은 LLM들에 대한 실망감이 커지고 있는 추세에 추가되며, 이는 투자에 큰 변화를 가져오고 수십억 달러 규모의 많은 스타트업에 직접적인 영향을 미칠 수 있습니다. 자연히, 이는 빅테크의 수십억 달러 규모의 AI 지출과 이 정확한 비전에 의존하는 최첨단 AI 연구소들의 미래에 심각한 의문을 제기합니다.

그렇다면, 이러한 강력한 반대 주장들의 근거는 무엇인가요?

이 기사는 AI 분석가, 전략가 및 의사결정자들이 AI의 가장 시급한 질문에 대한 답을 찾는 곳인 제 뉴스레터에서 발췌한 내용입니다.

커지는 실망감

AI 매체와 인플루언서들이 샘 알트먼의 생각을 단순히 반복할 때, 그 미디어 터널을 넘어 고개를 들면, 최근 등장한 대규모 언어 모델(LLM)에 대한 반감이 사상 최고조에 달하고 있다는 것을 깨닫게 될 것입니다.

그 이유는 무엇일까요?

o1 모델이 주장하는 ‘지능’의 증가에도 불구하고, 여전히 이전 세대가 겪었던 동일한 문제로 고통받고 있습니다. 지난 6년간 중요한 측면에서 우리는 아무런 진전을 이루지 못했습니다, 모든 과대 광고에도 불구하고.

증거의 산

지난 몇 주 동안, 특히 2017년에 발표된 Transformer 모델을 기반으로 한 새로운 유형의 최전선 AI 모델인 대규모 추론 모델(Large Reasoner Models, LRM)이 출시된 이후, 이 새로운 패러다임이 일부 측면에서 개선되었음에도 불구하고 여전히 초기 Transformer 모델이 가진 많은 문제를 그대로 유지하고 있다는 압도적인 증거가 나타났습니다.

Valmeekam 외 연구진에 의해 입증된 바와 같이, 이 모델들은 여전히 복잡한 작업을 더 간단한 단계로 나누는 계획 수립 능력이 부족하여, 10년 이상 전에 출시된 브루트 포스 검색 AI 알고리즘인 Fast Downward보다 성능이 떨어집니다.
MIT 연구자들에 의해 입증된 바와 같이, 이 모델들은 시계열 이상 탐지에서 통계적 방법인 ARIMA보다 성능이 떨어집니다.
또 다른 연구 그룹에 의해 입증된 바와 같이, 특정 주제에 대한 경험이나 지식이 없을 경우, LLM 성능은 상당히 저하되며, 이는 모든 가용 데이터를 프롬프트의 일부로 사용해도 마찬가지입니다. 요약하자면, LLM/LRM은 기본적인 지시 사항을 따르는 데 어려움을 겪고 있으며, 특히 지시 사항의 길이가 길어질수록 더 그렇습니다.
펜실베이니아 대학교 연구자들에 의해 입증된 바와 같이, 이 모델들은 순서에서 의미 없는 토큰 변형에 극도로 민감합니다. 예를 들어, 아래의 예시는 ‘Linda’와 ‘Bob’ 사이의 간단한 전환이 문제를 해결하는 데 필요한 추론 과정과 전혀 관련이 없지만, LLM을 혼란스럽게 하여 실패로 이어지는 방식입니다.

None

그러나 애플만큼 LLM에 대해 가혹한 평가는 없었습니다, 시작부터 강력한 성명을 발표하였습니다: “LLM은 진정한 추론을 수행하지 않습니다.”

그들이 이 주장을 어떻게 드러내고 있습니까?

GSM8k는 LLM의 초등학교 문제 해결 능력을 테스트하는 매우 인기 있는 수학 중심 벤치마크입니다. 오늘날 이 벤치마크는 대부분의 최전선 LLM이 점수를 포화시키기 때문에 해결된 것으로 간주됩니다.

None

An example from the original dataset. Source: HuggingFace

하지만 애플 연구진은 다음과 같이 제안했습니다: 이 성능의 얼마나 많은 부분이 암기 및 피상적인 패턴 매칭에서 비롯되며, 실제 추론이 아닌가?

그리고 그 결과는 최소한 우려스럽습니다.

우선, 이 모델들의 ‘이유 있는’ 출력이 실제 reasoning보다는 시퀀스 친숙성에 더 기반하고 있다는 것이 점차 명확해지고 있습니다.

이전 ‘린다’와 ‘밥’의 전환 이미지에서 보았듯이, 간단한 이름 변경만으로도 모델이 실패할 수 있습니다. 그 이유는 모델이 reasoning 과정을 내재화한 것이 아니라 단순히 훈련 시퀀스를 암기했기 때문입니다.

하지만 왜 린다는 작동하고 밥은 작동하지 않을까요?

위의 예시는 유명한 접합 오류(conjunction fallacy)로, 사람들이 특정 조건 집합이 단순 일반 조건보다 더 가능성이 높다고 생각하게 되는 경우입니다. 비록 그것이 논리적으로는 사실이 아닙니다.

LLM은 사용된 이름이 ‘린다’일 때 정답을 맞춥니다. 왜냐하면 그것이 Kahneman과 Tversky가 이 오류를 설명하기 위해 그들의 작업에서 사용한 이름이기 때문입니다. 이는 LLM이 훈련 중 린다라는 이름이 사용된 문제를 여러 번 보았다는 것을 의미합니다. 따라서 새로운 이름에 적응하지 못하는 것은 LLM이 오류를 완전히 내재화하기보다는 단순히 전체 시퀀스를 암기하고 있음을 시사합니다.

다시 말해, 모델은 문자 그대로 “린다의 나이는 30세다…”와 같은 시퀀스를 암기하고 있으며, “이 질문은 접합 오류의 전형적인 예시이다…”라는 시퀀스로 계속 이어집니다. 이는 분명히 훈련 중에 본 시퀀스입니다.

순수한 암기이기 때문에, 밥으로의 간단한 변경은 표면적인 패턴을 깨뜨리며, LLM이 깊은 인간 reasoning과 유사한 고차원 추상화가 거의 비어 있음을 보여줍니다 (그 작은 변화는 우리를 속일 수 없습니다).

하지만 애플은 이를 더 테스트하고 싶었습니다. 그래서 그들은 원래 질문의 템플릿을 사용하여 특정 토큰을 수정할 수 있도록 하는 대체 데이터셋인 GSM-Symbolic을 만들었습니다. 이는 작은 변형으로 동일한 문제를 reasoning적으로 생성했습니다:

None

출처: Apple

이러한 과정을 통해 평가된 모든 LLM의 결과는 성능이 다양하게 감소하는 것을 보여주었습니다. 최첨단 AI 모델에서도 마찬가지였지만, 규모가 유리한 요인으로 작용하는 것으로 보입니다; 모델이 클수록 이러한 문제에 덜 취약해집니다.

None

출처: Apple

하지만 Apple은 여기서 멈추지 않았습니다.

어려움이 성능을 저하시킵니다.

다음으로, 그들은 모델의 능력을 더 어려운 질문에 대해 테스트하고자 했습니다. 원래 데이터셋을 기반으로 하여 점차적으로 더 어려운 질문을 추가하는 방식으로 진행했습니다:

None

출처: Apple

이러한 과정에서 예상대로 모든 모델, 특히 o1-mini의 성능이 지속적으로 저하되고 변동성이 증가하는 것을 확인할 수 있었습니다. 다시 말해, 그들이 주장하는 지능은 과장된 것일 뿐만 아니라 복잡성이 높아질수록 견고성도 감소합니다(이는 예상되는 결과입니다).

None

출처: Apple

가장 흥미로운 결과는 다음 테스트 라운드에서 나타났습니다.

쉽게 속는

그들은 Apple이 “운영적 중요성이 없다”고 설명하는 사소한 조항을 인식하는 모델의 능력을 테스트하기로 결정했습니다. 이는 문제 해결에 전혀 관련이 없는 조항들로, GSM-NoOp을 생성하게 되었습니다.

쉽게 말해, 이는 문제 설명에 추가된 조항으로, 관련성이 있어 보이지만 실제로는 관련이 없는 것들입니다. 이러한 조항을 통해 이러한 모델의 패턴 인식 능력이 얼마나 피상적인지를 보여주고자 했습니다.

아래의 예에서 볼 수 있듯이, 그들은 관련성이 있는 것처럼 보이는 진술을 추가합니다(여전히 키위에 언급하고 있지만), 그러나 문제와는 전혀 관련이 없습니다(우리는 키위를 세고 있으며, 이 경우 크기는 중요하지 않습니다).

그럼에도 불구하고 o1-mini와 Llama3-8B는 특별한 이유 없이 그 작은 키위를 빼고 있습니다.

None

출처: Apple

더 깊이 탐구하기 위해, 저자들은 두 가지 추가 변형을 만들었습니다:

NoOp-Symb: 이 경우, 목표로 하는 수정된 질문 외에도, 모델에 원본 데이터 세트에서 수정되지 않은 동일한 질문의 최대 여덟 가지 사례를 제공하며, 그 과정에서 추론 과정이 포함됩니다. 즉, 목표 질문이 관련 없는 절로 수정되는 동안, 모델은 올바른 추론 단계를 포함한 동일한 질문의 여덟 가지 사례를 받게 됩니다.
NoOp-NoOp: 이 다른 경우에는, 관련 없는 절을 포함하는 원본 질문들의 변형인 GSM-NoOp 데이터 세트를 사용하여, 필요한 추론 과정과 함께 문제를 해결하는 방법에 대한 여덟 가지 다른 사례를 제공합니다. 모두 다른 질문의 변형이지만, 올바른 추론 과정은 관련 없는 절을 무시해야 한다는 공통점이 있습니다.

간단히 말해, 저희는 LLM이 소음을 인식하고 무시하는 능력을 시험하고 있습니다. 그리고 결과는 상당히 극적입니다.

모델 크기 전반에 걸쳐 성능이 눈에 띄게 저하되며, 일부 모델은 거의 70%의 성능 저하를 보입니다. 또한 Gemma2B가 NoOp-Symb에서 다른 결과에 비해 놀라울 정도로 좋은 성능을 보이는 등 ‘이상한’ 행동을 관찰할 수 있습니다. 이는 정보가 예측을 개선하는 맥락으로 활용되는 능력, 즉 맥락 학습 능력이 예상보다 우수할 수 있음을 의미합니다.

None

Source: Apple

다시 말해, o1-preview는 성능 저하가 가장 적다는 것을 보여줍니다. 이는 다음과 같은 질문을 제기합니다: 결과가 형편없고 LLM/LRMs가 추론을 하지 못한다는 명백한 증거가 있는 상황에서, 규모(모델의 훈련 횟수를 증가시키고 보통 더 크게 만드는 것)가 해결책일까요? AI 최전선 연구소인 OpenAI나 Anthropic이 기대하는 것처럼 말입니다.

규모가 전부인가, 아니면 허상인가?

이 연구를 어떻게 해석하느냐는 결국 개인의 편견에 따라 다릅니다. 즉, LLM/LRMs를 AGI에 대한 해결책으로 내면화했는지, 아니면 그렇지 않은지를 말입니다.

만약 여러분이 유명한 LLM 회의론자인 게리 마커스라면, 애플의 이 연구를 LLM이 추론을 하지 않는다는 명백한 진리로 받아들일 것입니다.
만약 여러분이 앤디 클락, 앤트로픽의 공동 창립자라면, 상황을 긍정적으로 바라보며 작은 모델들이 벤치마크에 과적합되어 문제에 더 취약하다는 주장을 중심으로 논의를 전개할 것입니다. 그리고 o1의 덜 저하된 결과를 들어 LLM의 규모 확장이 문제를 해결할 것이라고 제안합니다.

어느 쪽이 옳은지에 대한 확실한 답은 없지만, 제가 애플과 게리 마커스 쪽에 더 동조하는 이유는 다음과 같습니다.

앤디는 작은 모델이 벤치마크에 과적합(overfitting)된다는 점을 언급합니다. 이는 모델이 문제의 해결책을 암기한다는 의미로, 모델의 크기를 늘리면 데이터셋에 과적합되는 것이 더 어려워질 것임을 시사합니다.

반면, 더 큰 모델은 분명히 데이터셋에 덜 과적합되지만, 훨씬 더 많은 양의 데이터와 함께 OpenAI 또는 Anthropic 연구자들이 의도적으로 보내는 벤치마크의 변형들을 경험했을 가능성이 큽니다. 이는 이러한 작은 변화에 대해 모델을 더욱 견고하게 만들기 위함입니다.

다시 말해, 여기서의 질문은 LLM이 문제를 해결하는 과정에서 지능이 증가하는 것인지, 아니면 모든 것이 암기에 불과하며, 단순히 더 많은 데이터를 제공하여 더 많은 정보를 암기하게 만들어 실제보다 더 똑똑해 보이게 만드는 것인지입니다.

제가 보기에, 후자가 훨씬 더 가능성이 높습니다. AI가 해결할 수 있는 문제의 복잡성이 증가하고 있음에도 불구하고, 그들은 여전히 낯선 환경에서 쉽게 속아 넘어갑니다. 심지어 그 작업이 LLM이 해결할 수 있는 다른 문제보다 훨씬 더 간단할 때에도 말입니다.

그 이유는 무엇일까요?

작업 친숙함/복잡성의 딜레마

비밀은 프랑수아 숄렛이 설명한 작업 복잡성/친숙성의 딜레마에 있을 수 있습니다. 우리는 작업의 복잡성을 기준으로 모델의 지능을 평가해서는 안 됩니다. 연구자들은 항상 추론 과정을 훈련 데이터의 일부로 제공할 수 있기 때문입니다. 그렇게 하면 모델은 문제를 해결하는 방법을 이미 알고 있으며, 단지 자신의 핵심 지식에서 이를 검색하기만 하면 됩니다.

대신 우리는 모델이 이전에 본 적이 없는 문제를 추론하고 해결할 수 있는지, 즉 작업의 친숙성을 기준으로 모델을 평가해야 합니다.

현재 우리가 따르고 있는 과정은 분명히 이렇지 않습니다. 우리는 단순히 모델의 출력을 보고, 해결되는 작업의 복잡성에 기반하여 모델의 지능을 판단합니다.

하지만 여기서 문제가 발생합니다; 모델이 지능적인지 여부는 출력만으로는 거의 알 수 없기 때문입니다. 왜냐하면 그것이 기억된 것일 수 있기 때문입니다. 대신 우리는 모델의 과정에 주목하여 실제로 추론이 이루어지고 있는지를 확인해야 합니다.

이것은 간단한 일이 아니지만, 우리가 할 수 있는 한 가지는 기억화를 방지하기 위해 명시적으로 고안된 벤치마크를 개발하는 것입니다. 즉, 모델이 이전에 본 적이 없는 상황에서 테스트하는 것입니다. 이러한 시나리오에서는 잘 추론된 출력이 AI 모델 내부에서 인간이 문제를 의식적으로 작업할 때 사용하는 시스템 2의 추론이 이루어지고 있다는 보장으로 여겨질 수 있습니다.

그리고 이러한 겉보기에는 해가 없을 것 같은 프레이밍 수정이 적용될 때, LLM/LRM 성능이 무너집니다. 이는 ARC-AGI 벤치마크에 의해 입증되었습니다. 이 벤치마크는 모델이 효율적으로 새로운 기술을 습득하고 이전에 본 적이 없는 문제를 해결하는 능력을 테스트합니다. 아래에서 보시다시피, o1-preview가 검색 기능을 가지고 있음에도 불구하고 표준 LLM과 같은 정확도를 달성합니다.

다시 말해, LLM 위에 강화 학습 기반의 검색을 추가하는 것은 o1 모델의 간결한 표현으로, 기억화 저항 벤치마크에서 전혀 이득을 주지 않습니다.

또한, o1 모델은 과거 경험(훈련)에서 원래 솔루션을 검색할 수 없는 상황에서 표준 LLM보다 더 나은 시스템 2 추론자가 아닙니다.

None

출처: Arc-AGI

위대한 겸손

저는 LLM 지지자들이 AGI를 구축하고 그것을 증명해야 하는 대신, AI 학계가 그 반대를 증명해야 하는 상황이 되어버린 것에 대해 문제를 제기하고 싶습니다.

이것이 잘못된 방향이 아닐까요?

우리는 LLM이 증명되지 않는 한 해결책이 아닐 것이라는 의견을 가져야 하지 않을까요?

분명히, 그 이유는 이 비전이 실제가 되도록 투자되는 막대한 자본 때문입니다. 하지만 오늘 우리가 본 바와 같이, 단순히 규모가 해결책이 될 것이라고 믿는 것보다 LLM의 추론 능력에 대해 회의적인 이유가 훨씬 더 많습니다.

따라서, 저에게는 LLM이 낯선 작업을 처리하는 능력을 증명하지 않는 한, 그들을 지능적인 기계로 취급해서는 안 되며, 오히려 인간 지능을 증폭시키는 도구로서 지능을 구현하기보다는 시뮬레이션하는 존재로 취급해야 한다고 생각합니다.

그리고 여러분은, 어떻게 생각하시나요?

최첨단 AI 모델의 능력이 과대평가되고 있다고 믿으시나요? 많은 돈이 걸려 있거나 실리콘밸리의 집단 열풍 때문인지, 아니면 규모가 정말로 인간 수준의 지능으로 가는 명백한 직진 경로라고 생각하시는 건가요?

Tags:

애플이 AI에 대한 진실을 말하다. 좋지 않습니다.

커지는 실망감

증거의 산

쉽게 속는

규모가 전부인가, 아니면 허상인가?

작업 친숙함/복잡성의 딜레마

위대한 겸손

Tags: