Skip to main content

마이크로소프트 엔지니어들은 2024년 11월경에 오리온(GPT-5)을 Azure에서 호스팅할 준비를 하고 있습니다.

오픈AI가 2023년 3월에 GPT-5에 대한 작업을 발표했을 때, 이는 큰 우려를 불러일으켰고, 일부 저명한 인사들이 개발 중단을 요청하는 청원에 서명했습니다. 확인된 서명자에는 AI 선구자 요슈아 벵기오(튜링상 수상자), AI 연구자 스튜어트 러셀과 게리 마커스, 애플 공동 창립자 스티브 워즈니악, 미국 대통령 후보였던 앤드류 양, 그리고 인류를 종식시키는 핵전쟁에 반대하는 원자력 과학자 협회 회장 레이첼 브론슨이 포함됩니다. 일론 머스크(테슬라, 트위터, 스페이스X CEO이자 전 오픈AI 공동 창립자)와 스테이빌리티 AI CEO 에마드 모스타크도 동참했습니다.

GPT-4는 AI 능력의 중대한 발전을 나타냈지만, 여전히 주목할 만한 한계가 있습니다. 이는 광범위한 일자리 대체를 초래하지 않았고 인류의 멸망을 예고하지 않았다는 점에서, 청원에 서명한 사람들이 오해하고 있을 수 있음을 시사합니다.

오리온의 다가오는 그림자: 신중한 낙관주의

GPT-4가 출시된 지 1년이 넘었고, 오리온이라는 코드명으로 불리는 GPT-5에 대한 우려는 줄어들었습니다. 오리온은 드디어 세상에 소개될 준비가 되었습니다. 이전 출시와는 달리, 초기에는 ChatGPT를 통해 광범위하게 제공되지 않을 예정입니다. 대신, OpenAI는 긴밀하게 협력하는 회사들에게 조기 접근을 허용하여 그들이 자체 제품 및 기능을 개발할 수 있도록 할 계획입니다. 내부적으로 오리온은 GPT-4의 후속작으로 간주되지만, 공개적으로 GPT-5라는 이름이 붙을지는 불확실합니다.

보고서에 따르면 GPT-5는 100배 더 강력할 것이라고 주장하지만, 이 “강력함”의 구체적인 내용은 불확실합니다. 그러나 여전히 극복할 수 없는 한계가 존재합니다.

먼저, 최신 GPT 버전에서 지속적으로 나타나는 문제를 살펴보겠습니다.

GPT-4o의 한계와 우려:

  1. 언어 한계: GPT-4o의 다국어 기능 향상에도 불구하고, 여전히 비영어 언어, 특히 고품질 데이터가 제한된 언어에서 도전 과제가 남아 있습니다. 이로 인해 응답 및 번역이 불충분할 수 있습니다.
  2. 데이터 품질 문제: 특히 중국어와 같은 언어에서 훈련 데이터의 품질이 낮다는 점이 우려됩니다. 이는 모델이 저품질 콘텐츠의 확산으로 인해 부정확하거나 환상적인 응답을 제공하는 경향이 있을 수 있습니다.
  3. 사실 정확성: 모델은 특정 프롬프트에 대해 부정확하거나 오해의 소지가 있는 정보를 제공할 수 있으며, 이로 인해 신뢰성과 신빙성에 대한 우려가 제기됩니다.
  4. 부분적 준수: 사용자에 의해 긴 지시 세트가 포함될 경우, LLM은 모든 요청의 일부만 이행할 수 있습니다. 모든 지시가 명확하고 간단하더라도, AI에게는 복잡하고 새로운 지시 세트가 될 수 있습니다. 모델은 훈련에서 인식된 지시의 일부를 완료할 수 있지만, 다른 부분은 건너 뛰거나 단순화할 수 있습니다. 피드백을 받으면 요청의 빠진 부분을 수정할 수 있지만, 이전에 정확하게 완료한 부분은 생략할 수 있습니다.
  5. 자원 집약적: GPT-4o와 같은 대형 언어 모델을 훈련하고 운영하는 데 필요한 막대한 계산 자원은 접근성을 제한하고, 높은 에너지 소비로 인해 환경 문제를 일으킬 수 있습니다.
  6. 사회적 편향: GPT-4o는 훈련 데이터에 존재하는 편향을 우연히 지속시킬 수 있으며, 이는 불공정하고 차별적인 결과를 초래할 수 있습니다. 이러한 결과는 의견을 왜곡하고 기존 사회 문제를 강화할 수 있습니다.
  7. 인간화 경향: “추론” 및 “이해”와 같은 용어를 사용하여 AI 모델에 인간과 유사한 특성을 부여하는 경향은 비현실적인 기대와 오해를 초래할 수 있습니다. 이는 소비자가 LLM을 더 쉽게 이해하는 데 도움이 될 수 있지만, 이러한 모델이 인간처럼 진정으로 프롬프트를 인식하거나 이해하는 것이 아니라 패턴에 따라 단어를 예측하여 작동한다는 점을 인식하는 것이 중요합니다.
  8. 불충분한 외부 레드 팀: 현재 70명 이상의 전문가 그룹은 기술과 관련된 다양한 요구와 잠재적 위험을 충분히 다루기에 부족할 수 있습니다.
  9. 투명성 부족: OpenAI는 지속 가능성 지표, 향후 기능, 출시 날짜 또는 제품 로드맵과 같은 주요 측면에 대한 충분한 정보를 제공하지 않습니다.
  10. 고급 모델에 대한 제한된 접근: 가장 강력한 버전의 모델에 접근할 수 있는 사용자는 제한적일 가능성이 높으며, 높은 비용으로 인해 많은 사용자에게는 접근하기 어려울 수 있습니다.

오리온: 진전을 위한 한 걸음 또는 같은 것의 반복?

OpenAI의 오리온 계획은 많은 미스터리로 둘러싸여 있으며, 출시일과 기능에 대한 상반된 보고가 있습니다. (불행히도, 일관성이 결여된 것은 불건전한 경향을 가진 사람들에게 매력적일 수 있습니다) 오리온은 GPT-4o의 몇 가지 단점을 해결할 것으로 예상되지만, 특정 근본적인 문제는 여전히 존재할 수 있습니다.

오리온에서 기대되는 개선 사항

  1. 사실 확인 향상: 오리온의 예상 개선 사항 중 하나는 더 나은 사실 확인 능력입니다. 현재의 모델인 GPT-4는 가끔 부정확한 정보나 허위 사실을 생성하는 경우가 있지만, 오리온은 더 신뢰할 수 있는 데이터 출처를 참조하고 응답 검증 프로세스를 개선하여 이러한 오류를 최소화하는 것을 목표로 하고 있습니다.
  2. 향상된 비디오 처리: GPT-4는 비디오 콘텐츠를 처리하고 이해하는 데 제한된 능력을 가지고 있어 멀티미디어 맥락에서의 응용이 제한적입니다. 그러나 오리온은 비디오 이해 및 처리 능력을 크게 발전시켜 실시간 비디오 분석, 요약 및 생성과 같은 응용이 가능할 것으로 기대됩니다.
  3. 맥락 기억: 오리온은 향상된 기억 용량을 갖출 것으로 예상되며, 이를 통해 더 긴 대화에서 더 많은 맥락을 유지할 수 있습니다. 이는 대화 초반의 세부 정보를 기억하고 장기적인 대화에서 관련된 방식으로 활용할 수 있도록 하여 보다 일관되고 맥락을 인식하는 상호작용을 생성하는 데 도움이 될 것입니다.
  4. 고급 멀티모달 기능: GPT-4는 텍스트와 이미지를 모두 처리할 수 있는 기본 멀티모달 기능을 도입하였으나, 오리온은 텍스트, 이미지, 비디오 및 잠재적으로 오디오와 같은 여러 유형의 입력을 원활하게 통합하여 이를 확장할 것으로 예상됩니다.
  5. 윤리적 및 편향 통제: 오리온과 같은 미래 모델은 편향을 줄이고 윤리적으로 복잡한 상황을 처리하기 위한 보다 정교한 메커니즘을 구현할 것으로 기대됩니다.
  6. 기업을 위한 맞춤화 및 세부 조정: 오리온은 기업들이 특정 요구에 맞게 모델을 세부 조정하는 데 더 많은 세밀한 제어를 제공할 것으로 예상됩니다. OpenAI는 기업이 언어 생성을 사용자 정의하고, 톤을 조정하며, 모델의 응답을 맞춤화할 수 있도록 보다 고급 API와 도구를 제공할 수 있습니다. 이는 고객 서비스, 마케팅 및 기타 분야에서 보다 다목적 응용이 가능하게 할 것입니다.
  7. 향상된 실시간 언어 번역: 오리온은 GPT-4의 언어 번역 능력을 개선하여 더 많은 언어와 방언에서 실시간으로 맥락에 맞는 정확한 번역을 목표로 할 것으로 예상됩니다.

지속적인 도전과 한계

앞으로의 GPT 모델 버전에서도 여러 가지 문제가 지속될 것으로 예상됩니다:

  1. 데이터 품질 문제: 모델이 인터넷 규모의 데이터에 의존하고 있는데, 이 데이터는 종종 편향과 부정확성에 취약하여 지속적인 문제가 됩니다.
  2. 비영어 언어 도전 과제: 비영어 응답 품질을 개선하기 위한 노력에도 불구하고, 고품질 훈련 데이터와 숙련된 트레이너의 부족으로 인해 한계는 계속될 것으로 예상됩니다.
  3. 부분적인 준수: 명확하고 간단한 지시 사항조차 많은 제약이 포함되어 있다면 LLM에게 복잡하게 느껴질 수 있습니다. LLM은 패턴을 인식하는 데 중점을 두기 때문에 프롬프트를 완전히 이해하지 못합니다. 많은 제약이 주어질 경우, LLM은 인식할 수 있는 가장 가까운 패턴을 따르며, 종종 일부 지시 사항을 간과하게 됩니다. 이러한 한계는 해결되지 않을 가능성이 높습니다.
  4. 자원 집약성: GPT 모델을 구동하는 변환기 아키텍처는 상당한 자원을 요구하며, 이는 계속될 것으로 보입니다. 이는 환경 재앙, 예를 들어 가속화된 지구 온난화나 핵 발전소에 의존하는 새로운 데이터 센터가 생길 경우 증가하는 핵 폐기물 위험과 같은 문제를 초래할 수 있습니다.
  5. 사회적 편향의 지속: 모델의 훈련 데이터는 주로 인터넷에서 수집되기 때문에, 고품질의 편향되지 않은 출처가 우선시되지 않으면 사회적 편향을 강화하고 지속시킬 수 있습니다. 이는 OpenAI의 데이터 수집 관행의 한계를 강조하며, 훈련 데이터의 보다 신중한 선별이 필요함을 나타냅니다.

앞으로의 길

이러한 한계를 해결하고 AI의 책임 있는 발전을 보장하기 위해 여러 단계가 필요할 수 있습니다:

  1. 새로운 언어 모델: 새로운 언어 모델이 필요합니다. 이 모델은 자원 효율적이어야 하며, 언어의 모든 가능한 사용 사례와 모든 가능한 시나리오 및 뉘앙스에 대해 광범위한 데이터 없이도 효과적으로 학습할 수 있어야 합니다.
  2. 고품질 데이터: 편향과 부정확성을 완화하기 위해 다양한 고품질 데이터셋의 생성 및 관리에 투자하는 것이 중요합니다. 이는 데이터 출처를 신중하게 선택하고, 편향을 제거하며, 데이터의 무결성을 보장하는 작업을 포함합니다.
  3. 투명성 및 책임: OpenAI 및 기타 AI 개발자는 연구 및 개발 과정에서 투명성을 우선시해야 합니다. 그들의 모델의 한계, 편향 및 잠재적 영향을 공유함으로써, 공공 신뢰를 증진하고 AI의 사회적 역할에 대한 정보에 기반한 토론을 가능하게 할 수 있습니다.
  4. 사용자 교육: AI의 능력과 한계에 대해 대중을 교육하는 것은 기대치를 관리하고 오용을 방지하는 데 도움이 될 수 있습니다.
  5. 규제 감독: 정부 및 국제 기구는 AI 개발 및 배포를 규제하는 데 중요한 역할을 합니다. 적절한 규제를 설정함으로써, 혁신과 안전 사이의 균형을 맞출 수 있습니다. 이러한 규제는 데이터 프라이버시, 알고리즘 공정성 및 책임과 같은 문제에 초점을 맞춰야 합니다.

균형 잡힌 성장을 이루기 위해, AI 개발이 소수에 의해 지배되지 않고 협력적으로 이루어져야 합니다. 공정한 경쟁과 투명성은 마케팅 과장이 아닌 진전을 이끄는 데 필수적입니다. 도전 과제를 논의하고 진정성 있게 소통함으로써, 인류의 이익을 위해 AI의 힘을 활용할 수 있습니다.

참고 문헌:

https://www.npr.org/2023/03/29/1166896809/tech-leaders-urge-a-pause-in-the-out-of-control-artificial-intelligence-race

https://www.theverge.com/2024/10/24/24278999/openai-plans-orion-ai-model-release-december

https://techcrunch.com/2024/10/26/openai-denies-its-releasing-a-model-called-orion-this-year/

https://openai.com/index/red-teaming-network/

https://patriciagestoso.com/2024/05/21/openai-chatgpt-4o-the-good-the-bad-and-the-irresponsible/

https://www.technologyreview.com/2024/05/22/1092763/openais-gpt4o-chinese-ai-data/

https://deeperinsights.com/ai-blog/the-unspoken-challenges-of-large-language-models