[AI] ChatGPT-4o의 특징과 ChatGPT-4와의 비교
GPT-4o
2024년 5월 13일 openAI는 오디오, 비전, 텍스트를 실시간으로 추론할 수 있는 새로운 플래그십 모델인 GPT-4o를 발표했다.
GPT-4o의 o(영문 'o')는 모든 것이라는 '옴니(omni)'를 뜻하고 이는 ChatGPT-4o가 광범위한 응용 가능성과 범용성을 갖춘 모델임을 시사한다. 또한, GPT-4o 는 훨씬 더 자연스러운 인간-컴퓨터 상호 작용을 향한 한 단계라고 발표하였다.
GPT-4o는 구두로 질문을 하면 최소 232밀리 초, 평균 320밀리 초 안에 오디오로 응답할 수 있다. 이는 사람의 반응 속도와 비슷한 것으로, 지난해 11월(2023.11) 선보인 'GPT-4'의 5.4초에서 비약적으로 빨라다고 발표했다.
대화 중 일부는 노래로 표현하기도 했으며, 심지어 GPT-4o를 탑재한 휴대폰 두 개가 상호작용하는 모습도 보여줬다.
또 50개에 달하는 다국어 능력을 갖추고 있어, 거의 즉각적으로 다른 언어 번역이 가능하다. 한국어 등 20개 언어를 토크나이저 압축으로 개선했다고 밝혔다.
이미지 처리 기능에서도 뛰어난 성능을 보였다. 종이에 적힌 수학 문제를 보여주고 답을 풀어내는 과정도 공개했다.
오픈AI는 GPT-4o가 'GPT-4 터보'보다 두 배 더 빠르고 비용은 2분의 1 수준이라고 설명했다.
기술적으로는 기존에 LMM을 구동하기 위해 텍스트와 이미지, 음성 부분을 따로 담당하는 것을 넘어, 모델 3개를 하나로 통합했다고 설명했다.
주요 특징
1. 범용성
다양한 사용 사례
- ChatGPT-4o는 고객 지원, 교육, 헬스케어, 금융 등 여러 산업 분야에서 사용될 수 있도록 설계되었습니다. 이는 한 가지 특정 용도에 국한되지 않고, 다양한 상황에서 적절한 성능을 발휘할 수 있음을 의미
실생활에서 있을 법한 상황에 쓰임새를 보여주는 여러 데모도 함께 공개했는데, 일상적인 대화에서 사람과 농담을 주고받으며 어색하게 웃는다던가, 생일 케이크를 보여주자 누군가의 생일임을 알아차리고 축하 메시지를 전하기도 하며, 강아지를 보여주면 너무나 사랑스럽다면서 호들갑을 떨기도 한다. 또한, BeMyEyes와 함께 만든 영상에서는 여행을 떠난 시각 장애인에게 여행 풍경을 가이드처럼 상세하게 설명하고, 2개의 스마트폰에서 구동되는 GPT-4o가 서로 대화하기도 한다.
시각 장애인이 스마트폰 카메라만 들고 있으면 주변 상황을 실시간으로 인식해 알려주는 장면은 아래와 같다.
- 시각장애인 "왕이 지금 궁전에 있나요?"
- GPT-4o "예. 왕의 깃발이 버킹검 궁에 걸려있는데, 지금 왕이 있다는 뜻이에요."
- 시각장애인 "지금 뭐하고 있나요?"
- GPT-4o "오리가 평화롭게 물을 미끄러지고 있어요"
- 시각장애인 "집에 가야겠어. 빈 택시를 찾아줘"
- GPT-4o "방금 한 대 찾았어요. 당신 쪽으로 오고 있어요. 부를 준비를 하세요."
2. 최적화된 성능
경량화
- ChatGPT-4o는 경량화되어 더 적은 자원으로도 작동할 수 있으며, 이는 모바일 디바이스나 자원이 제한된 환경에서도 원활하게 사용할 수 있음을 의미
효율성
- 더 빠른 응답 속도와 낮은 레이턴시를 제공하여, 실시간 상호작용이 필요한 응용 프로그램에서 유리함
GPT-4o는 텍스트, 추론 및 코딩 지능에서 GPT-4 터보 수준의 성능을 달성하는 동시에 다국어, 오디오 및 비전 기능에서 새로운 최고 수준을 설정했다고 한다.
3. 고급 언어 이해
언어 처리 능력
- GPT-4의 강력한 언어 모델링 능력을 유지하면서, 다국어 지원 및 복잡한 언어 작업 처리 능력을 갖추고 있음. 이는 여러 언어와 문화적 맥락에서 적절하게 대응할 수 있음을 의미
4. 사용자 친화성
더 나은 상호작용
- 사용자와의 자연스러운 대화와 상호작용을 제공하여, 고객 서비스 및 사용자 지원 시스템에서 더 나은 경험을 제공
GPT-4o 이전에는 음성 모드를 사용하여 평균 2.8초(GPT-3.5) 그리고 5.4초(GPT-4)의 응답 시간으로 ChatGPT와 대화할 수 있었다.
기존 처리 방식인 GPT-3.5와 GPT-4는 분리된 3개의 모델 단계별로 오디오를 텍스트로 바꾸고 텍스트를 오디오로 바꾸는데, 중간에 잃어버리는 정보가 많아 음색, 화자, 배경음, 웃음, 노래 등 감정 표현을 출력할 수 없었다.
하지만 GPT-4o는 기술적으로 기존에 LMM을 구동하기 위해 텍스트와 이미지, 음성 부분을 따로 담당하는 것을 넘어, 모델 3개를 하나로 통합했다. 오디오, 텍스트, 영상 전반에 걸쳐 추론하는 하나의 모델이 있으면 모든 대기 시간을 줄이고 사람이 하는 것처럼 챗GPT와 빠르게 상호 작용할 수 있다고 발표했다.
GPT-4o 이전에는 음성 모드를 사용하여 평균 2.8초(GPT-3.5) 그리고 5.4초(GPT-4)의 응답 시간으로 ChatGPT와 대화할 수 있었다.
기존 처리 방식인 GPT-3.5와 GPT-4는 분리된 3개의 모델 단계별로 오디오를 텍스트로 바꾸고 텍스트를 오디오로 바꾸는데, 중간에 잃어버리는 정보가 많아 음색, 화자, 배경음, 웃음, 노래 등 감정 표현을 출력할 수 없었다.
하지만 GPT-4o는 기술적으로 기존에 LMM을 구동하기 위해 텍스트와 이미지, 음성 부분을 따로 담당하는 것을 넘어, 모델 3개를 하나로 통합했다. 오디오, 텍스트, 영상 전반에 걸쳐 추론하는 하나의 모델이 있으면 모든 대기 시간을 줄이고 사람이 하는 것처럼 챗GPT와 빠르게 상호 작용할 수 있다고 발표했다.
5. 확장성
유연한 적용
- 다양한 플랫폼과 환경에서 쉽게 통합하고 사용할 수 있도록 설계되었으며, 이는 소규모 애플리케이션부터 대규모 시스템에 이르기까지 광범위하게 적용할 수 있음
ChatGPT-4 와의 비교
1. 모델 크기 및 자원 요구사항
- ChatGPT-4
더 큰 모델 크기와 높은 자원 요구사항을 가지고 있으며, 고성능 하드웨어에서 최적의 성능을 발휘
- ChatGPT-4o
경량화되어 더 적은 자원으로도 동작 가능하며, 다양한 디바이스와 환경에서 효율적으로 사용될 수 있음
2. 성능과 정확도
- ChatGPT-4
복잡한 작업과 고도의 언어 처리에 높은 정확도와 성능을 제공
- ChatGPT-4o
일부 고도의 작업에서는 성능이 다소 낮을 수 있지만, 일반적인 언어 처리 작업에 대해서는 충분한 성능을 제공
3. 유연성 및 적용 범위
- ChatGPT-4
특정 고도화된 작업에 적합하며, 고성능을 요구하는 상황에서 사용됨
- ChatGPT-4o
더 넓은 범위의 응용 가능성을 제공하며, 다양한 환경과 상황에서 유연하게 사용될 수 있음