특별기고연말 출시 예상을 깬 챗GPT 버전 4는 구글의 검색 시장을 겨냥한 MS의 입김 때문인가

특별기고
연말 출시 예상을 깬 챗GPT 버전 4는 구글의 검색 시장을 겨냥한 MS의 입김 때문인가

NSP통신, NSP인사 기자

입력 2023-03-17 10:59 업데이트 2023-03-17 11:09 KRD8

#서울여자대학교

김명주 서울여자대학교 정보보호학과장·바른AI센터장

(서울=NSP통신) NSP인사 기자 = 소프트웨어에 버전(version)을 붙일 때 출시 연도를 사용하기도 한다. 그러나 점(.)을 중심으로 숫자를 사용하는 방식이 더 오래된 방식이다. 이처럼 숫자를 사용한 버전 넘버링에는 나름대로 관습이 있다. 처음 출시될 때는 1로 시작한다. 그리고 현재 버전에 비해 기본 틀을 확 바꾸어 업그레이드할 경우 버전의 앞자리 숫자를 높인다. 반면에 동일한 틀 안에서 크고 작은 개선을 할 경우, 뒷자리를 높인다. 개선하는 양과 질에 비례하여 뒷자리 숫자의 크기가 달라진다.

예를 들어보자. 1985년 8월 마이크로소프트사가 윈도 운영체제(Microsoft Windows)를 처음 출시했을 때 버전은 1.0이었다. 당시에 윈도 1.0는 새로운 운영체제가 아니었다. 앞선 MS-DOS 운영체제 위에서 돌아가는 하나의 응용프로그램에 불과했다. 그로부터 3개월이 지나 윈도 1.01이 나왔다. 다양한 오류를 해결하고 성능을 다소 높였다.

김명주 서울여대 정보보호학과장·바른AI센터장 (서울여자대학교 제공)

회사 스스로 판단할 때 개선을 통한 변화의 양이 이전 버전의 100분의 1 정도에 불과함을 버전 번호에 0.01을 추가하여 표시했다. 뒤이어 1.02, 1.03, 1.04 버전이 나왔다.

그러던 중 1987년 마이크로소프트사는 윈도의 틀을 크게 바꾸고 앞의 버전 번호를 바꾸어 2.0으로 명명했다. 한글화 작업은 조금 늦어져 우리나라에서는 한글 윈도 2.1 버전이 처음으로 발표되기도 했다. 1989년 초 MS-DOS 운영체제에서 독립한 새로운 윈도 3.0이 발표되었다. 그러다가 이를 좀 더 개선한 윈도 3.1이 1992년에 발표되었다. 이것은 공전의 히트작이 되었고 우리나라에서도 마이크로소프트 윈도라고 하면 바로 이 윈도 3.1을 꼽았다. 윈도 3.1은 앞선 윈도 3.0보다 10% 더 개선된 버전임을 버전 번호를 통해 시사했다.

광고를 불러오는 중...

OpenAI사가 작년 11월 말에 발표하여 열풍을 몰고 온 ‘챗GPT’는 ‘GPT’라는 초거대언어모델(LLM)에 뿌리를 두고 대화형으로 동작한다. GPT는 그동안 파라미터의 규모와 학습데이터 규모에 따라 버전 1, 버전 2, 버전 3으로 발전해왔다. 학습된 결과를 보관하는 역할을 하는 파라미터의 수만 따지면, GPT-1(2018년 6월)은 1억 1700만 개, GPT-2(2019년 2월)는 15억 개, GPT-3(2020년 2월)는 1750억 개로 단위가 다르게 확대되어 왔다. 작년 11월 말에 공개된 챗GPT는 GPT-3을 기반으로 인간 피드백에 의한 강화학습(RLHF)을 추가하여 좀 더 세심하게 튜닝한 GPT-3.5를 토대로 동작한다. GTP-3.5는 파라미터의 수나 학습데이터량에 있어서는 GPT-3과 동일하다. 그래서 버전을 3.0에서 50% 능력이 증가했다는 의미로 3.5를 붙였다. 사람들은 챗GPT를 통해서 GPT-3.5에 놀라고 열광하면서 곧이어 나올 GPT-4.0에 대한 기대를 부풀렸다.

사람들이 기대했던 GPT-4의 사양은 매우 구체적이었다. 파라미터 수는 100조(Trillion) 개로 인간 뇌가 가지는 전체 시냅스 개수의 약 10분의 1 수준까지 이르며 데이터를 다시 학습하는데 소요되는 비용은 5000억 원 이상을 예상했다. 우리나라 국내 기업은 엄두도 못내는 규모와 비용이었다. 불과 얼마 전까지만해도 챗GPT를 만든 OpenAI 대표 샘 알트만은 사람들이 매우 궁금해하며 기대하고 있는 GPT-4는 사실이 아니라고 공언해왔었다. 현실성 없는 스펙이라고 부인했다.

그런데 3월 15일 OpenAI는 GPT-4를 전격 발표하여 사람들을 깜짝 놀라게 하였다. 샘 알트만이 최근까지 부정한 발언을 그대로 믿는다면, 이번에 발표된 GPT-4는 사람들이 지금까지 예상하고 기대했던 바로 그 GPT-4가 아니다. 그렇다면 이번에 성능이 개선된 GPT의 버전은 얼마로 숫자를 붙여야 버전 관습에 맞는 것일까? 필자의 판단으로는 3.6 기껏해야 3.9가 맞다. 앞 번호를 높여서 버전 4.0을 붙일 만큼의 변화 수준은 결코 아니다.

챗GPT와 같은 초거대언어모델(LLM)은 검색엔진을 완전하게 대체할 것이라는 예측도 있다. 그러나 필자는 단기간에 완전 대체는 되지 않을 것이며 검색엔진과 LLM은 상호 보완의 역할을 할 것이라고 예측한 바 있다. 그럼에도 불구하고 검색시장의 점유율은 챗GPT와 같은 LLM의 출현으로 인하여 요동칠 것은 분명하다고 말했다. 이번 GPT의 업그레이드 버전을 4로 전격 공개된 이유는 이러한 검색시장의 지각 변동을 염두에 둔 마케팅적 요인이 더 크다. 검색시장에서 구글 점유율(92.9%)을 조금이라도 뺏어오려는 마이크로소프트(검색엔진 빙 3%)의 욕심이 버전 넘버링 관례와 상식을 앞질렀다는 생각이다. 검색시장 1%는 온라인 광고 매출 20억 달러(2조 5000억 원)을 좌우하는게 현실이다.

광고를 불러오는 중...

챗GPT의 실질적 주인이 마이크로소프트사이기에 OpenAI는 이러한 결정을 따를 수밖에 없다. 더구나 마이크로소프트사는 최근에 검색엔진 빙(Bing)에 기존의 키워드 검색 기능 외에 챗GPT를 활용하는 채팅 기능을 과감히 추가하면서 검색시장에서 구글을 열심히 추격하는 중이었다. 더구나 이용자가 문장 하나를 입력하여 GPT가 처리하여 답변을 내는데까지 소용되는 평균 비용이 2센트(약 25원)이고 보면 챗GPT를 운영하는데도 천문학적인 비용이 든다. 그래서 ‘챗GPT 플러스’를 이용하는 유료회원을 더 늘여야 하는 형편이었는데, 이를 유인하여 흡입하기 위해서 큰 버전의 변화가 불가피했다. 개선된 GPT에 3.9도 아닌 4라는 큰 버전 번호를 붙인 이유는 전통적인 버전 넘버링 관습을 무시한 마케팅 필요와 욕심에서 기인한다.

이러한 마이크로소프트사의 모습은 딱 한 달 전의 구글의 우울한 모습을 떠오르게 한다. 챗GPT 오픈 후 2달 정도가 된 2023년 1월 29일. 파이낸셜타임즈 기사에 구글의 모기업 알파벳 경영진의 인터뷰가 실렸다. “구글은 챗GPT보다 더 강력한 AI챗봇을 개발했지만, 잠재적인 사회적윤리적 위험을 통제할 방법을 찾아낼 때까지는 이를 출시할 수 없다고 결정했습니다”. 구글의 기술 및 사회 책임자 제임스 마나이카(James Manyika)도 똑같은 발언을 했다. 그런데 이 발언이 나온지 불과 1주일 후인 2월 7일 구글은 초거대 인공지능 람다에 대한 챗봇AI “바드”를 전격 발표하고 시연까지 했다. 구글 역시 검색시장을 앉아서 뺏길 수만은 없었다.

그래서 챗GPT가 근원적으로 하지 못하는 답변을 바드만큼은 할 수 있도록 기획한 시나리오가 있었다. 챗GPT가 2021년 9월까지의 학습데이타만을 학습했다는 제한점을 활용하는 것이었다. 2021년 12월에 가동하기 시작한 제임스 웹 우주망원경에 대한 질문을 준비했다. 이렇게 바드에게 질문했다. “제임스 웹 우주망원경이 발견한 새로운 사실에 대해 아홉살 아이에게 뭐라고 설명하면 좋을까?” 바드는 제임스 웹 우주망원경이 태양계 밖 행성의 사진을 처음 찍은 망원경이라고 답했다. 그러나 이게 사실이 아니었다. 실제로는 유럽남방천문대가 칠레에서 운영하는 파라날 천문대의 거대망원경(VLT)이 2004년 외계행성을 처음으로 촬영하는 데 성공했다는 것이 알려지면서 구글의 자존심과 기획 의도에 순식간에 금이 갔다. 그날 알파벳의 주식총액은 7.7%에 이어 다음날 11.1%가 폭락하여 시가총액 1000억 달러(120조 원)가 이틀만에 사라지며 체면을 구겼다. 이 기회를 놓칠 마이크로소프트사가 아니었다. 빙에 챗GPT를 바로 붙였고, 그리고 GPT 성능을 개선하면서 3에서 떠나 4로 훌쩍 도약하는 느낌을 주고 싶었다. 그런데 이것도 구글과 같은 욕심처럼 다가온다.

이제 챗GPT는 이용자의 기대를 3.5에서 4.0으로 한껏 부풀려 놓았다. 그러나 이전부터 유료 사용자로서 챗GPT를 사용해왔던 필자는 이전의 3.5와 새로운 4를 비교하여 이것저것 여기저기를 꼼꼼하게 둘러본 결과, OpenAI의 기대와 다른 생각을 가지게 되었다. 챗GPT가 이제는 그림까지 인식한다는 멀티모달, 더 정확해졌다는 추론 기능 등 다소 개선된 성능에도 불구하고 4.0이라는 버전은 소프트웨어에서의 버전 넘버링 관례이 비견해 볼 때, 지나친 과장이고 욕심이라는 생각이 든다. 개선된 챗GPT는 필자가 보기에 3.7 정도가 적정한 것 같다.

광고를 불러오는 중...

더구나 환각(hallucination)이라 불리는 천연덕스러운 거짓말, 과거의 사실도 제대로 파악하지 못하여 만들어내는 답변의 부정확성, 얼토당토않는 추론은 여전히 존재한다. 이러한 문제점 지적 때문인지 GPT-4를 발표한 후 OpenAI 기술이사는 “인간이 완전하지 않은 것처럼 인공지능도 완전하지 않다”라며 이것을 인정하고 챗GPT를 사용하라는 기자회견을 가졌다. 사실 이런 발언은 사업자나 개발자가 자신 있게 공공연히 할 말은 아닌듯싶다. 그럼에도 불구하고 GPT의 새로운 버전을 4로 과장하여 올려놓고 보니, 1억 명 넘는 챗GPT 이용자들이 체감하는 버전은 4라고 보기에 여전히 문제점이 존재한다는 평가에 당황하여 변명한 발언으로 보인다.

결국 이제는 이용자들에게 바통이 넘어온 셈이다. OpenAI의 공식 입장은 이미 기술적으로 할만큼은 다 했다는 듯이 들린다. 앞으로 이용자들은 챗GPT를 업무에 어떻게 잘 활용할지도 고민해야 하지만 어디까지 챗GPT의 답변을 신뢰하여 사용할지도 정신을 차리고 분별하며 사용해야 한다. 그래서 갈수록 이용자의 AI 역량이 필요하고, AI 리터러시가 중요하며, 이용자의 AI 윤리가 크게 부상할 수밖에 없는 상황이 열리고 있다.