[특별기고]자연어처리 기술의 발전과 범용인공지능의 가능성-NSP통신

인사/동정

칼럼/논설
기고/발언대
기자수첩/한마디
인터뷰
탐방
인사
부고
동정

G03-8236672469

특별기고
자연어처리 기술의 발전과 범용인공지능의 가능성

NSP통신, NSP인사 기자, 2021-06-25 10:10 KRD7

#임팩트라인

윤형기 임팩트라인 대표

(서울=NSP통신) NSP인사 기자 = 딥러닝 기반의 변환(Transformer)기술이 자연어처리 분야에 새로운 화제가 되고 있다. 이기술은 최근 3~4년 사이에 나타났지만 기존 기술과는 차원을 달리 하면서 마침내 범용AI(AGI)의 등장가능성과 그에 따른 위험성까지 보여준다는 점에서 가히 혁명적이라 할 수 있다. 그 발전 경과와 의미를 살펴본다.

원래 자연어 관련하여 초기에는 유닉스프로그램이나, 정규식 표현 등과 같은 텍스트 처리에 집중되었다가 이후 연구가 본격화되면서 색인분석과 같은 형태로서 나타났다. 즉, 여러 문서에 등장하는 고유단어와 출현빈도를 행렬로 나열하고 이로부터 주요단어의 관련을 분석하여 이를 검색엔진에 적용했다. 또한 유의어 사전과 월드넷 등을 통해 개념체계와 개념체계나 단어 간의 상호관계를 규정하고자 하였다. 이어서는 단어의 출현빈도를 중심으로 한 통계분석이 뒤를 이었는데 동시정보행렬과 분포가설 등이 대표적이었고 이 과정에서 생성되는 거대행렬을 효율적으로 처리하기 위한 차원축소기법이 동원되었다.

윤형기 임팩트라인 대표

그러나 자연어처리에 있어 획기적 사건은 Word2Vec이라 하겠는데 이는 단어를 밀집벡터로 표현하고 이를 딥러닝 분석에 이용하려는 것으로서 큰 성공을 거두게 되었다. 그리고 이러한 자연어처리와 딥러닝과의 결합은 비약적 발전의 발판이 되었다. 특히 RNN/LSTM과 결합하여 Seq2Seq 모델로 발전하면서 LSTM이 여러 개 적층된 엔코더와 디코더를 구성함으로써 대상 문장처리를 보다 고도화했다.

앞서의 Seq2Seq는 효과적이었지만 RNN의 약점(예를 들어 문장이 길어졌을 때 기울기가 소실되는 등)을 벗어나지 못했는데 이를 극복하고자 나온 기술이 어텐션이다. 즉, 문장 내 단어에 대해 동적중요성 할당을 계산하여 중점적으로 관심 두어야 할 단어를 결정하고 나아가 긴 문서에서도 각 단어가 앞서 출현한 항목 중 무엇을 지칭하는지를 구별하도록 하였다. 한편 초기에서는 이러한 어텐션 기술이 보조적 역할에 국한했지만 점차 LSTM 자체를 아예 없애고 어텐션 만으로 진행하도록 진화하여 트랜스포머 아키텍처가 대두되었다. 여기서는 어텐션 기술에 각 단어의 순서정보를 추가하고 MHA(Multi-head Attention)과 같은 형태로 고도화되면서 큰 성과를 거두게 되었다.

G03-8236672469

2018년 구글은 BERT를 발표했다. BERT는 트랜스포머에 기반하되 사전에 학습을 완료하여 사용자는 일부만 추가하면 구체적 과제에 이용할 수 있도록 돼있는데 여기엔 자동번역, 음성인식, 문장생성, 요약 및 분류 등이 모두 포함된다. 최근 BERT는 다양하게 확장되고 있다.

2018년 오픈AI(OpenAI) 사는 GPT 관련 논문을 발표했고 이듬해에는 GPT-2와 그 소스코드를 공개하였다. GPT-2 역시 트랜스포머에 의거하였지만 자기회귀모델과 비지도학습을 중심으로 하는 등 BERT와는 그 방향을 달리하였다. 무엇보다도 모델의 규모를 BERT보다 500배 크게 확장했다. 그 결과 별도 훈련 없이도 곧 바로 활용이 가능했다. 특히 문장생성에 있어서는 사람과 구별이 어려울 정도로 정교 해졌으며 사람과의 대화도 상당 수준 가능 해졌다. 이후 오픈AI는 GPT-3를 발표했지만 그 결과만을 공개할 뿐 소스코드는 공개하지 않았다. 이는 자칫 가짜 뉴스나 범죄에 이용될 여지가 있다는 것이 그 이유였다. 얼마 후 마이크로소프트가 독점적 라이선스를 확보한 후 앞으로는 클라우드 환경에서의 API 서비스로만 제한하겠다고 발표했다.

GPT-3부터는 아예 공개 자체를 하지 않고 있으나 기술혁신의 시도는 여러 곳에서 목격되고 있다. BERT 역시 처음부터 104개국어로 학습되었을 뿐 아니라 추가적 노력이 계속되고 있고 한글 BERT 프로젝트 역시 여러 곳에서 진행 중이다.

물론 한계가 없는 것은 아니다. 이들 기술이 의미 자체를 이해하는 것이 아니며 그 자체가 대량 데이터에 의한 학습의 형태로 진행되기 때문에 학습데이터가 활용방향과 유용성에 영향을 미친다. 아주 긴 문서나 책의 집필에도 한계가 있다. 또한 놀랍도록 사람과 유사하면서도 간혹 전혀 비상식적인 대답을 내놓기도 한다. 그러나 짧은 시간 동안에 이룬 기술적 성과는 놀라움 그 자체이다.

이제 이와 같은 신기술의 잠재력과 한계를 드러내고 필요한 사회적 논의를 준비해야 하며 동시에 글로벌 기술발전에 대응하기 위한 내재적 기술확충이 절실하다. 단지 일부 연구기관이나 이윤추구의 기업에만 맡기기에는 너무나 칼날이 매섭기 때문이다. 특히나 지식공유의 전통이 약한 우리네 환경으로는 더욱 기술의 민주화가 필요할 것이기 때문이다.