3 분 소요

GPT-3와 퓨샷 학습: AI에게 새로운 것을 가르치는 법

새로운 보드게임을 배울 때 설명서를 전부 외우는 사람은 드물다. 대부분은 몇 번의 시범을 보고 규칙의 패턴을 파악해서 게임을 익힌다. 인간은 몇 가지 정보만으로 새로운 작업을 빠르게 배울 수 있다.

최신 AI도 비슷한 방식으로 학습할 수 있다. 이게 바로 퓨샷 학습(Few-shot Learning)의 핵심 아이디어다.

이 글은 GPT-3 논문을 읽고 퓨샷 학습이 뭔지 정리한 내용이다.


1. 기존 AI 학습 방식: 수많은 예제가 필요했다

기존 AI 모델을 학습시키는 방식은 시험 준비하는 학생과 비슷했다.

  1. 먼저 인터넷의 방대한 텍스트 같은 ‘교과서’로 언어의 전반적인 규칙과 지식을 공부한다 (사전 학습)
  2. 그다음 번역이나 요약 같은 특정 시험(작업)을 잘 보기 위해 해당 유형의 문제만 모아놓은 ‘문제집’을 집중적으로 푼다 (미세 조정)

문제는 새로운 작업을 배울 때마다 그 작업에 맞춰 특별히 제작된 전용 데이터셋이 필요하다는 점이다. 이 데이터셋에는 보통 수천 개에서 수만 개에 달하는 예제가 포함되어야 했다.

결론적으로, 새로운 작업을 하나 가르칠 때마다 엄청난 양의 데이터와 학습 시간이 필요하다는 한계가 있었다.

근데 만약 AI가 인간처럼 단 몇 개의 예시만 보고도 새로운 걸 배울 수 있다면? 여기서 GPT-3가 등장한다.


2. GPT-3의 등장: 거대한 두뇌를 가진 AI

GPT-3는 1,750억 개의 매개변수(175 billion parameters)를 가진 초거대 언어 모델이다.

여기서 ‘매개변수’는 인간의 ‘뇌 신경 연결(시냅스)’과 비슷하다고 생각하면 된다. 이 숫자가 클수록 AI는 더 정교하고 유연하게 생각하는 능력을 갖추게 된다.

GPT-3의 규모는 이전의 주요 언어 모델보다 10배 이상 크다. 이 압도적인 규모가 전통적인 학습 방식을 뛰어넘는 새로운 가능성을 연 핵심 열쇠가 됐다.

GPT-3의 가장 큰 혁신은 전통적인 AI처럼 각 작업마다 별도의 데이터셋으로 미세 조정(fine-tuning)이나 모델 업데이트를 할 필요가 없다는 점이다. 그저 인간과 대화하듯 텍스트로 몇 가지 예시를 보여주는 것만으로 완전히 새로운 작업을 수행할 수 있다.

이 압도적인 규모 덕분에 GPT-3는 세상의 거의 모든 텍스트에 담긴 지식과 언어 패턴을 내재화했다. 그래서 새로운 과제를 만났을 때 처음부터 다시 공부할 필요 없이, 기존 지식을 응용해서 단 몇 개의 힌트만으로 맥락을 파악하고 정답을 추론할 수 있게 된 것이다.

그럼 GPT-3는 어떻게 이런 특별한 학습을 할 수 있는 걸까? 그 비밀이 바로 ‘퓨샷 학습’에 있다.


3. 퓨샷 학습: 몇 개의 예시로 충분하다

퓨샷 학습(Few-shot Learning)이란, “인간이 단 몇 개의 예시나 간단한 지시만으로 새로운 언어 작업을 수행할 수 있는 것”처럼 AI가 학습하는 방식이다.

수만 개의 문제집 대신, 단 몇 개의 예시만으로 핵심을 파악하는 것이다.

퓨샷 학습이 실제로 어떻게 작동하는지 예시를 보면 바로 이해가 된다.

예시: 긍정문을 부정문으로 바꾸기

AI에게 내리는 지시:

“다음은 문장을 긍정문에서 부정문으로 바꾸는 예시입니다.”

예시 1:

  • 입력: 나는 학교에 간다.
  • 출력: 나는 학교에 가지 않는다.

예시 2:

  • 입력: 그는 책을 읽는다.
  • 출력: 그는 책을 읽지 않는다.

실제 문제:

  • 입력: 우리는 영화를 본다.
  • 출력: ?

이 지시를 받은 GPT-3는 이미 가지고 있는 방대한 언어 지식을 바탕으로 위 두 예시의 패턴을 즉시 파악한다. 그리고 스스로 “우리는 영화를 보지 않는다.”라는 정답을 자연스럽게 만들어낸다.

이게 바로 퓨샷 학습의 힘이다.


4. GPT-3가 퓨샷 학습으로 할 수 있는 것들

GPT-3는 퓨샷 학습 방식을 통해 수많은 자연어 처리(NLP) 분야에서 강력한 성능을 보여줬다.

언어 이해 및 생성

  • 번역(translation)
  • 질문 답변(question-answering)
  • 문장의 빈칸 채우기(cloze tasks)

기본적인 언어 과제를 능숙하게 처리한다.

순발력과 추론

  • 뒤섞인 단어의 순서 맞추기(unscrambling words)
  • 처음 보는 새로운 단어를 이용해 문장 만들기
  • 세 자리 숫자의 덧셈/뺄셈(performing 3-digit arithmetic)

즉각적인 추론이 필요한 작업도 수행한다.

인간과 유사한 글쓰기

사람이 쓴 뉴스 기사와 GPT-3가 생성한 기사를 놓고 평가했을 때, 평가자들이 둘을 구별하기 어려워할 정도의 글을 쓸 수 있다.

한계도 있다

물론 이 연구에서는 GPT-3가 특정 종류의 데이터셋에서는 여전히 어려움을 겪으며, 방대한 웹 데이터로 학습하는 과정에서 발생하는 구조적인 문제점(편향 등)도 있다는 한계를 솔직하게 인정했다.


5. 정리

이 글의 핵심 내용을 정리하면:

  1. GPT-3는 1,750억 개의 매개변수를 가진 초거대 AI 언어 모델이다.
  2. 퓨샷 학습이라는 인간과 유사한 학습 방식을 통해, 단 몇 개의 예시만으로도 새로운 작업을 빠르고 유연하게 배울 수 있다.

이 발전이 AI를 훨씬 더 사용하기 쉽고 강력한 도구로 만들었다. 동시에, 이렇게 강력한 기술이 가져올 사회적 영향에 대해서도 고민이 필요하다.

이게 나중에 ChatGPT 같은 대화형 AI 서비스로 발전하는 기반이 됐다고 보면 된다.


출처: Language Models are Few-Shot Learners

댓글남기기