Few-shot Learning 정리
GPT-3와 퓨샷 학습: AI에게 새로운 것을 가르치는 법
새로운 보드게임을 배울 때 설명서를 전부 외우는 사람은 드물다. 대부분은 몇 번의 시범을 보고 규칙의 패턴을 파악해서 게임을 익힌다. 인간은 몇 가지 정보만으로 새로운 작업을 빠르게 배울 수 있다.
최신 AI도 비슷한 방식으로 학습할 수 있다. 이게 바로 퓨샷 학습(Few-shot Learning)의 핵심 아이디어다.
이 글은 GPT-3 논문을 읽고 퓨샷 학습이 뭔지 정리한 내용이다.
1. 기존 AI 학습 방식: 수많은 예제가 필요했다
기존 AI 모델을 학습시키는 방식은 시험 준비하는 학생과 비슷했다.
- 먼저 인터넷의 방대한 텍스트 같은 ‘교과서’로 언어의 전반적인 규칙과 지식을 공부한다 (사전 학습)
- 그다음 번역이나 요약 같은 특정 시험(작업)을 잘 보기 위해 해당 유형의 문제만 모아놓은 ‘문제집’을 집중적으로 푼다 (미세 조정)
문제는 새로운 작업을 배울 때마다 그 작업에 맞춰 특별히 제작된 전용 데이터셋이 필요하다는 점이다. 이 데이터셋에는 보통 수천 개에서 수만 개에 달하는 예제가 포함되어야 했다.
결론적으로, 새로운 작업을 하나 가르칠 때마다 엄청난 양의 데이터와 학습 시간이 필요하다는 한계가 있었다.
근데 만약 AI가 인간처럼 단 몇 개의 예시만 보고도 새로운 걸 배울 수 있다면? 여기서 GPT-3가 등장한다.
2. GPT-3의 등장: 거대한 두뇌를 가진 AI
GPT-3는 1,750억 개의 매개변수(175 billion parameters)를 가진 초거대 언어 모델이다.
여기서 ‘매개변수’는 인간의 ‘뇌 신경 연결(시냅스)’과 비슷하다고 생각하면 된다. 이 숫자가 클수록 AI는 더 정교하고 유연하게 생각하는 능력을 갖추게 된다.
GPT-3의 규모는 이전의 주요 언어 모델보다 10배 이상 크다. 이 압도적인 규모가 전통적인 학습 방식을 뛰어넘는 새로운 가능성을 연 핵심 열쇠가 됐다.
GPT-3의 가장 큰 혁신은 전통적인 AI처럼 각 작업마다 별도의 데이터셋으로 미세 조정(fine-tuning)이나 모델 업데이트를 할 필요가 없다는 점이다. 그저 인간과 대화하듯 텍스트로 몇 가지 예시를 보여주는 것만으로 완전히 새로운 작업을 수행할 수 있다.
이 압도적인 규모 덕분에 GPT-3는 세상의 거의 모든 텍스트에 담긴 지식과 언어 패턴을 내재화했다. 그래서 새로운 과제를 만났을 때 처음부터 다시 공부할 필요 없이, 기존 지식을 응용해서 단 몇 개의 힌트만으로 맥락을 파악하고 정답을 추론할 수 있게 된 것이다.
그럼 GPT-3는 어떻게 이런 특별한 학습을 할 수 있는 걸까? 그 비밀이 바로 ‘퓨샷 학습’에 있다.
3. 퓨샷 학습: 몇 개의 예시로 충분하다
퓨샷 학습(Few-shot Learning)이란, “인간이 단 몇 개의 예시나 간단한 지시만으로 새로운 언어 작업을 수행할 수 있는 것”처럼 AI가 학습하는 방식이다.
수만 개의 문제집 대신, 단 몇 개의 예시만으로 핵심을 파악하는 것이다.
퓨샷 학습이 실제로 어떻게 작동하는지 예시를 보면 바로 이해가 된다.
예시: 긍정문을 부정문으로 바꾸기
AI에게 내리는 지시:
“다음은 문장을 긍정문에서 부정문으로 바꾸는 예시입니다.”
예시 1:
- 입력: 나는 학교에 간다.
- 출력: 나는 학교에 가지 않는다.
예시 2:
- 입력: 그는 책을 읽는다.
- 출력: 그는 책을 읽지 않는다.
실제 문제:
- 입력: 우리는 영화를 본다.
- 출력: ?
이 지시를 받은 GPT-3는 이미 가지고 있는 방대한 언어 지식을 바탕으로 위 두 예시의 패턴을 즉시 파악한다. 그리고 스스로 “우리는 영화를 보지 않는다.”라는 정답을 자연스럽게 만들어낸다.
이게 바로 퓨샷 학습의 힘이다.
4. GPT-3가 퓨샷 학습으로 할 수 있는 것들
GPT-3는 퓨샷 학습 방식을 통해 수많은 자연어 처리(NLP) 분야에서 강력한 성능을 보여줬다.
언어 이해 및 생성
- 번역(translation)
- 질문 답변(question-answering)
- 문장의 빈칸 채우기(cloze tasks)
기본적인 언어 과제를 능숙하게 처리한다.
순발력과 추론
- 뒤섞인 단어의 순서 맞추기(unscrambling words)
- 처음 보는 새로운 단어를 이용해 문장 만들기
- 세 자리 숫자의 덧셈/뺄셈(performing 3-digit arithmetic)
즉각적인 추론이 필요한 작업도 수행한다.
인간과 유사한 글쓰기
사람이 쓴 뉴스 기사와 GPT-3가 생성한 기사를 놓고 평가했을 때, 평가자들이 둘을 구별하기 어려워할 정도의 글을 쓸 수 있다.
한계도 있다
물론 이 연구에서는 GPT-3가 특정 종류의 데이터셋에서는 여전히 어려움을 겪으며, 방대한 웹 데이터로 학습하는 과정에서 발생하는 구조적인 문제점(편향 등)도 있다는 한계를 솔직하게 인정했다.
5. 정리
이 글의 핵심 내용을 정리하면:
- GPT-3는 1,750억 개의 매개변수를 가진 초거대 AI 언어 모델이다.
- 퓨샷 학습이라는 인간과 유사한 학습 방식을 통해, 단 몇 개의 예시만으로도 새로운 작업을 빠르고 유연하게 배울 수 있다.
이 발전이 AI를 훨씬 더 사용하기 쉽고 강력한 도구로 만들었다. 동시에, 이렇게 강력한 기술이 가져올 사회적 영향에 대해서도 고민이 필요하다.
이게 나중에 ChatGPT 같은 대화형 AI 서비스로 발전하는 기반이 됐다고 보면 된다.
댓글남기기