본문 바로가기

인공지능/인공지능 개발

GPT란? , Generative Pre-trained Transformers

반응형

GPT란?

- Google 연구팀이 발표한 트랜스포머(Transformer) 모델을 기반으로 대규모 데이터셋을 활용해 사전 학습된 생성형 인공지능 모델을 말합니다. 

 

질 문 ! 

1. 대규모 데이터셋을 어떻게 처리해 Transformer 모델 기반의 GPT 모델을 어떻게 학습시켰을까? 

 

데이터셋의 구조

데이터 형태 : 텍스트 데이터

 

1. 텍스트 데이터를 가져온다.

2. 해당 텍스트 데이터에 대한 사전을 만든다. (어휘 사전)

3. 해당 어휘 사전을 숫자로 매핑한다. (숫자로 치환, 컴퓨터는 숫자만 이해할 수 있어) - 임베딩 

4. 그 뒤는 라이브러리 사용방법을 알아야 함. 

 

데이터 전처리 Check List

1. 훈련, 검증, 테스트 세트로 분할? 

2. block_size 설정 (GPT 같은 모델을 학습할 때 설정) : 한 번에 모델이 처리할 수 있는 글자의 수를 말합니다. 

3. batch_size 설정 (모델의 학습 효율을 높이는 중요한 기법) :  한 번에 처리할 텐서의 개수

* 텐서 : 여러 벡터 공간 및 그 쌍대 공간들의 일종의 '곱연산"을 사용해 복합적으로 연결시킨 구조를 말합니다.

 

 


이어서 작성

 

GPT 언어 모델 만들기

 

셀프 어텐션 

- 어텐션 메커니즘은 간단히 말해 문자나 단어 사이의 관계를 파악하고, 특정 정보의 중요성을 인식하는 메커니즘을 말합니다.

- 문장의 모든 단어가 서로를 참조하여 관계를 학습하는 기법이다.

 

 

반응형