반응형
GPT란?
- Google 연구팀이 발표한 트랜스포머(Transformer) 모델을 기반으로 대규모 데이터셋을 활용해 사전 학습된 생성형 인공지능 모델을 말합니다.
질 문 !
1. 대규모 데이터셋을 어떻게 처리해 Transformer 모델 기반의 GPT 모델을 어떻게 학습시켰을까?
데이터셋의 구조
데이터 형태 : 텍스트 데이터
1. 텍스트 데이터를 가져온다.
2. 해당 텍스트 데이터에 대한 사전을 만든다. (어휘 사전)
3. 해당 어휘 사전을 숫자로 매핑한다. (숫자로 치환, 컴퓨터는 숫자만 이해할 수 있어) - 임베딩
4. 그 뒤는 라이브러리 사용방법을 알아야 함.
데이터 전처리 Check List
1. 훈련, 검증, 테스트 세트로 분할?
2. block_size 설정 (GPT 같은 모델을 학습할 때 설정) : 한 번에 모델이 처리할 수 있는 글자의 수를 말합니다.
3. batch_size 설정 (모델의 학습 효율을 높이는 중요한 기법) : 한 번에 처리할 텐서의 개수
* 텐서 : 여러 벡터 공간 및 그 쌍대 공간들의 일종의 '곱연산"을 사용해 복합적으로 연결시킨 구조를 말합니다.
이어서 작성
GPT 언어 모델 만들기
셀프 어텐션
- 어텐션 메커니즘은 간단히 말해 문자나 단어 사이의 관계를 파악하고, 특정 정보의 중요성을 인식하는 메커니즘을 말합니다.
- 문장의 모든 단어가 서로를 참조하여 관계를 학습하는 기법이다.
반응형
'인공지능 > 인공지능 개발' 카테고리의 다른 글
자연어 처리 (NLP)란? , Natural Langauge Processing (0) | 2025.03.02 |
---|---|
LLM 개발 목표 및 일정 (0) | 2025.03.02 |