맛집 탐방, 컴퓨터는 전공 맛탐컴전

GPT란?

- Google 연구팀이 발표한 트랜스포머(Transformer) 모델을 기반으로 대규모 데이터셋을 활용해 사전 학습된 생성형 인공지능 모델을 말합니다.

질 문 !

1. 대규모 데이터셋을 어떻게 처리해 Transformer 모델 기반의 GPT 모델을 어떻게 학습시켰을까?

데이터셋의 구조

데이터 형태 : 텍스트 데이터

1. 텍스트 데이터를 가져온다.

2. 해당 텍스트 데이터에 대한 사전을 만든다. (어휘 사전)

3. 해당 어휘 사전을 숫자로 매핑한다. (숫자로 치환, 컴퓨터는 숫자만 이해할 수 있어) - 임베딩

4. 그 뒤는 라이브러리 사용방법을 알아야 함.

1. 훈련, 검증, 테스트 세트로 분할?

2. block_size 설정 (GPT 같은 모델을 학습할 때 설정) : 한 번에 모델이 처리할 수 있는 글자의 수를 말합니다.

3. batch_size 설정 (모델의 학습 효율을 높이는 중요한 기법) : 한 번에 처리할 텐서의 개수

* 텐서 : 여러 벡터 공간 및 그 쌍대 공간들의 일종의 '곱연산"을 사용해 복합적으로 연결시킨 구조를 말합니다.

- 어텐션 메커니즘은 간단히 말해 문자나 단어 사이의 관계를 파악하고, 특정 정보의 중요성을 인식하는 메커니즘을 말합니다.

- 문장의 모든 단어가 서로를 참조하여 관계를 학습하는 기법이다.

자연어 처리 (NLP)란? , Natural Langauge Processing (0)	2025.03.02
LLM 개발 목표 및 일정 (0)	2025.03.02

민서의 개발 블로그