๐ง Whitepaper Companion Podcast ์์ฝ: Foundational LLMs & Text Generation
๐ ๋ชฉ์ฐจโ
- ์๊ฐ ๋ฐ ๋ชฉํ
- Transformer ๊ตฌ์กฐ ์๊ฐ
- Transformer ๊ตฌ์ฑ์์ ์์ธ ์ค๋ช
- Decoder-only ๋ชจ๋ธ์ ๋ฑ์ฅ๊ณผ ์ฅ์
- Mixture of Experts (MoE)
- LLM ๋ฐ์ ์ฐ๋๊ธฐ
- ํ์ธํ๋๊ณผ ์ธ๊ฐ ํผ๋๋ฐฑ
- Parameter-Efficient Fine-Tuning
- ํ๋กฌํํธ ์์ง๋์ด๋ง & ์ํ๋ง ๊ธฐ๋ฒ
- LLM ํ๊ฐ ๋ฐฉ๋ฒ
- ์ถ๋ก ์๋ ์ต์ ํ ๊ธฐ๋ฒ
- ์ค์ ํ์ฉ ์ฌ๋ก
- ๋ง๋ฌด๋ฆฌ ๋ฐ ๋ฏธ๋ ์ ๋ง
์๊ฐ ๋ฐ ๋ชฉํโ
- ๋ณธ ํ์บ์คํธ๋ LLM์ด ์ด๋ป๊ฒ ๊ตฌ์ฑ๋๊ณ ์๋ํ๋์ง, ์ด๋ป๊ฒ ๋ฐ์ ํด์๋์ง, ์ด๋ป๊ฒ ํ๊ฐํ๊ณ ํจ์จํํ๋์ง๋ฅผ ๋ค๋ฃฌ๋ค.
- Transformer ๊ตฌ์กฐ๋ถํฐ ์ต์ ๋ชจ๋ธ๋ค๊น์ง์ ์งํ๋ฅผ ์ค๋ช ํ๋ฉฐ, ์ค์ ํ์ฉ ์ฌ๋ก์ ๋ฏธ๋ ์ ๋ง๋ ๋ ผ์ํ๋ค.
Transformer ๊ตฌ์กฐ ์๊ฐโ
- Transformer๋ 2017๋ ๊ตฌ๊ธ์ ๋ฒ์ญ ํ๋ก์ ํธ์์ ์์๋์๋ค.
- ์ด๊ธฐ ๊ตฌ์กฐ๋ Encoder + Decoder ํํ์๋ค.
- Encoder: ์ ๋ ฅ ๋ฌธ์ฅ (์: ํ๋์ค์ด)์ ๋ฒกํฐ๋ก ์์ฝ.
- Decoder: ๊ทธ ๋ฒกํฐ๋ฅผ ๋ฐํ์ผ๋ก ์ถ๋ ฅ ๋ฌธ์ฅ (์: ์์ด)์ ์์ฑ.
- ๋ฌธ์ฅ์ ํ ํฐ(token) ๋จ์๋ก ์ฒ๋ฆฌ๋๋ฉฐ, ์ด๋ ๋จ์ด ํ๋ ๋๋ ๋จ์ด์ ์ผ๋ถ์ผ ์ ์๋ค.
Transformer ๊ตฌ์ฑ์์ ์์ธ ์ค๋ช โ
1. ํ ํฌ๋์ด์ง ๋ฐ ์๋ฒ ๋ฉโ
- ๋ฌธ์ฅ์ ๋ฏธ๋ฆฌ ์ ํด์ง vocabulary์ ๋ฐ๋ผ ํ ํฐ์ผ๋ก ๋๋๋ค.
- ๊ฐ ํ ํฐ์ ์๋ฏธ๋ฅผ ๋ด์ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ก ๋ณํ๋๋ค.
2. Positional Encodingโ
- Transformer๋ ์ ๋ ฅ์ ๋์์ ๋ณ๋ ฌ ์ฒ๋ฆฌํ๋ฏ๋ก, ๋จ์ด ์์๋ฅผ ์ ์ ์์.
- ๊ทธ๋์ Positional Encoding์ ์ถ๊ฐ:
- Sinusoidal ๋ฐฉ์ ๋๋ ํ์ต๋ ๋ฐฉ์(learned) ์กด์ฌ.
- ๋ฌธ์ฅ ๊ตฌ์กฐ ์ดํด์ ์ํฅ์ ์ค ์ ์์.
3. Multi-Head Self Attentionโ
- ๋ฌธ์ฅ ๋ด ๋จ์ด๋ค ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ ํ๊ธฐ ์ํ ํต์ฌ ๋ฉ์ปค๋์ฆ.
- ์์ ๋ฌธ์ฅ:
โThe tiger jumped out of a tree to get a drink because it was thirsty.โ
์ฌ๊ธฐ์ โitโ์ด โtigerโ๋ฅผ ์๋ฏธํ๋ค๋ ๊ฒ์ self-attention์ด ํ์ . - ๊ฐ ๋จ์ด๋ Query, Key, Value ๋ฒกํฐ๋ฅผ ๊ฐ๋๋ค.
- Query: "๋๋ ๋๊ตฌ์ ๊ด๋ จ ์์ง?"
- Key: ๋จ์ด์ ์ ์ฒด์ฑ ์ ๋ณด
- Value: ์ค์ ์ ๋ณด
- Query์ Key๋ฅผ ๋ด์ ํ์ฌ attention score ๊ณ์ฐ โ softmax โ ๊ฐ ๋จ์ด๊ฐ ๋ค๋ฅธ ๋จ์ด์ ์ผ๋ง๋งํผ ์ง์คํ ์ง ๊ฒฐ์ .
- ์ด ๋ชจ๋ ์ฐ์ฐ์ ํ๋ ฌ ๋จ์๋ก ๋ณ๋ ฌ ์ฒ๋ฆฌ๋๋ค.
- Multi-head ๊ตฌ์กฐ๋ก ๊ฐ head๋ ์๋ก ๋ค๋ฅธ ๊ด๊ณ(๋ฌธ๋ฒ์ , ์๋ฏธ์ ๋ฑ)๋ฅผ ํ์ตํ๋ค.
4. Layer Normalization & Residual Connectionโ
- LayerNorm: ๊ฐ ์ธต์ ํ์ฑ๊ฐ์ ์์ ์ ์ผ๋ก ์ ์ง
- Residual: ์ ๋ ฅ์ ๋ค์ ์ถ๋ ฅ์ ๋ํด์ค โ ์ ๋ณด ์์ค ๋ฐฉ์ง + ํ์ต ์์ ํ
5. Feed Forward Layerโ
- ๊ฐ ํ ํฐ์ ๋ํด ๋ ๋ฆฝ์ ์ผ๋ก ์ ์ฉ๋๋ 2๊ฐ์ ์ ํ ๋ณํ + ๋น์ ํ ํ์ฑํจ์ (ReLU, GeLU ๋ฑ)
Decoder-only ๋ชจ๋ธ์ ๋ฑ์ฅ๊ณผ ์ฅ์ โ
- ํ ์คํธ ์์ฑ์ ์ง์คํ ๋ชจ๋ธ๋ค์ Decoder-only ๊ตฌ์กฐ๋ฅผ ์ฑํ (์: GPT ๊ณ์ด).
- Masked Self-Attention ์ฌ์ฉ:
- ๋ค์ ํ ํฐ์ ์์ธกํ ๋ ์ด์ ํ ํฐ๋ง ์ฐธ๊ณ ํ ์ ์๊ฒ ์ ํํจ โ ์ฌ๋์ด ๊ธ ์ฐ๋ ๋ฐฉ์๊ณผ ์ ์ฌ.
Mixture of Experts (MoE)โ
- ์ด๋ํ ๋ชจ๋ธ์ ํจ์จ์ฑ์ ๋์ด๊ธฐ ์ํ ๋ฐฉ์.
- ์ฌ๋ฌ ์ ๋ฌธ sub-model (expert)์ ๊ตฌ์ฑํ๊ณ , ์ ๋ ฅ๋ง๋ค ์ผ๋ถ๋ง ํ์ฑํ.
- Gating network๊ฐ ์ด๋ค expert๋ฅผ ์ธ์ง ๊ฒฐ์ .
- ์ฑ๋ฅ์ ์ ์งํ๋ฉด์๋ ์ฐ์ฐ๋์ ์ค์.
LLM ๋ฐ์ ์ฐ๋๊ธฐโ
์ฐ๋ | ๋ชจ๋ธ | ํน์ง |
---|---|---|
2018 | GPT-1 | Decoder-only, BookCorpus, ๋ฐ๋ณต ๋ฌธ์ |
2018 | BERT | Encoder-only, ์ธ์ด ์ดํด์ ํนํ |
2019 | GPT-2 | WebText, zero-shot ๊ฐ๋ฅ |
2020+ | GPT-3 | 175B ํ๋ผ๋ฏธํฐ, few-shot ๊ฐ๋ฅ |
์ดํ | GPT-3.5, GPT-4 | ์ฝ๋ ์ดํด, ๋ฉํฐ๋ชจ๋ฌ ๊ธฐ๋ฅ |
2021 | LaMDA (Google) | ๋ํ์ ํนํ |
2021 | Gopher (DeepMind) | ๊ณ ํ์ง ๋ฐ์ดํฐ, ์ง์ ๊ธฐ๋ฐ ํ์คํฌ |
2022 | Chinchilla (DeepMind) | ํ๋ผ๋ฏธํฐ ๋๋น ํ์ต ๋ฐ์ดํฐ ์ฆ๊ฐ |
2022 | PaLM | Google Pathways, ํ์ฅ์ฑ ๊ฐ์ |
2023 | PaLM 2 | ์ ์ ํ๋ผ๋ฏธํฐ๋ก ๋ ๋์ ์ฑ๋ฅ |
2024 | Gemini | ๋ฉํฐ๋ชจ๋ฌ, ๋์ฉ๋ ์ปจํ ์คํธ, MoE |
2024 | Gemma 1, 2 | ๊ฒฝ๋, ์คํ์์ค, LLaMA 3๋ณด๋ค ๋น ๋ฆ |
- | LLaMA 1/2/3 | Meta, ๋ค๊ตญ์ด, ๋น์ ๋ชจ๋ธ ํฌํจ |
- | Mistral Mixtral | Sparse MoE, ์ํ ๋ฐ ๋ค๊ตญ์ด ์ฐ์ |
- | DeepSeek R1 | RL ๊ธฐ๋ฒ, OpenAI 01 ์์ค |
- | ๊ธฐํ | Qwen, Yi, Grok ๋ฑ ๋ค์ํ ์คํ๋ชจ๋ธ |
ํ์ธํ๋๊ณผ ์ธ๊ฐ ํผ๋๋ฐฑโ
- Pretraining: ๋ผ๋ฒจ ์๋ ๋ฐฉ๋ํ ํ ์คํธ๋ก ๊ธฐ๋ณธ ์ธ์ด ๋ฅ๋ ฅ ํ์ต.
- Fine-tuning: ํน์ ํ์คํฌ์ฉ ๋ผ๋ฒจ๋ ์๊ท๋ชจ ๋ฐ์ดํฐ๋ก ํนํ.
- SFT (Supervised Fine-Tuning):
- Prompt-Response ์์ผ๋ก ํ์ต โ ํ๋ ํจํด ๋ฐ ์์ ์ฑ ๊ฐํ
- RLHF (Reinforcement Learning from Human Feedback):
- ์ฌ๋์ ์ ํธ๋ฅผ ํ์ตํ Reward Model์ ์ด์ฉํ์ฌ LLM์ ๊ฐํํ์ต
Parameter-Efficient Fine-Tuningโ
- ์ ์ฒด ๋ชจ๋ธ ํ์ธํ๋์ ๋น์ธ๋ค โ ์ผ๋ถ ํ๋ผ๋ฏธํฐ๋ง ์กฐ์ ํ๋ ๊ธฐ๋ฒ๋ค ๋ฑ์ฅ
๊ธฐ๋ฒ | ์ค๋ช |
---|---|
Adapter | ์ค๊ฐ ์ธต์ ์์ ๋ชจ๋ ์ฝ์ ํ์ฌ ๊ฑฐ๊ธฐ๋ง ํ์ต |
LoRA | weight ๋ณํ๋ฅผ ์ ๋ญํฌ ํ๋ ฌ๋ก ๊ทผ์ฌ |
QLoRA | LoRA + ์์ํ(quantization) |
Soft Prompting | ์ ๋ ฅ ์์ ํ์ต๋ ๋ฒกํฐ ์ถ๊ฐ |
ํ๋กฌํํธ ์์ง๋์ด๋ง & ์ํ๋ง ๊ธฐ๋ฒโ
๐ง ํ๋กฌํํธ ๊ธฐ๋ฒโ
- Zero-shot: ์์ ์์ด ์ง์ ์ง๋ฌธ
- Few-shot: ์์ ๋ช ๊ฐ ์ ๊ณต
- Chain-of-Thought: ์ถ๋ก ๊ณผ์ ์ ๋จ๊ณ๋ณ๋ก ๋ณด์ฌ์ค
๐ฒ ์ํ๋ง ๊ธฐ๋ฒโ
๊ธฐ๋ฒ | ํน์ง |
---|---|
Greedy | ํญ์ ๊ฐ์ฅ ํ๋ฅ ๋์ ํ ํฐ ์ ํ โ ๋ฐ๋ณต ๊ฐ๋ฅ์ฑ โ |
Random Sampling | ์ฐฝ์์ฑ โ, ์ค๋ฅ ๊ฐ๋ฅ์ฑ โ |
Temperature | ๋ฌด์์์ฑ ์กฐ์ (โ๋ฉด ์ฐฝ์์ฑ โ) |
Top-k | ํ๋ฅ ๋์ k๊ฐ ์ค์์ ์ํ๋ง |
Top-p (Nucleus) | ๋์ ํ๋ฅ ์ด p ์ดํ์ธ ํ ํฐ ์ค์์ ์ ํ |
Best-of-n | ์ฌ๋ฌ ๊ฐ ์์ฑ ํ ๊ฐ์ฅ ์ข์ ๊ฒ ์ ํ |
LLM ํ๊ฐ ๋ฐฉ๋ฒโ
- ์ ๋ ํ๊ฐ: BLEU, ROUGE ๋ฑ โ ์ ๋ต์ ์ผ๋ง๋ ๊ฐ๊น์ด์ง
- ์ ์ฑ ํ๊ฐ: ์ฌ๋ ๋ฆฌ๋ทฐ์ด๊ฐ ์ ์ฐฝ์ฑ, ์ผ๊ด์ฑ, ์ฐฝ์์ฑ ๋ฑ ํ๊ฐ
- AI ํ๊ฐ์: LLM์ด ๋ค๋ฅธ LLM์ ์ถ๋ ฅ์ ์ฑ์ (Generative, Discriminative, Reward ๋ชจ๋ธ ๋ฑ)
- ๋ค์ค ๊ธฐ์ค ํ๊ฐ: ์ ํ๋, ์ ์ฉ์ฑ, ์คํ์ผ ๋ฑ ๋ง์ถค ํ๊ฐ ๊ธฐ์ค ์ค์
- ๋ฉํฐ๋ชจ๋ฌ ํ๊ฐ: ํ ์คํธ, ์ด๋ฏธ์ง, ์์ ๊ฐ๊ฐ ๋ฐ๋ก ํ๊ฐ ํ์
์ถ๋ก ์๋ ์ต์ ํ ๊ธฐ๋ฒโ
๋ฒ์ฃผ | ๊ธฐ๋ฒ | ์ค๋ช |
---|---|---|
๐ ์ถ๋ ฅ ๋ณํ ์์ | Quantization | ์ฐ์ฐ์ 8๋นํธ/4๋นํธ๋ก ์ค์ฌ ์๋ ์ฆ๊ฐ |
Distillation | ์์ ๋ชจ๋ธ์ด ํฐ ๋ชจ๋ธ ๋ชจ๋ฐฉ | |
โ ์ถ๋ ฅ ์ ์ง | Flash Attention | ๋ฐ์ดํฐ ์ด๋ ์ต์ํ, ๋ณ๋ ฌํ ํฅ์ |
Prefix Caching | ๋ํ ์ปจํ ์คํธ ๋ถ๋ถ ๊ฒฐ๊ณผ ์บ์ฑ | |
Speculative Decoding | ๋น ๋ฅธ Drafter ๋ชจ๋ธ ์์ธก โ ๊ฒ์ฆ ํ ๊ฑด๋๋ | |
๋ณ๋ ฌํ | Batching / Parallelization | ๋ค์ ์์ฒญ ๋์ ์ฒ๋ฆฌ or ์ฐ์ฐ ๋ถ์ฐ |
์ค์ ํ์ฉ ์ฌ๋กโ
- ์ฝ๋ฉ: ์์ฑ, ๋ฆฌํฉํ ๋ง, ๋๋ฒ๊น , ๋ฌธ์ํ, ์ฝ๋ ๋ฒ์ญ ๋ฑ (์: AlphaCode 2)
- ์ํ/๊ณผํ: FundSearch, AlphaGeometry โ ์ํ์ ๋ฐ๊ฒฌ ๋ณด์กฐ
- ๋ฒ์ญ/์์ฝ/์ง๋ฌธ์๋ต: ์์ฐ์ค๋ฝ๊ณ ์ ํํ ๊ฒฐ๊ณผ ์ ๊ณต
- ๋ํ/์ฐฝ์: ๊ด๊ณ , ๋๋ณธ, ์ฐฝ์์ ๊ธ์ฐ๊ธฐ ๋ฑ
- ์๋ฃ/๋ฒ๋ฅ /๊ฐ์ ๋ถ์: ์ง๋จ ๋ณด์กฐ, ๋ฌธ์ ๋ถ์, ๊ณ ๊ฐ ํผ๋๋ฐฑ ๋ถ์
- LLM ํ๊ฐ์ ์ญํ : ๋ค๋ฅธ ๋ชจ๋ธ์ ์ถ๋ ฅ์ ์ฑ์
- ๋ฐ์ดํฐ ๋ถ์: ๋๊ท๋ชจ ๋ฐ์ดํฐ์์ ์ธ์ฌ์ดํธ ์ถ์ถ
๋ง๋ฌด๋ฆฌ ๋ฐ ๋ฏธ๋ ์ ๋งโ
- Transformer ๊ธฐ๋ฐ ๊ตฌ์กฐ๋ ์ฌ์ ํ ํต์ฌ.
- LLM์ ๋น ๋ฅด๊ฒ ๋ฐ์ ์ค์ด๋ฉฐ, ๋ฉํฐ๋ชจ๋ฌ ๊ธฐ๋ฅ๊ณผ ๋๊ท๋ชจ ์ปจํ ์คํธ ์๋์ฐ๊ฐ ํต์ฌ ๊ฒฝ์ ์์.
- ๋ค์ํ ์์ฉ ๋ถ์ผ์์ LLM์ ํ์ฉ์ ๊ณ์ ํ์ฅ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋จ.
- ๋ค์ ์ธ๋ LLM์ผ๋ก ๋ฌด์์ด ๊ฐ๋ฅํด์ง์ง, ์ด๋ค ๊ณผ์ ๊ฐ ์๋์ง์ ๋ํ ์ฒญ์ทจ์ ์๊ฒฌ ์์ฒญ์ผ๋ก ๋ง๋ฌด๋ฆฌ.