๋ฐ˜์‘ํ˜•

LLaMA

๋“ฑ์žฅ๋ฐฐ๊ฒฝ

๐Ÿค ๋ฏผ๊ฐ์ •๋ณด ๋ฌธ์ œ

ํšŒ์‚ฌ๋ฅผ ๋‹ค๋…€๋ณธ ์‚ฌ๋žŒ๋“ค์ด๋ผ๋ฉด ๋งŽ์ด ๊ณต๊ฐํ•  ๋ฌธ์ œ์ธ๋ฐ, ๊ธฐ์—…์€ ๋‚ด๋ถ€์˜ ๋ฏผ๊ฐ ์ •๋ณด๊ฐ€ ๋ฐ–์œผ๋กœ ๋‚˜๊ฐ€๋Š” ๊ฒƒ์„ ๋ง‰๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ ๋ณด์•ˆ ์žฅ์น˜๋ฅผ ํ•ด๋‘ก๋‹ˆ๋‹ค. ๋Œ€ํ‘œ์ ์ธ ๊ฒƒ์ด ๋ง๋ถ„๋ฆฌ์ธ๋ฐ ์ด๋Ÿฐ ๋‚ด๋ถ€๋ง ํ™˜๊ฒฝ์—์„œ๋Š” Chat-GPT์™€ ๊ฐ™์€ ์™ธ๋ถ€ LLM ๊ธฐ๋Šฅ ํ™œ์šฉ์ด ์ œํ•œ๋ฉ๋‹ˆ๋‹ค. 

๐Ÿชช ๋ผ์ด์„ผ์Šค ๋ฌธ์ œ

๋จธ์‹ ๋Ÿฌ๋‹/๋”ฅ๋Ÿฌ๋‹ ๋ถ„์•ผ์˜ ์ „๋ฐ˜์ ์ธ ํ”„๋กœ์„ธ์Šค๋ฅผ ์‚ดํŽด๋ณผ ๋•Œ ํ•™์Šต ๋ฐ์ดํ„ฐ - ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ - ํ•™์Šต / ์ถ”๋ก ์ด ์ง„ํ–‰๋˜๋Š” ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ฑฐ์น˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ ์œ„ 3๊ฐœ ์ค‘ ํ•˜๋‚˜๋ผ๋„ ๋น„์ƒ์—…์šฉ ๋ผ์ด์„ผ์Šค๊ฐ€ ์žˆ๋Š” ๊ฒฝ์šฐ ๋ชจ๋ธ์˜ ์ƒ์šฉํ™”๊ฐ€ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. 

์˜คํ”ˆ์†Œ์Šค LLM

์ผ๋ฐ˜์ ์œผ๋กœ LLM ์„œ๋น„์Šค๋ฅผ ํ•˜๋Š” ๊ธฐ์—…๋“ค์˜ ์šด์˜ ํ˜•ํƒœ๋ฅผ ๋ณด๋ฉด ์ผ๋ฐ˜ ์‚ฌ์šฉ์ž๊ฐ€ ๋ชจ๋ธ์— ์ง์ ‘ ์ ‘๊ทผํ•˜๋Š” ๊ฒƒ์„ ์ œํ•œํ•˜๊ณ  ์žˆ๋Š”๋ฐ, ์ด๋ฅผ Closed LLM์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค. Closed LLM์€ ์œ„์—์„œ ์–ธ๊ธ‰ํ•œ ๋ฌธ์ œ๋“ค์—์„œ ์™„์ „ํ•˜๊ฒŒ ์ž์œ ๋กญ์ง€๋Š” ์•Š์Šต๋‹ˆ๋‹ค. (ํŠนํžˆ ๋ฏผ๊ฐ์ •๋ณด ๋ฌธ์ œ๋กœ๋ถ€ํ„ฐ)

 

๋”ฐ๋ผ์„œ ์ด๋Ÿฐ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋“ฑ์žฅํ•œ ๊ฒƒ์ด Meta์˜ ์˜คํ”ˆ์†Œ์Šค LLM์ธ LLaMA์ž…๋‹ˆ๋‹ค. ์˜คํ”ˆ์†Œ์Šค LLM์ด๋ž€ ๊ณต๊ฐœ๋œ ์‚ฌ์ „ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•ด ๋ผ์ด์„ผ์Šค ๋ฌธ์ œ๋‚˜ ๋ฏผ๊ฐ์ •๋ณด ๋ฌธ์ œ๋กœ๋ถ€ํ„ฐ ์ž์œ ๋กœ์šด ์‚ฌ์ „ํ•™์Šต๋œ LLM ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ™œ์šฉํ•ด ํŠน์ • ํƒœ์Šคํฌ์— Fine-tuning์„ ๋” ์˜ค๋ž˜ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์ด ๋” ๋‚ซ๋‹ค๋Š” ๊ฒƒ์—์„œ ์ถœ๋ฐœํ•œ ๊ฒƒ์ด์ฃ .

LLaMA์˜ ํ•™์Šต๋ฐฉ๋ฒ•

LLaMA๋Š” ์˜คํ”ˆ์†Œ์Šค๋กœ ์ œ๊ณต๋œ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ์ธ๋งŒํผ ์‹ค์ œ ํ™œ์šฉ์„ ์œ„ํ•ด์„œ๋Š” ์ถ”๊ฐ€์ ์ธ ํ•™์Šต์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋งŽ์€ ์‚ฌ๋ก€์—์„œ GPT์˜ API๋ฅผ ํ™œ์šฉํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ์ถ•ํ•˜๊ณ  ์ด๋ฅผ ํ•™์Šต์— ํ™œ์šฉํ•˜๋Š” ํ•™์Šต ๋ฐฉ๋ฒ•๋ก ์ด ์—ฐ๊ตฌ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. 

๐Ÿ‘จ‍๐Ÿซ Self-Instruct

GPT API๋ฅผ ํ™œ์šฉํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ์ถ•ํ•˜๋Š” ๋Œ€ํ‘œ์ ์ธ ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์ธ ์ ˆ์ฐจ๋Š” ์•„๋ž˜์™€ ๊ฐ™์ด ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 

  1. ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์„ ์œ„ํ•œ Prompt Pool์„ ํ™•๋ณดํ•˜๊ณ , ๋‹ค์–‘ํ•œ ์ž‘์—…์— ๋Œ€ํ•ด ํ”„๋กฌํ”„ํŠธ-์ •๋‹ต ์Œ๋„ ๋งŒ๋“ ๋‹ค.
  2. ๊ธฐ์กด Pool์—์„œ ์ƒ˜ํ”Œ๋งํ•˜์—ฌ LLM์—๊ฒŒ ์ƒˆ๋กœ์šด Instrcution์„ ์ƒ์„ฑ
  3. ์ƒ์„ฑ๋œ Instruction์„ ๋ถ„๋ฅ˜ ์—ฌ๋ถ€ ํŒ๋‹จ
  4. ์ƒ์„ฑ Instruction์— ๋‹ต๋ณ€(Instance) ์ƒ์„ฑ
  5. ๊ธฐ์กด Pool๊ณผ ๊ธฐ์ค€ ์œ ์‚ฌ๋„ ์ดํ•˜์ธ ๋ฐ์ดํ„ฐ๋งŒ Pool์— ์ถ”๊ฐ€ํ•˜๊ณ  ํ…์ŠคํŠธ๋กœ ํ•ด๊ฒฐํ•  ์ˆ˜ ์—†๋Š” ์ž‘์—…(์˜ˆ๋ฅผ ๋“ค์–ด, ์ด๋ฏธ์ง€) ์ œ๊ฑฐ
  6. ์ด๋ ‡๊ฒŒ ์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ๋กœ ์ง€๋„ํ•™์Šต(SFT) ์ง„ํ–‰

๐Ÿฆ™ Alpaca

Alpaca๋Š” 2023๋…„ ์Šคํƒ ํฌ๋“œ์—์„œ ๋ฐœํ‘œํ•œ LLM SFT ํ”„๋กœ์ ํŠธ๋กœ Self-Instruct ๋ฐฉ์‹์œผ๋กœ ์ƒ์„ฑํ•œ ๋ฐ์ดํ„ฐ๋ฅผ LLaMA์— SFT๋ฅผ ์ง„ํ–‰ํ•œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ฆ‰, Alpaca๋Š” LLaMA๋ฅผ ํ™œ์šฉํ•ด fine-tuningํ•œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. 

์ฐธ๊ณ ์ž๋ฃŒ

[1] ๊ฐ•ํ•„์„ฑ. "Text Generation 3 : sLLM Models". boostcamp ai tech. 

 

 

๋ฐ˜์‘ํ˜•