1. LLM

트랜슀포머

2017λ…„ Google BrainνŒ€μ—μ„œ λ‹€μ–‘ν•œ μžμ—°μ–΄ 처리(NLP) μž‘μ—…μ„ λ‹€λ£¨λŠ” AI λ”₯λŸ¬λ‹ λͺ¨λΈμ„ μ†Œκ°œν•˜μ˜€λ‹€. μ΄λŠ” μΆ”ν›„ BERTλ₯Ό μ΄μš©ν•΄ μœ μ €μ˜ 쿼리λ₯Ό μ’€ 더 잘 μ΄ν•΄ν•˜λŠ” λ°©ν–₯으둜 검색 엔진을 ν–₯μƒμ‹œμΌ°μœΌλ©° μš°λ¦¬κ°€ 은연 쀑에 많이 μ‚¬μš©ν•˜μ˜€μ„ 것이닀.

μ΄λŸ¬ν•œ νŠΈλžœμŠ€ν¬λ¨ΈλŠ” OpenAi와 Microsoftκ°€ ν˜‘λ ₯ν•˜μ—¬ κΉƒν—ˆλΈŒμ˜ Copilotκ³Ό 같은 μ• ν”Œλ¦¬μΌ€μ΄μ…˜μ—μ„œλ„ λ‹¨μˆœν•œ 주석, μ½”λ“œ 쑰각으둜만 μ™„μ „ν•œ μ†ŒμŠ€μ½”λ“œλ₯Ό μƒμ„±ν•˜λŠ” λ°©ν–₯으둜 λ°œμ „ν•΄λ‚˜κ°€κΈ°λ„ ν•˜μ˜€λ‹€.

```
from transformers import pipeline

def classify_text(email):
	"""
	Use Facebook's BERT model to classify an email into "spam" or "not spam"
	
	Args:
		email(str) : The email to classify
	Returns:
		str: The classification of the email
	"""
	# COPILOT μ‹œμž‘ : 이 주석 μ΄μ „μ˜ λͺ¨λ“  것은 COPILOT을 μœ„ν•œ μž…λ ₯
	classifier = pipeline(
		'zero-shot-classification', model='facebook/bart-large-mnli'
		labels = ['spam', 'not spam']
		hypothesis_template = 'This email is {}.'
		results = classifier(
			email, labels, hypothesis_template=hypothesis_template
		)
		
		return results['labels'][0]
	)
	# COPILOT 끝
```

예제 1-1 : Meta의 BART LLMμ—μ„œ κ²°κ³Όλ₯Ό μ–»κΈ° μœ„ν•΄ Copilot LLM μ‚¬μš©

ν•΄λ‹Ή 예제λ₯Ό 잘 μ‚΄νŽ΄λ³΄λ©΄ Copilot에 파이썬 ν•¨μˆ˜ μ •μ˜μ™€ λͺ‡λͺ‡ μ£Όμ„λ§Œ μž‘μ„±ν•œ ν›„ λͺ¨λ“  μ½”λ“œλŠ” Copilot이 μž‘μ„±ν•˜μ˜€λ‹€. μ΄λ ‡κ²Œ LLM이 우리 μ£Όμœ„μ—μ„œ νŽΈμ•ˆν•œ μ‚Ά, κ°œλ°œμ„ μ œκ³΅ν•΄μ£ΌλŠ”λ° 이λ₯Ό 잘 ν™œμš©ν•˜κΈ° μœ„ν•΄μ„  LLM의 내뢀에 λŒ€ν•΄ μ •ν™•νžˆ μ•Œ ν•„μš”κ°€ 더 μžˆλ‹€.

1.1 LLMμ΄λž€?

λŒ€κ·œλͺ¨ μ–Έμ–΄λͺ¨λΈμ€ 트랜슀포머 μ•„ν‚€ν…μ²˜μ—μ„œ νŒŒμƒλœ AI λͺ¨λΈλ‘œ, μ‚¬λžŒμ˜ μ–Έμ–΄, μ½”λ“œ 등을 μ΄ν•΄ν•˜κ³  μƒμ„±ν•˜κΈ° μœ„ν•΄ μ„€κ³„λ˜μ—ˆλ‹€. ν•΄λ‹Ή λͺ¨λΈλ“€μ€ λ°©λŒ€ν•œ μ–‘μ˜ ν…μŠ€νŠΈ λ°μ΄ν„°λ‘œ ν•™μŠ΅ν•˜λ©°, μ‚¬λžŒ μ–Έμ–΄μ˜ λ³΅μž‘μ„±, λ‰˜μ–‘μŠ€ 등을 포착가λŠ₯ν•˜λ‹€.

μ‹€μ œ ν•  수 μžˆλŠ” μž‘μ—…μ€ ν…μŠ€νŠΈ λΆ„λ₯˜λΆ€ν„° μƒμ„±κΉŒμ΄ μ–Έμ–΄ κ΄€λ ¨ μž‘μ—…μ„ 넓은 λ²”μœ„μ—μ„œ μˆ˜ν–‰ν•  수 μžˆλ‹€.

각 μ‚°μ—…μ—μ„œλŠ” λ‹€μŒκ³Ό 같은 λ°©μ‹μœΌλ‘œλ„ ν™œμš©λœλ‹€.

  • 의료: μ „μž 의무 기둝 처리, μž„μƒμ‹œν—˜ λ§€μΉ­, μ‹ μ•½ 발견
  • 금육 : 사기 탐지, 금육 λ‰΄μŠ€μ˜ 감정 뢄석, νŠΈλ ˆμ΄λ”© μ „λž΅
  • 챗봇, 가상 μ–΄μ‹œμŠ€ν„΄νŠΈ

ν•΄λ‹Ή 그림은 NLPμ—μ„œμ˜ λ°œμ „λ“€μ— λŒ€ν•œ κ°œμš”λ‘œ λͺ¨λ“  것은 κ²°κ΅­ 트랜슀포머의 발λͺ…μœΌλ‘œ μ΄μ–΄μ§€λŠ” 것이라고 μ΄ν•΄ν•˜λ©΄ λœλ‹€.

2017년이후뢀터 ν˜„λŒ€μ˜ 트랜슀포머 μ•„ν‚€ν…μ²˜λŠ” 이전 NLP λͺ¨λΈλ‘œλŠ” κ°€λŠ₯ν•˜μ§€ μ•Šμ•˜λ˜ 큰 데이터셋에 λŒ€ν•œ ν›ˆλ ¨ μ‹œκ°„μ„ 지원할 수 μžˆμ—ˆλ‹€. ν•΄λ‹Ή κ³Όμ •μ—μ„œ 단어 κ°„μ˜ 쒅속성, λ¬Έλ§₯ 관계λ₯Ό 포착할 수 있게 ν•˜λŠ” μ…€ν”„ μ–΄ν…μ…˜μ„ μ‚¬μš©ν•˜μ—¬ μ‹œν€€μŠ€ λ‚΄ 각 단어가 λ‹€λ₯Έ λͺ¨λ“  단어에 주의λ₯Ό 기울이게 ν•˜λ„λ‘ ν•˜μ˜€λ‹€. (λ¬Έλ§₯을 찾도둝!)

μ΄λŸ¬ν•œ 트랜슀포머 μ•„ν‚€ν…μ²˜μ˜ λ“±μž₯은 λΌμ΄λΈŒλŸ¬λ¦¬μ™€ νŒ¨ν‚€μ§€λ“€μ΄ 배포되며 μ΄λŸ¬ν•œ λͺ¨λΈλ“€μ„ 전문가듀이 직접 μ‚¬μš©, ν›ˆλ ¨, 곡유λ₯Ό κ°€λŠ₯ν•˜κ²Œ ν•˜μ—¬ λ°œμ „μ„ 가속화 μ‹œμΌ°λ‹€. μ‹€μ œλ‘œ Hugging Face와 같은 인기 μžˆλŠ” LLM μ €μž₯μ†Œμ˜ λ“±μž₯으둜 κ°•λ ₯ν•œ μ˜€ν”ˆ μ†ŒμŠ€ λͺ¨λΈμ— λŒ€ν•œ 접근을 μ œκ³΅ν•œλ‹€.

1.1.1 LLM μ •μ˜

LLMκ³Ό νŠΈλžœμŠ€ν¬λ¨Έκ°€ ν•΄κ²°ν•˜κ³  μžˆλŠ” ꡬ체적인 NLP μž‘μ—…μ€ λ‹€μ–‘ν•œ μž‘μ—…μ„ ν•΄κ²°ν•  수 μžˆλŠ” κΈ°λ°˜μ„ μ œκ³΅ν•œλ‹€.

μ–Έμ–΄ λͺ¨λΈλ§ μž‘μ—…

NLP의 ν•˜μœ„ λΆ„μ•Όλ‘œ, μ§€μ •λœ μ–΄νœ˜ λ‚΄μ˜ 토큰 μ‹œν€€μŠ€ κ°€λŠ₯성을 μ˜ˆμΈ‘ν•˜κΈ° μœ„ν•œ 톡계/λ”₯λŸ¬λ‹ λͺ¨λΈμ˜ 생성을 ν¬ν•¨ν•œλ‹€. λ‹€μŒμ˜ 두 μ’…λ₯˜μ˜ μ–Έμ–΄ λͺ¨λΈλ§ μž‘μ—…μ΄ μžˆλ‹€.

μžκΈ°νšŒκ·€ μ–Έμ–΄ λͺ¨λΈ

μ•Œλ €μ§„ μ–΄νœ˜μ—μ„œ μ£Όμ–΄μ§„ λ¬Έμž₯의 λ°”λ‘œ λ‹€μŒμ— κ°€μž₯ κ°€λŠ₯μ„± μžˆλŠ” 토큰을 μƒμ„±ν•˜λ„λ‘ ν•˜λŠ” κ²ƒμœΌλ‘œ 이전 ν† ν°λ§Œμ„ 기반으둜 λ‹€μŒ 토큰을 μ˜ˆμΈ‘ν•˜λ„λ‘ ν›ˆλ ¨ν•œλ‹€.

  • 트랜슀포머 λͺ¨λΈμ˜ 디코더 λΆ€λΆ„
  • μ–΄ν…μ…˜ ν—€λ“œκ°€ μ•žμ„œ 온 ν† ν°λ§Œ λ³Ό 수 μžˆλ„λ‘ 전체 λ¬Έμž₯에 마슀크 적용
  • ν…μŠ€νŠΈ 생성에 이상적
  • 예 : GPT
μžλ™ 인코딩 μ–Έμ–΄ λͺ¨λΈ

μ•Œλ €μ§„ μ–΄νœ˜μ—μ„œ λ¬Έμž₯의 μ–΄λŠ 뢀뢄이든 λˆ„λ½λ„λ‹ˆ 단어λ₯Ό μ±„μš°λ„λ‘ λͺ¨λΈμ— μš”μ²­ν•˜λŠ” κ²ƒμœΌλ‘œ μ†μƒλœ λ²„μ „μ˜ μž…λ ₯ λ‚΄μš©μœΌλ‘œλΆ€ν„° κΈ°μ‘΄ λ¬Έμž₯을 μž¬κ΅¬μ„±ν•˜λ„λ‘ ν›ˆλ ¨ν•œλ‹€.

  • 전체 λ¬Έμž₯의 μ–‘λ°©ν–₯ ν‘œν˜„μ„ μƒμ„±ν•œλ‹€.
  • λ‹€μ–‘ν•œ μž‘μ—…μ— νŒŒμΈνŠœλ‹λ  수 μžˆμ§€λ§Œ 주둜 λ¬Έμž₯ λΆ„λ₯˜, 토큰 λΆ„λ₯˜μ— μ‚¬μš©λœλ‹€.
  • 예 : BERT

μš”μ•½

LLM은 κ²°κ΅­ μžκΈ°νšŒκ·€, μžλ™ 인코딩 λ˜λŠ” 이 λ‘κ°€μ§€μ˜ 쑰합이 λ˜λŠ” μ–Έμ–΄ λͺ¨λΈμ΄λ‹€. LLM의 μ •μ˜μ  νŠΉμ§•μ€ 큰 크기와 κ΄‘λ²”μœ„ν•œ ν•™μŠ΅ λ°μ΄ν„°μ…‹μœΌλ‘œ, 이λ₯Ό 톡해 ν…μŠ€νŠΈ 생성, λΆ„λ₯˜μ™€ 같은 λ³΅μž‘ν•œ μ–Έμ–΄ μž‘μ—…μ„ νŒŒμΈνŠœλ‹μ—†μ΄ 높은 μ •ν™•λ„λ‘œ μˆ˜ν–‰ν•  수 μžˆλ‹€.

[!인기 μžˆλŠ” LLM의 비ꡐ] >

1.1.2 LLM μ£Όμš” νŠΉμ§•

기쑴의 트랜슀포머 μ•„ν‚€ν…μ²˜λŠ” 2017년에 κ³ μ•ˆλœ μ‹œν€€μŠ€-투-μ‹œν€€μŠ€ λͺ¨λΈμ΄λ©°λ‹€μŒ 두 κ°€μ§€ ꡬ성 μš”μ†Œλ‘œ 이루어져 μžˆλ‹€.

  • 인코더 : raw textλ₯Ό λ°›μ•„λ“€μ—¬ 핡심 ꡬ성 μš”μ†Œλ‘œ λΆ„λ¦¬ν•˜κ³ , ν•΄λ‹Ή ꡬ성 μš”μ†Œλ₯Ό λ²‘ν„°λ‘œ λ³€ν™˜ν•˜λŠ” 업무λ₯Ό λ‹΄λ‹Ήν•˜λ©°, μ–΄ν…μ…˜μ„ ν†΅ν•œ ν…μŠ€νŠΈμ˜ λ§₯락을 μ΄ν•΄ν•œλ‹€.
  • 디코더 : μˆ˜μ •λœ ν˜•μ‹μ˜ μ–΄ν…μ…˜μ„ μ‚¬μš©ν•΄ λ‹€μŒμ— 올 졜적의 토큰을 μ˜ˆμΈ‘ν•˜μ—¬ ν…μŠ€νŠΈ 생성에 λ›°μ–΄λ‚œ μ„±λŠ₯을 보인닀.

μœ„ κ·Έλ¦Όκ³Ό 같이 νŠΈλžœμŠ€ν¬λ¨ΈλŠ” 더 λΉ λ₯Έ ν›ˆλ ¨, μΌλ°˜ν™” 및 더 λ‚˜μ€ μ„±λŠ₯을 μœ„ν•œ 기타 ν•˜μœ„ ꡬ성 μš”μ†Œλ“€μ΄ μ‘΄μž¬ν•œλ‹€. μ˜€λŠ˜λ‚ μ˜ LLM은 λŒ€λΆ€λΆ„ κΈ°μ‘΄ 트랜슀포머의 λ²ˆν˜•μœΌλ‘œ μ‘΄μž¬ν•œλ‹€. BERT와 GPT와 같은 λͺ¨λΈλ“€μ€ 트랜슀포머λ₯Ό 인코더, λ””μ½”λ”λ‘œ 각각 λΆ„ν•΄ν•˜κ³  μ΄ν•΄ν•˜μ—¬ μƒμ„±ν•¨μœΌλ‘œ λ›°μ–΄λ‚œ λͺ¨λΈμ„ κ΅¬μΆ•ν•˜κ³  μžˆλ‹€.

인코더와 디코더λ₯Ό ν•¨κ»˜ μ‚¬μš©ν•œ 전체 λͺ¨λΈμ€ μ‹œν€€μŠ€-투-μ‹œν€€μŠ€ λͺ¨λΈμ΄ λœλ‹€.

일반적인 LLM μ£Όμš” μΉ΄ν…Œκ³ λ¦¬

μœ„μ—μ„œ λ§ν•œ LLM의 μ£Όμš” μΉ΄ν…Œκ³ λ¦¬λ₯Ό λ‹€μ‹œ μ •λ¦¬ν•˜μžλ©΄ λ‹€μŒκ³Ό κ°™λ‹€.

  • μžκΈ°νšŒκ·€ λͺ¨λΈ : 이전 토큰을 기반으둜 λ¬Έμž₯의 λ‹€μŒ 토큰을 μ˜ˆμΈ‘ν•œλ‹€. μ£Όμ–΄μ§„ λ§₯ㄷ락을 λ”°λΌμ„œ 일관성 μžˆλŠ” ν…μŠ€νŠΈ 생성에 νš¨κ³Όμ μ΄λ‹€. 주둜 GPT와 같은 λͺ¨λΈμ΄λ‹€.
  • μžλ™ 인코딩 λͺ¨λΈ : μž…λ ₯ 토큰 쀑 일뢀λ₯Ό 가리고 λ‚¨μ•„μžˆλŠ” ν† ν°μœΌλ‘œλΆ€ν„° μ˜ˆμΈ‘ν•˜μ—¬ λ¬Έλ§₯을 μ–‘λ°©ν–₯으둜 μ΄ν•΄ν•˜μ—¬ ν‘œν˜„μ„ κ΅¬μΆ•ν•œλ‹€. 토큰 κ°„μ˜ λ§₯락적 관계λ₯Ό λΉ λ₯΄κ³  λŒ€κ·œλͺ¨λ‘œ ν¬μ°©ν•˜λŠ” 데 λŠ₯μˆ™ν•˜λ©° 주둜 ν…μŠ€νŠΈ λΆ„λ₯˜ μž‘μ—…μ— μ‚¬μš©λœλ‹€.
  • μžκΈ°νšŒκ·€μ™€ μžλ™ μΈμ½”λ”©μ˜ μ‘°ν•© : λ‹€μ–‘ν•˜κ³  μœ μ—°ν•œ ν…μŠ€νŠΈλ₯Ό μƒμ„±ν•˜κΈ° μœ„ν•΄ 인코더와 디코더λ₯Ό ν•¨κ»˜ μ‚¬μš©ν•œ λͺ¨λΈμ΄λ‹€. 인코더λ₯Ό ν†΅ν•œ μΆ”κ°€ λ§₯락 포착 λŠ₯λ ₯덕뢄에 디코더 기반의 μžκΈ°νšŒκ·€ λͺ¨λΈλ³΄λ‹€ μ—¬λŸ¬ λ¬Έλ§₯μ—μ„œ 더 λ‹€μ–‘ν•˜κ³  창의적인 ν…μŠ€νŠΈλ₯Ό μƒμ„±ν•œλ‹€. κ·Έ μ˜ˆμ‹œλ‘œ μ•„λž˜ 그림의 T5κ°€ μ‘΄μž¬ν•œλ‹€.
더 λ§Žμ€ λ¬Έλ§₯을 νŒŒμ•…

LLM의 ꡬ성, 트랜슀포머의 κΈ°λŠ₯ μ‚¬μš©κ³Ό 관계 없이 λͺ¨λ“  LLM은 λ¬Έλ§₯을 잘 μ‚¬μš©ν•˜λŠ” λͺ©ν‘œλ₯Ό κ°€μ§„λ‹€. 즉, μž…λ ₯ ν…μŠ€νŠΈμ™€ λ‹€λ₯Έ 토큰과 κ΄€λ ¨ν•΄ 각 토큰을 μ΄ν•΄ν•˜λŠ” 것이닀.

μ΄λŸ¬ν•œ λͺ©ν‘œλ₯Ό 잘 μˆ˜ν–‰ν•˜κΈ° μœ„ν•΄ λ‹¨μ–΄μ˜ μ •μ˜μ™€ λ¬Έλ§₯을 κ²°ν•©ν•΄ κ°€λŠ₯ν•œ κ°€μž₯ 의미 μžˆλŠ” 토큰 μž„λ² λ”©μ„ λ§Œλ“€κΈ° μœ„ν•΄ λ…Έλ ₯ν–ˆλŠ”λ° 이 κ³Όμ •μ—μ„œ 생긴 계산이 μ–΄ν…μ…˜ 계산이닀. μ–΄ν…μ…˜ 계산 덕뢄에 더 λ§Žμ€ λ¬Έλ§₯을 νŒŒμ•…ν•΄ 의미 μžˆλŠ” 단어λ₯Ό μ‚¬μš©ν•  수 있게 λ˜μ—ˆλ‹€.

1.1.3 LLM μž‘λ™μ›λ¦¬

LLM은 사전 ν›ˆλ ¨, νŒŒμΈνŠœλ‹ 정도에 따라 μ„±λŠ₯이 μ²œμ°¨λ§Œλ³„μ΄λ‹€. 사전 ν›ˆλ ¨μ„ ν•΄μ•Όν•˜λŠ” μ΄μœ λŠ” LLM이 μ–΄λ–€ 것을 μž˜ν•˜κ³ , λͺ»ν•˜κ³ , 맞좀 λ°μ΄ν„°λ‘œ μ—…λ°μ΄νŠΈν•  ν•„μš”μ„±μ„ μ΄ν•΄ν•˜κΈ° μœ„ν•΄ μ‘΄μž¬ν•œλ‹€.

사전 ν›ˆλ ¨

이름이 λΆ™μ—¬μ§„ 거의 λͺ¨λ“  LLM은 λŒ€λŸ‰μ˜ ν…μŠ€νŠΈ λ°μ΄ν„°λ‘œ νŠΉμ • μ–Έμ–΄ λͺ¨λΈλ§ κ΄€λ ¨ μž‘μ—…μ— λŒ€ν•΄ 사전 ν›ˆλ ¨λœ 것이닀. μ΄λŸ¬ν•œ 사전 ν›ˆλ ¨λ•λΆ„μ— LLM은 일반적인 언어와 단어 κ°„μ˜ 관계λ₯Ό 배우고 μ΄ν•΄ν•œλ‹€.

즉, λͺ¨λ“  LLM은 μ„œλ‘œ λ‹€λ₯Έ λ§λ­‰μΉ˜μ™€ μ„œλ‘œ λ‹€λ₯Έ μž‘μ—…μ— λŒ€ν•΄ ν›ˆλ ¨λ˜λŠ” 것이닀.

예λ₯Ό λ“€μ–΄ BERT의 경우 두 개의 곡개적으둜 μ‚¬μš© κ°€λŠ₯ν•œ ν…μŠ€νŠΈ λ§λ­‰μΉ˜μΈ μ˜μ–΄ μœ„ν‚€λ°±κ³Ό, BookCorpusμ—μ„œ 사전 ν›ˆλ ¨λ˜μ—ˆλ‹€.

  • μ˜μ–΄ μœ„ν‚€ λ°±κ³Ό : μ˜μ–΄ λ²„μ „μ˜ μœ„ν‚€λ°±κ³Όλ‘œ μˆ˜μ§‘λœ 기사듀 λͺ¨μŒμœΌλ‘œ λ‹€μ–‘ν•œ 주제, μ“°κΈ° μŠ€νƒ€μΌμ„ 포함해 μ˜μ–΄ ν…μŠ€νŠΈμ˜ μƒ˜ν”Œμ΄ λœλ‹€.
  • BookCorpus : λŒ€λŸ‰μ˜ μ†Œμ„€, λΉ„μ†Œμ„€ μ±…λ“€μ˜ λͺ¨μŒμœΌλ‘œ λ‹€μ–‘ν•œ μž₯λ₯΄μ˜ μ±…κ³Ό ν•¨κ»˜ μ΅œμ†Œ 2000λ‹¨μ–΄μ˜ 길이듀이 μ‘΄μž¬ν•œλ‹€.

μ΄λŸ¬ν•œ μƒ˜ν”Œλ“€μ„ μ΄μš©ν•΄ BERTλŠ” 두 κ°€μ§€ νŠΉμ •ν•œ μ–Έμ–΄ λͺ¨λΈλ§ μž‘μ—…μ—μ„œ 사전 ν›ˆλ ¨λ˜μ—ˆλ‹€.

  • 마슀크된 μ–Έμ–΄ λͺ¨λΈλ§ (MLM, μžλ™ 인코딩 μž‘μ—…) : BERTκ°€ ν•˜λ‚˜μ˜ λ¬Έμž₯ μ•ˆμ—μ„œ ν† ν°μ˜ μƒν˜Έμž‘μš©μ„ μΈμ‹ν•˜λ„λ‘ λ„μš΄λ‹€.
  • λ‹€μŒ λ¬Έμž₯ 예츑 (NSP) : BERTκ°€ λ¬Έμž₯λ“€ μ‚¬μ΄μ—μ„œ 토큰이 μ„œλ‘œ μ–΄λ–»κ²Œ μƒν˜Έμž‘μš©ν•˜λŠ”μ§€λ₯Ό μ΄ν•΄ν•˜λ„λ‘ 도와쀀닀.

μ΄λŸ¬ν•œ μ‚¬μ „ν›ˆλ ¨μœΌλ‘œ LLM듀이 μ„œλ‘œ ꡬ별이 λ˜μ–΄ 제곡이 되며 μš°λ¦¬μ—κ²ŒλŠ” μ „μ΄ν•™μŠ΅μ˜ μ μš©μ΄λΌλŠ” μœ μš©ν•œ λ°©μ•ˆμ œκ³΅μ„ 톡해 졜고 μˆ˜μ€€μ˜ κ²°κ³Όλ₯Ό 얻을 수 μžˆλ‹€.

μ „μ΄ν•™μŠ΅

λ¨Έμ‹ λŸ¬λ‹μ—μ„œ ν•œ μž‘μ—…μ—μ„œ 얻은 지식을 ν™œμš©ν•˜μ—¬ λ‹€λ₯Έ κ΄€λ ¨ μž‘μ—…μ˜ μ„±λŠ₯을 ν–₯μƒμ‹œν‚€λŠ” 기술

LLM에 λŒ€ν•œ μ „μ΄ν•™μŠ΅μ€ ν…μŠ€νŠΈ λ°μ΄ν„°μ˜ ν•œ λ§λ­‰μΉ˜μ—μ„œ 사전 ν›ˆλ ¨λœ LLM을 κ°€μ Έμ˜¨λ‹€. λ˜ν•œ, ν…μŠ€νŠΈ λΆ„λ₯˜, 생성과 같은 νŠΉμ •ν•œ β€˜μ‹€μ œβ€™ μž‘μ—…μ„ μœ„ν•΄ μž‘μ—… νŠΉμ • λ°μ΄ν„°λ‘œ λͺ¨λΈμ˜ νŒŒλΌλ―Έν„°λ₯Ό μ—…λ°μ΄ν„°ν•˜μ—¬ λͺ¨λΈμ„ νŒŒμΈνŠœλ‹ν•˜λŠ” 것 λ˜ν•œ 이에 ν¬ν•¨λœλ‹€.

κΈ°λ³Έ 아이디어

사전 ν›ˆλ ¨λ˜ λͺ¨λΈμ΄ 이미 νŠΉμ • 언어와 μ–Έμ–΄ λ‚΄ 단어 κ°„μ˜ 관계에 λŒ€ν•œ λ§Žμ€ 정보λ₯Ό ν•™μŠ΅ν–ˆκΈ°μ— 이 정보λ₯Ό μƒˆλ‘œμš΄ μž‘μ—…μ—μ„œμ˜ μ„±λŠ₯을 ν–₯μƒμ‹œν‚€κΈ° μœ„ν•œ μ‹œμž‘μ μœΌλ‘œ μ‚¬μš©ν•˜λŠ” 것이닀. 이λ₯Ό μ΄μš©ν•΄μ„œ LLM은 μ²˜μŒλΆ€ν„° λͺ¨λΈμ„ ν›ˆλ ¨μ‹œν‚€κΈ° 보닀 훨씬 적은 μ–‘μ˜ μž‘μ—…μ— μ—°κ΄€λœ λ°μ΄ν„°λ‘œ νŠΉμ • μž‘μ—…μ— λŒ€ν•΄μ„œ νŒŒμΈνŠœλ‹ν•  수 μžˆλ‹€. 이λ₯Ό 톡해 LLMν›ˆλ ¨μ„ μœ„ν•œ μ‹œκ°„, μžμ›μ„ 크게 쀄일 수 μžˆλ‹€.

λ‹€μŒ 그림으둜 μš”μ•½ν•  수 μžˆλ‹€.

파인 νŠœλ‹

사전 ν›ˆλ ¨λœ LLM은 νŠΉμ • μž‘μ—…μ„ μœ„ν•΄ νŒŒμΈνŠœλ‹ν•  수 μžˆλ‹€. 즉, LLM을 μž‘μ—…μ— νŠΉν™”λœ μƒλŒ€μ μœΌλ‘œ μž‘μ€ λ°μ΄ν„°μ…‹μ—μ„œ ν›ˆλ ¨μ‹œμΌœ, νŠΉμ • μž‘μ—…μ„ μœ„ν•œ νŒŒλΌλ―Έν„°λ₯Ό μ‘°μ •ν•˜λŠ” 것을 μ˜λ―Έν•œλ‹€. LLM은 사전 ν›ˆλ ¨λœ 언어에 λŒ€ν•œ 지식을 ν™œμš©ν•΄ νŠΉμ • μž‘μ—…μ˜ 정확도λ₯Ό λ†’μ΄λŠ” 것이닀.

μ΄λŸ¬ν•œ 방식을 톡해 νŒŒμΈνŠœλ‹μ΄ νŠΉμ • 도메인, μž‘μ—…μ—μ„œμ˜ μ„±λŠ₯의 큰 ν–₯상을 이루어 μ• ν”Œλ¦¬μΌ€μ΄μ…˜μ— λΉ λ₯΄κ²Œ ν™œμš©λ˜λŠ” 계기가 λœλ‹€.

μ‹€μ œ νŒŒμΈνŠœλ‹ 과정은 λ‹€μŒ κ·Έλ¦Όκ³Ό κ°™κ³  과정은 λŒ€λΆ€λΆ„ λ™μΌν•˜λ‹€.

  1. νŒŒμΈνŠœλ‹ν•˜λ €λŠ” λͺ¨λΈκ³Ό νŒŒμΈνŠœλ‹ νŒŒλΌλ―Έν„°(ν•™μŠ΅λ₯ )λ₯Ό κ²°μ •ν•œλ‹€.
  2. ν›ˆλ ¨ 데이터λ₯Ό μˆ˜μ§‘ν•œλ‹€.
  3. 손싀(였λ₯˜μ˜ νŒλ‹¨ κΈ°μ€€)κ³Ό 기울기(였λ₯˜λ₯Ό μ΅œμ†Œν•˜ν™”κΈ° μœ„ν•΄ λͺ¨λΈμ„ μ–΄λ–»κ²Œ 변경할지에 λŒ€ν•œ 정보)λ₯Ό κ³„μ‚°ν•œλ‹€.
  4. 였λ₯˜λ₯Ό μ΅œμ†Œν™”ν•˜κΈ° μœ„ν•΄ λͺ¨λΈ νŒŒλΌλ―Έν„°λ₯Ό μ—…λ°μ΄ν„°ν•˜λŠ” μ—­μ „νŒŒ μ•Œκ³ λ¦¬μ¦˜μ„ 톡해 λͺ¨λΈμ„ μ—…λ°μ΄νŠΈν•œλ‹€.

μ–΄ν…μ…˜

트랜슀포머만이 μ•„λ‹ˆλΌ λ‹€μ–‘ν•œ κ°€μ€‘μΉ˜λ₯Ό μž…λ ₯의 λ‹€λ₯Έ 뢀뢄에 ν• λ‹Ήν•˜λŠ” λ”₯λŸ¬λ‹ λͺ¨λΈμ—μ„œμ˜ λ©”μ»€λ‹ˆμ¦˜

μ΄λŸ¬ν•œ 과정을 톡해 λͺ¨λΈμ€ λ²ˆμ—­μ΄λ‚˜ μš”μ•½κ³Ό 같은 μž‘μ—… μˆ˜ν–‰ μ‹œμ— κ°€μž₯ μ€‘μš”ν•œ 정보λ₯Ό μš°μ„ μ‹œ, κ°•μ‘°ν•  수 있게 λœλ‹€. μ΄λŠ” 본질적으둜 μ–΄ν…μ…˜μ΄ λͺ¨λΈμ΄ λ™μ μœΌλ‘œ μž…λ ₯의 λ‹€λ₯Έ 뢀뢄에 집쀑할 수 있게 ν•˜μ—¬, μ„±λŠ₯ ν–₯상과 더 μ •ν™•ν•œ κ²°κ³Όλ₯Ό μ΄λŒμ–΄λ‚΄λŠ” 것이닀.

[!μ–΄ν…μ…˜μ˜ 쑴재 이전 vs 이후] > μ–΄ν…μ…˜μ΄ μ‘΄μž¬ν•˜κΈ° μ΄μ „μ—λŠ” λŒ€λΆ€λΆ„μ˜ 신경망이 λͺ¨λ“  μž…λ ₯을 λ™λ“±ν•˜κ²Œ μ²˜λ¦¬ν•˜λ©°, λͺ¨λΈμ€ μ˜ˆμΈ‘μ„ μœ„ν•΄ μž…λ ₯의 κ³ μ •λœ ν‘œν˜„μ— μ˜μ‘΄ν–ˆλ‹€. ν•˜μ§€λ§Œ ν˜„λŒ€μ—λŠ” LLM이 λ™μ μœΌλ‘œ μž…λ ₯ μ‹œν€€μŠ€μ˜ μ€‘μš”ν•œ 뢀뢄에 집쀑할 수 있게 λ˜μ–΄ μ£Όμš” μ„±λŠ₯ ν–₯상에 큰 도움이 λ˜μ—ˆλ‹€.

결둠적으둜, LLM은 큰 λ§λ­‰μΉ˜μ—μ„œ 사전 ν›ˆλ ¨λ˜κ³  λ•Œλ‘œλŠ” νŠΉμ • μž‘μ—…μ„ μœ„ν•΄ 더 μž‘μ€ λ°μ΄ν„°μ…‹μ—μ„œ νŒŒμΈνŠœλ‹μ„ μˆ˜ν–‰ν•œλ‹€. 이 κ³Όμ •μ—μ„œ νŠΈλžœμŠ€ν¬λ¨Έκ°€ μ–Έμ–΄ λͺ¨λΈλ‘œμ„œ 쒋은 μ„±λŠ₯을 보이기 μœ„ν•΄μ„œλŠ” κ³ λ„μ˜ 병렬 처리λ₯Ό 톡해 더 λΉ λ₯Έ ν›ˆλ ¨κ³Ό ν…μŠ€νŠΈμ˜ 효율적인 처리λ₯Ό μˆ˜ν–‰ν•΄μ•Ό ν•œλ‹€.

λ˜ν•œ, νŠΈλžœμŠ€ν¬λ¨Έκ°€ λ‹€λ₯Έ λ”₯λŸ¬λ‹ μ•„ν‚€ν…μ²˜λ³΄λ‹€ μ°¨λ³„ν™”λ˜λŠ” 점은 토큰 κ°„μ˜ μž₯거리 μ˜μ‘΄μ„±κ³Ό 관계λ₯Ό μ–΄ν…μ…˜μ„ μ‚¬μš©ν•˜μ—¬ 포착할 수 μžˆλŠ” λŠ₯λ ₯이닀. 즉, μ–΄ν…μ…˜μ„ μ‚¬μš©ν•˜μ—¬ 트랜슀포머 기반 LLM의 핡심 κ΅¬μ„±μš”μ†Œλ‘œ μž‘μš©ν•˜λ©°, ν›ˆλ ¨ κ³Όμ •κ³Ό λŒ€μƒ μž‘μ—… μ‚¬μ΄μ˜ 정보λ₯Ό 효과적으둜 μœ μ§€ν•˜λ©°(μ „μ΄ν•™μŠ΅) κΈ΄ ν…μŠ€νŠΈ 뢀뢄을 μ‰½κ²Œ μ²˜λ¦¬ν•˜λŠ” 것이닀.

μ–΄ν…μ…˜μ€ LLM이 λ‚΄λΆ€ 세계 λͺ¨λΈκ³Ό μ‚¬λžŒμ΄ 식별할 수 μžˆλŠ” κ·œμΉ™μ„ ν•™μŠ΅ν•˜λŠ” 데 도움을 μ£ΌλŠ” κ°€μž₯ μ£Όμš”ν•œ 츑면으둜 κ°„μ£Όλœλ‹€. μ‹€μ œλ‘œ 2019λ…„ μŠ€νƒ νΌλ“œ λŒ€ν•™μ—μ„œ BERT의 νŠΉμ • μ–΄ν…μ…˜ 계산이 언어학적인 ꡬ문과 문법 κ·œμΉ™μ— μΌμΉ˜ν•¨μ„ λ³΄μ˜€λ‹€. μ—°κ΅¬μžλ“€μ€ BERTκ°€ λ™μ‚¬μ˜ 직접 λͺ©μ μ–΄, λͺ…μ‚¬μ˜ ν•œμ •μ‚¬ 및 μ „μΉ˜μ‚¬μ˜ λͺ©μ μ–΄λ₯Ό 사전 ν›ˆλ ¨λ§ŒμœΌλ‘œ μ•„μ£Ό 높은 μ •ν™•λ„λ‘œ νŒŒμ•…ν•  수 μžˆμŒμ„ ν™•μΈν–ˆλ‹€.

또 λ‹€λ₯Έ μ—°κ΅¬μ—μ„œλŠ” 사전 ν›ˆλ ¨κ³Ό νŒŒμΈνŠœλ‹μ„ 톡해 β€˜κ·œμΉ™β€™λ“€μ„ λ‹¨μˆœνžˆ ν•™μŠ΅ν•  수 μžˆλŠ” μ§€ νƒκ΅¬ν•˜μ˜€λ‹€. ν•˜λ²„λ“œ λŒ€ν•™μ˜ μ—°κ΅¬μžλ“€μ€ 였델둜 κ²Œμž„κ³Ό 같은 볡합적인 μž‘μ—…μ— λŒ€ν•΄ LLM이 μ‹€μ œλ‘œ 이전에 μ‹€ν–‰λœ κ²Œμž„ 데이터에 λŒ€ν•œ ν›ˆλ ¨λ§ŒμœΌλ‘œ κ²Œμž„μ˜ κ·œμΉ™μ„ 이해할 수 μžˆμŒμ„ ν™•μΈν•˜μ˜€λ‹€.

μž„λ² λ”©

μœ„μ™€ 같이 LLM이 ν•™μŠ΅ν•  수 μžˆλ„λ‘ ν•˜κΈ° μœ„ν•΄μ„œ 데이터λ₯Ό 기계가 읽을 수 μžˆλŠ” κ²ƒμœΌλ‘œ λ³€ν™˜ν•΄μ•Όν•œλ‹€. 이λ₯Ό μž„λ² λ”© 과정을 톡해 이루어진닀.

μž„λ² λ”©μ€ 고차원 κ³΅κ°„μ—μ„œμ˜ 단어, ꡬ절, ν† ν°μ˜ μˆ˜ν•™μ μΈ ν‘œν˜„μ΄λ‹€.

μœ„μ˜ μž„λ² λ”© μ •μ˜μ—μ„œ 더 λ‚˜μ•„κ°€ NLPμ—μ„œμ˜ μž„λ² λ”©μ€ λ‹€λ₯Έ λ‹¨μ–΄μ™€μ˜ 의미, 관계λ₯Ό ν¬μ°©ν•˜λŠ” λ°©μ‹μ΄λΌλŠ” 의미 λ˜ν•œ ν¬ν•¨ν•œλ‹€.

μ—¬λŸ¬ μ’…λ₯˜μ˜ μž„λ² λ”©μ΄ μ‘΄μž¬ν•˜λ©° λŒ€ν‘œμ μœΌλ‘œ λ‹€μŒ 두 κ°€μ§€κ°€ μ‘΄μž¬ν•œλ‹€.

  • μœ„μΉ˜ μž„λ² λ”© : λ¬Έμž₯μ—μ„œ ν† ν°μ˜ μœ„μΉ˜λ₯Ό 인코딩
  • 토큰 μž„λ² λ”© : ν† ν°μ˜ 의미λ₯Ό 인코딩

LLM은 사전 ν›ˆλ ¨μ„ 기반으둜 ν•˜μ—¬ 토큰에 λŒ€ν•œ λ‹€μ–‘ν•œ μž„λ² λ”©μ„ ν•™μŠ΅ν•˜λ©°, 파인 νŠœλ‹ 쀑에 μ΄λŸ¬ν•œ μž„λ² λ”©μ„ λ‹€μ‹œ μ—…λ°μ΄νŠΈν•  수 μžˆλ‹€.

토큰화

ν…μŠ€νŠΈλ₯Ό κ°€μž₯ μž‘μ€ 이해 λ‹¨μœ„μΈ ν† ν°μœΌλ‘œ λΆ„ν•΄ν•˜λŠ” κ³Όμ •

토큰듀은 의미λ₯Ό λ‚΄ν¬ν•œ 정보 쑰각으둜 μ–΄ν…μ…˜ κ³„μ‚°μ—μ„œμ˜ μž…λ ₯으둜 μ‚¬μš©λ˜μ–΄ LLM이 μ‹€μ œλ‘œ ν•™μŠ΅ν•˜κ³  μž‘λ™ν•˜κ²Œ λœλ‹€. 토큰이 항상 전체 단어λ₯Ό λ‚˜νƒ€λ‚΄λŠ” 것은 μ•„λ‹ˆμ§€λ§Œ LLM의 정적 μ–΄νœ˜λ₯Ό κ΅¬μ„±ν•˜κΈ°λ„ ν•œλ‹€. 예λ₯Ό λ“€μ–΄ 토큰은 ꡬ두점 (.), κ°œλ³„ 문자(ν•˜μ΄), LLM이 μ•ŒκΈ° μ–΄λ €μš΄ λ‹¨μ–΄μ˜ ν•˜μœ„ 단어(γ…Žγ…‡γ„΄γ…‡γ„Ή)λ₯Ό λ‚˜νƒ€λ‚Ό 수 μžˆλ‹€.

거의 λͺ¨λ“  LLM은 λͺ¨λΈμ— νŠΉμ • 의미λ₯Ό κ°€μ§„ νŠΉλ³„ν•œ 토큰이 μ‘΄μž¬ν•œλ‹€.

  • BERT λͺ¨λΈ : [CLS]토큰이 있으며, BERTλŠ” λͺ¨λ“  μž…λ ₯의 첫 번째 ν† ν°μœΌλ‘œ 이λ₯Ό μžλ™ μ‚½μž…ν•œλ‹€. μ΄λŠ” 전체 인λ ₯ μ‹œν€€μŠ€μ— λŒ€ν•œ μΈμ½”λ”©λœ 의미λ₯Ό λ‚˜νƒ€λ‚΄κΈ° μœ„ν•¨μ΄λ‹€.

토큰화 κ³Όμ •μ—μ„œλŠ” λŒ€μ†Œλ¬Έμž λ³€ν™˜μ΄λΌλŠ” μ „μ²˜λ¦¬ 단계 λ˜ν•œ 포함될 수 μžˆλ‹€. μ΄λŸ¬ν•œ λŒ€μ†Œλ¬Έμž λ³€ν™˜μ€ λ‹€μŒ 두 νƒ€μž…μ΄ μ‘΄μž¬ν•œλ‹€.

  • μ†Œλ¬Έμž 토큰화 : λͺ¨λ“  토큰이 μ†Œλ¬Έμžμ΄λ©°, λŒ€λΆ€λΆ„μ˜ μ•…μ„ΌνŠΈλŠ” κΈ€μžμ—μ„œ 제거
  • λŒ€μ†Œλ¬Έμž ꡬ뢄 : ν† ν°μ˜ λŒ€λ¬Έμžκ°€ μœ μ§€λ˜κ³  이 선택이 ν† ν°μ˜ μ˜λ―Έμ— μ€‘μš”ν•œ 정보λ₯Ό μ œκ³΅ν•  수 μžˆμ–΄ μ„±λŠ₯에 영ν–₯을 끼칠 수 μžˆλ‹€.

[!λŒ€μ†Œλ¬Έμžμ˜ 편ν–₯μ„± 문제] > λŒ€μ†Œλ¬Έμžμ˜ κ°œλ… μ‘°μ°¨ λͺ¨λΈμ— 따라 편ν–₯μ„±μ˜ 문제λ₯Ό 띌 수 μžˆλ‹€. ν…μŠ€νŠΈλ₯Ό μ†Œλ¬Έμžν™”ν•˜κ±°λ‚˜ μ•…μ„ΌνŠΈλ₯Ό μ œκ±°ν•˜λŠ” 것은 일반적으둜 μ„œκ΅¬ μŠ€νƒ€μΌμ˜ μ „μ²˜λ¦¬μ΄λ‹€. 그렇기에 λ‹€μ–‘ν•œ λ§λ­‰μΉ˜λ‘œ μΆ©λΆ„νžˆ ν›ˆλ ¨λ˜μ§€ μ•Šμ€ μ–Έμ–΄ λͺ¨λΈμ€ μ΄λŸ¬ν•œ λ¬Έλ§₯의 일뢀λ₯Ό λΆ„μ„ν•˜κ³  ν™œμš©ν•˜λŠ” 데에 큰 λ¬Έμ œκ°€ μ‘΄μž¬ν•  수 μžˆλ‹€. > μ΄λŸ¬ν•œ μ „μ²˜λ¦¬ 편ν–₯은 λ‹€κ΅­μ–΄ λͺ¨λΈ(multilingual model)μ—μ„œ νŠΉμ • μ–Έμ–΄(주둜 μ˜μ–΄)μ—λŠ” 잘 μž‘λ™ν•˜μ§€λ§Œ, λ‹€λ₯Έ μ–Έμ–΄(특히 μ•…μ„ΌνŠΈ, λŒ€μ†Œλ¬Έμž ꡬ뢄이 μ€‘μš”ν•œ μ–Έμ–΄)μ—μ„œλŠ” μ„±λŠ₯ μ €ν•˜, 의미 μ™œκ³‘, λΆˆκ³΅μ •ν•œ κ²°κ³Ό λ“±μœΌλ‘œ μ΄μ–΄μ§ˆ 수 μžˆμŠ΅λ‹ˆλ‹€

μœ„ 그림은 ν† ν°ν™”μ˜ ν•œ μ˜ˆμ‹œ 그림으둜 LLM이 μ–΄νœ˜ 사전에 μ—†λŠ” ꡬ문을 μ–΄λ–»κ²Œ μ²˜λ¦¬ν•˜λŠ”μ§€μ— λŒ€ν•΄ λ‚˜νƒ€λ‚΄μ£Όκ³  μžˆλ‹€. 이 κ³Όμ •μ—μ„œ μ‹€μ œ LLMμ—μ„œ ν•œ λ²ˆμ— μž…λ ₯ν•  수 μžˆλŠ” ν† ν°μ˜ 수λ₯Ό μ œν•œν•˜κΈ°μ— 이λ₯Ό μ—Όλ‘ν•˜λŠ” 과정이 ν¬ν•¨λ˜μ–΄ μžˆλ‹€.

  • Sin : μ΄λ¦„μ˜ 첫 λΆ€λΆ„
  • an : β€˜anβ€™μ΄λΌλŠ” λ‹¨μ–΄μ™€λŠ” λ³„κ°œμ˜ λΆ€λΆ„ 단어 ν† ν°μœΌλ‘œ μ•Œλ €μ§€μ§€ μ•Šμ€ 단어λ₯Ό λ‚˜λˆ„κΈ° μœ„ν•œ μˆ˜λ‹¨μœΌλ‘œ μ‚¬μš©

μ–Έμ–΄ λͺ¨λΈλ§μ„ λ„˜μ€ μ •λ ¬ + RLHF

μ΅œμ‹ μ˜ LLM은 λͺ¨λΈμ˜ μ„±λŠ₯을 더 μ’‹κ²Œ λ§Œλ“€κ³ , 보닀 μ€‘μš”ν•˜κ²ŒλŠ” AIκ°€ μ‚¬λžŒμ˜ κΈ°λŒ€μ— 따라 μž‘λ™λœλ‹€λŠ” 의미둜 μ •λ ¬λ˜κ²Œ λ§Œλ“ λ‹€. 즉, 잘 μ •λ ¬ 된 LLM은 μ‚¬λžŒμ˜ λͺ©ν‘œμ™€ μΌμΉ˜ν•˜λŠ” λͺ©ν‘œλ₯Ό μ§€λ‹Œλ‹€.

μ΄λŸ¬ν•œ μ–Έμ–΄ λͺ¨λΈμ—μ„œμ˜ 정렬은 λͺ¨λΈμ΄ μ‚¬μš©μžμ˜ κΈ°λŒ€μ— λΆ€ν•©ν•˜λ„λ‘ μž…λ ₯ ν”„λ‘¬ν”„νŠΈμ— μ–Όλ§ˆλ‚˜ 잘 λ‹΅λ³€ν•˜λŠ” μ§€λ₯Ό λ‚˜νƒ€λ‚Έλ‹€. ν‘œμ€€ μ–Έμ–΄ λͺ¨λΈμ€ μ•žμ„  λ§₯락을 기반으둜 λ‹€μŒ 단어λ₯Ό μ˜ˆμΈ‘ν•˜μ§€λ§Œ μ΄λŠ” νŠΉμ • 상황(μ§€μ‹œ, ν”„λ‘¬ν”„νŠΈ)μ—μ„œ λ³„λ‘œ μœ μš©ν•˜μ§€ μ•Šμ„ 수 μžˆλ‹€. 이λ₯Ό μœ„ν•΄ μ’€ 더 μ˜λ„μ— μ–Έμ–΄ λͺ¨λΈμ„ μ •λ ¬ν•˜λŠ” 쒋은 방법이 개발되고 μžˆλŠ”λ° μ΄λŸ¬ν•œ μ–Έμ–΄ λͺ¨λΈ 정렬을 μœ„ν•œ 포괄적인 방법 쀑 ν•˜λ‚˜λ‘œ κ°•ν™”ν•™μŠ΅(RL) 이 ν›ˆλ ¨ 과정에 ν¬ν•¨λ˜κ³  μžˆλ‹€.

κ·Έ μ€‘μ—μ„œλ„ 인간 ν”Όλ“œλ°± 기반 κ°•ν™”ν•™μŠ΅ (RLHF) 은 사전 ν›ˆλ ¨λœ LLM을 μ •λ ¬ν•˜λŠ” 데 인기 μžˆλŠ” λ°©λ²•μœΌλ‘œ λ– μ˜€λ₯Έλ‹€. μ΄λŠ” μ‚¬λžŒμ˜ ν”Όλ“œλ°±μ„ μ‚¬μš©ν•΄ μ„±λŠ₯을 ν–₯μƒν•˜λŠ” 것이닀. LLM에 κ·Έ 자체의 좜λ ₯을 μƒλŒ€μ μœΌλ‘œ μž‘κ³  κ³ ν’ˆμ§ˆμ˜ ν”Όλ“œλ°± 단계(μ‚¬λžŒ)μ—μ„œ ν•™μŠ΅ν•˜κ²Œ ν•˜μ—¬, 전톡적인 지도 ν•™μŠ΅μ˜ 일뢀 ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κ²Œ ν•œλ‹€. μ‹€μ œλ‘œ RLHFλŠ” ChatGPT와 같은 μ΅œμ‹  LLMμ—μ„œ μ€‘μš”ν•œ κ°œμ„ μ„ 보여쀀닀. 이 외에도 κ·œμ•½ AIλ₯Ό ν™œμš©ν•˜μ—¬ AI ν”Όλ“œλ°±μ„ ν¬ν•¨ν•˜λŠ” RLκ³Ό 같은 접근법 λ˜ν•œ λ“±μž₯ν•œλ‹€.

1.2 ν˜„μž¬ 많이 μ‚¬μš©λ˜λŠ” LLM

BERT, GPT, T5 등이 인기 μžˆλŠ” LLM으둜 자리 μž‘μ•˜λŠ”λ° 이듀은 νŠΈλžœμŠ€ν¬λ¨ΈλΌλŠ” κ³΅ν†΅μ˜ 쑰상을 κ³΅μœ ν•˜λ©° μ•„ν‚€ν…μ²˜ μΈ‘λ©΄μ—μ„œ μƒλ‹Ήν•œ 차이점을 μ§€λ‹Œλ‹€. μ΄λŸ¬ν•œ 트랜슀포머 κ³„μ—΄μ—μ„œμ˜ 널리 μ‚¬μš©λ˜λŠ” λ²ˆν˜•μœΌλ‘œλŠ” RoBERTa, BART, ELECTRAκ°€ μ‘΄μž¬ν•œλ‹€.

1.2.1 BERT

λ¬Έμž₯의 μ–‘λ°©ν–₯ ν‘œν˜„μ„ κ΅¬μ„±ν•˜κΈ° μœ„ν•΄ μ–΄ν…μ…˜ λ©”μ»€λ‹ˆμ¦˜μ„ μ‚¬μš©ν•˜λŠ” μžλ™ 인코딩 λͺ¨λΈμ΄λ‹€.

ν•΄λ‹Ήν•˜λŠ” λͺ¨λΈμ€ λ¬Έμž₯ λΆ„λ₯˜, 토큰 λΆ„λ₯˜ μž‘μ—…μ— λ›°μ–΄λ‚œ μ„±λŠ₯을 보여쀀닀.

BERTλŠ” 트랜슀포머의 μΈμ½”λ”λ§Œ μ‚¬μš©ν•˜κ³  디코더λ₯Ό λ¬΄μ‹œν•˜κΈ°μ— μ—„μ²­λ‚˜κ²Œ λ§Žμ€ μ–‘μ˜ ν…μŠ€νŠΈλ₯Ό 맀우 λΉ λ₯΄κ²Œ μ²˜λ¦¬ν•  수 μžˆλ‹€. 그렇기에 BERT 기반의 μ•„ν‚€ν…μ²˜λŠ” μš°λ¦¬κ°€ 자유둜운 ν…μŠ€νŠΈλ₯Ό μž‘μ„±ν•  ν•„μš”κ°€ μ—†λŠ” 경우, λŒ€λŸ‰μ˜ λ§λ­‰μΉ˜λ₯Ό λΉ λ₯΄κ²Œ μž‘μ—…, λΆ„μ„ν•˜λŠ” κ²½μš°μ— μ ν•©ν•˜λ‹€.

BERTμžμ²΄μ—μ„œ ν…μŠ€νŠΈ λΆ„λ₯˜, λ¬Έμ„œ μš”μ•½μ€ μ§„ν–‰ν•˜μ§€ μ•Šμ§€λ§Œ ν•˜μœ„ NLP μž‘μ—…μ„ μœ„ν•œ 사전 ν›ˆλ ¨λœ λͺ¨λΈλ‘œ 자주 μ‚¬μš©λœλ‹€.

1.2.2 GPT-4와 ChatGPT

μ–΄ν…μ…˜ λ©”μ»€λ‹ˆμ¦˜μ„ μ‚¬μš©ν•˜μ—¬ 이전 토큰을 기반으둜 μ‹œν€€μŠ€μ—μ„œ λ‹€μŒ 토큰을 μ˜ˆμΈ‘ν•˜λŠ” μžκΈ°νšŒκ·€ λͺ¨λΈμ΄λ‹€.

GPTλŠ” 주둜 μžμ—°μŠ€λŸ¬μš΄ ν…μŠ€νŠΈ 생성에 μ‚¬μš©λœλ‹€.

GPTλŠ” 트랜슀포머의 디코더 뢀뢄에 μ˜μ‘΄ν•˜κ³  인코더λ₯Ό λ¬΄μ‹œν•˜λ―€λ‘œ, ν•œ λ²ˆμ— ν•˜λ‚˜μ˜ 토큰을 μƒμ„±ν•˜λŠ” 데 λ›°μ–΄λ‚œ μ„±λŠ₯을 보인닀. 이런 λͺ¨λΈμ€ μƒλ‹Ήνžˆ 큰 λ¬Έλ§₯ μœˆλ„μš°λ₯Ό μ£Όμ—ˆμ„ λ•Œ ν…μŠ€νŠΈλ₯Ό μƒμ„±ν•˜λŠ” 데에 μ ν•©ν•˜λ‹€. 즉, 자유둭게 ν…μŠ€νŠΈλ₯Ό μž‘μ„±ν•  수 μžˆλŠ” λŠ₯λ ₯이 ν•„μš”ν•œ κ²½μš°μ— μ‚¬μš©λœλ‹€.

1.2.3 T5

ν…μŠ€νŠΈ λΆ„λ₯˜λΆ€ν„° μš”μ•½ 및 생성에 이λ₯΄κΈ°κΉŒμ§€ μ—¬λŸ¬ NLP μž‘μ—…μ„ μˆ˜ν–‰ν•˜κΈ° μœ„ν•΄ μ„€κ³„λœ 순수 인코더/디코더 트랜슀포머 λͺ¨λΈμ΄λ‹€.

T5λͺ¨λΈ λ“±μž₯ μ΄μ „μ—λŠ” BERT, GPT-2와 같은 LLM은 νŠΉμ • μž‘μ—… μˆ˜ν–‰ 전에 λ ˆμ΄λΈ”μ΄ λΆ€μ°©λœ 데이터λ₯Ό μ‚¬μš©ν•΄ νŒŒμΈνŠœλ‹μ„ μˆ˜ν–‰ν–ˆμ–΄μ•Ό ν•œλ‹€.

μ΄λŸ¬ν•œ T5 λͺ¨λΈμ€ 인코더λ₯Ό μ‚¬μš©ν•΄ μž…λ ₯ ν…μŠ€νŠΈμ˜ ν‘œν˜„μ„ ꡬ좕, 디코더λ₯Ό μ‚¬μš©ν•΄ ν…μŠ€νŠΈλ₯Ό μƒμ„±ν•˜κΈ°μ— λΆ„λ₯˜, μƒμ„±μ˜ λ‹€μ–‘ν•œ NLP μž‘μ—…μ„ μˆ˜ν–‰ν•  수 μžˆμ—ˆλ‹€. 즉, ν…μŠ€νŠΈλ₯Ό μ²˜λ¦¬ν•˜κ³  μ΄ν•΄ν•˜λŠ” λŠ₯λ ₯κ³Ό λ”λΆˆμ–΄ 자유둭게 ν…μŠ€νŠΈλ₯Ό μƒμ„±ν•˜λŠ” λŠ₯λ ₯ λͺ¨λ‘κ°€ ν•„μš”ν•  λ•Œ μ‚¬μš©ν•œλ‹€.

μ΄λŸ¬ν•œ T5λŠ” νŒŒμΈνŠœλ‹ 없이도 μ—¬λŸ¬ μž‘μ—…μ„ μˆ˜ν–‰ν•˜κΈ°μ— λ‹€μž¬λ‹€λŠ₯ν•œ LLM 개발의 μ΄‰μ§„μ œκ°€ λ˜μ—ˆλ‹€. μ‹€μ œλ‘œ GPT-3도 μ΄λŸ¬ν•œ λŠ₯λ ₯을 μžλž‘ν•˜μ˜€λ‹€.

1.3 도메인 νŠΉν™” LLM

νŠΉμ • λ„λ©”μΈμ—μ„œ ν›ˆλ ¨λœ LLM은 도메인 νŠΉν™” LLM이라 λΆˆλ¦°λ‹€. 주둜 생물학, 금육과 같은 νŠΉμ • 주제 μ˜μ—­μ—μ„œ ν›ˆλ ¨λ˜μ—ˆλ‹€. 일반적인 λͺ©μ μ˜ LLMκ³Ό λ‹€λ₯΄κ²Œ, ν›ˆλ ¨λ°›μ€ 도메인 λ‚΄μ—μ„œ μ‚¬μš©λ˜λŠ” νŠΉμ • μ–Έμ–΄, κ°œλ…μ„ μ΄ν•΄ν•˜κΈ° μœ„ν•΄ μ„€κ³„λœλ‹€.

BioGPT

> ν•΄λ‹Ή λͺ¨λΈμ€ 도메인 νŠΉν™” LLM의 ν•œ 예둜 AI 의료 νšŒμ‚¬μΈ Owkinκ³Ό Hugging Faceκ°€ ν˜‘λ ₯ν•˜μ—¬ 개발 λ˜μ—ˆλ‹€. 200만개 μ΄μƒμ˜ μƒλ¬Όμ˜ν•™ 연ꡬ λ…Όλ¬Έ λ°μ΄ν„°μ…‹μ—μ„œ ν›ˆλ ¨λ˜μ—ˆμœΌλ©° λͺ…λͺ…λœ μ—”ν‹°ν‹° 인식, 관계 μΆ”μΆœ, 질문-λ‹΅λ³€κ³Ό 같은 λ‹€μ–‘ν•œ μƒλ¬Όμ˜ν•™ NLP μž‘μ—…μ— νš¨κ³Όμ μ΄λ‹€.
> ν•΄λ‹Ή GPtλŠ” μƒλ¬Όμ˜ν•™ 지식과 도메인 νŠΉν™” μ–΄νœ˜λ₯Ό LLM에 μΈμ½”λ”©ν•œ 사전 ν›ˆλ ¨μ„ λ°›κ³  μž‘μ€ λ°μ΄ν„°μ…‹μ—μ„œ νŒŒμΈνŠœλ‹μ΄ 될 수 μžˆλ‹€. κ²°κ΅­ νŠΉμ • μƒλ¬Όμ˜ν•™ μž‘μ—…μ— μ μš©ν•  수 있고, λŒ€λŸ‰μ˜ λ ˆμ΄λΈ”λ§λœ λ°μ΄ν„°μ˜ ν•„μš”μ„±μ„ 쀄일 수 μžˆλ‹€.
> ![[Pasted image 20250510160551.png]]

μž₯점

도메인 νŠΉν™” LLM의 μž₯점은 νŠΉμ • ν…μŠ€νŠΈ μ§‘ν•©μ—μ„œμ˜ ν›ˆλ ¨μ— μ‘΄μž¬ν•œλ‹€. 기쑴의 LLMλ³΄λ‹€λŠ” μƒλŒ€μ μœΌλ‘œ μ’μœΌλ‚˜ νŠΉν™”λœ 사전 ν›ˆλ ¨μœΌλ‘œ 인해 ν•΄λ‹Ή λ„λ©”μΈμ—μ„œ μ‚¬μš©λ˜λŠ” 언어와 κ°œλ…μ„ 더 잘 이해할 수 μžˆκΈ°μ— ν•΄λ‹Ή λ„λ©”μΈμ—μ„œμ˜ NLP μž‘μ—…μ—μ„œ λŒ€ν•œ 정확도, μœ μ°½μ„±μ΄ ν–₯μƒλœλ‹€.

1.4 LLM을 μ΄μš©ν•œ μ• ν”Œλ¦¬μΌ€μ΄μ…˜

λ‹€μ–‘ν•œ μ‘μš© λΆ„μ•Όμ—μ„œ μ‚¬μš©λ˜μ§€λ§Œ 일반적으둜 μ„Έ κ°€μ§€ λ°©μ‹μœΌλ‘œ LLM을 μ‚¬μš©ν•œλ‹€.

  • 사전 ν›ˆλ ¨λœ LLM의 기본적인 ν…μŠ€νŠΈ 처리 및 생성 λŠ₯λ ₯을 큰 μ•„λ‹ˆν…μ²˜μ˜ μΌλΆ€λ‘œ 좔가적인 νŒŒμΈνŠœλ‹ 없이 μ‚¬μš©: 사전 ν›ˆλ ¨λœ BERT/GPTλ₯Ό μ‚¬μš©ν•΄ 정보 검색 μ‹œμŠ€ν…œ 생성
  • 전이 ν•™μŠ΅μ„ μ‚¬μš©ν•΄ 맀우 νŠΉμ •ν•œ μž‘μ—…μ„ μˆ˜ν–‰ν•˜κΈ° μœ„ν•œ 사전 ν›ˆλ ¨λœ LLM 파인 νŠœλ‹ : νŠΉμ • 도메인/μ‚°μ—…μ˜ λ¬Έμ„œ μš”μ•½μ„ μƒμ„±ν•˜κΈ° μœ„ν•΄ T5 νŒŒμΈνŠœλ‹
  • 사전 ν›ˆλ ¨λœ LLM에 사전 ν›ˆλ ¨μ„ 톡해 ν•΄κ²°ν•  수 μžˆλ„λ‘ ν•™μŠ΅λ˜μ—ˆκ±°λ‚˜ 합리적인 μ§κ΄€μœΌλ‘œ μˆ˜ν–‰ν•  수 μžˆλŠ” μž‘μ—… μš”μ²­ : GPT-4에 λΈ”λ‘œκ·Έ 포슀트 μž‘μ„± μš”μ²­, T5에 μ–Έμ–΄ λ²ˆμ—­ μˆ˜ν–‰ μš”μ²­

1.4.1 전톡적인 μžμ—°μ–΄ 처리 μž‘μ—…

λŒ€λΆ€λΆ„μ˜ LLM은 λΆ„λ₯˜, λ²ˆμ—­ 같은 일반적인 NLPμž‘μ—…μ—μ„œ 졜고의 κ²°κ³Όλ₯Ό μ œκ³΅ν•œλ‹€. 트랜슀포머의 κ±°λŒ€ν•œ λ§λ­‰μΉ˜λ₯Ό μ΄μš©ν•œ 효율적인 사전 ν›ˆλ ¨μœΌλ‘œ κ°œλ°œμžμ™€ μ‹€λ¬΄μžλ“€μ΄ 비ꡐ적 적은 λ ˆμ΄λΈ”λ§λœ 데이터λ₯Ό μ΄μš©ν•΄μ„œ μž‘μ—…μ„ 더 높은 μ •ν™•λ„λ‘œ μˆ˜ν–‰ν•œ 덕뢄이닀.

ν…μŠ€νŠΈ λΆ„λ₯˜

ν…μŠ€νŠΈ λΆ„λ₯˜ μž‘μ—…μ€ μ£Όμ–΄μ§„ ν…μŠ€νŠΈ 쑰각에 λ ˆμ΄λΈ”μ„ ν• λ‹Ήν•˜λŠ” κ²ƒμœΌλ‘œ 주둜 감성 뢄석에 ν”νžˆ μ‚¬μš©λœλ‹€. μ—¬κΈ°μ„œ λͺ©ν‘œλŠ” ν…μŠ€νŠΈλ₯Ό 긍정, λΆ€μ •, μ€‘λ¦½μœΌλ‘œ λΆ„λ₯˜ν•˜λŠ” 것이닀. λ˜ν•œ, 주제 λΆ„λ₯˜μ—μ„œλ„ 미리 μ •μ˜λœ μΉ΄ν…Œκ³ λ¦¬λ‘œ λΆ„λ₯˜ν•˜λŠ” 데에도 μ‚¬μš©ν•  수 μžˆλ‹€.

BERT와 같은 λͺ¨λΈμ€ μœ„ κ·Έλ¦Όμ—μ„œ λ³Ό 수 μžˆλ“―μ΄ μƒλŒ€μ μœΌλ‘œ 적은 λ ˆμ΄λΈ”λ§ λ°μ΄ν„°λ‘œ νŒŒμΈνŠœλ‹ν•˜μ—¬ λΆ„λ₯˜λ₯Ό μˆ˜ν–‰ν•  수 μžˆλ‹€.

λ²ˆμ—­ μž‘μ—…

기계 λ²ˆμ—­μœΌλ‘œ μ˜λ―Έμ™€ λ§₯락을 μœ μ§€ν•˜λ©΄μ„œ ν•œ μ–Έμ–΄μ˜ ν…μŠ€νŠΈλ₯Ό λ‹€λ₯Έ μ–Έμ–΄λ‘œ λ²ˆμ—­ν•˜λŠ” 것이닀. 전톡적인 λ²ˆμ—­ μž‘μ—…μ€ 두 μ–Έμ–΄μ˜ μΆ©λΆ„ν•œ μ˜ˆμ œμ™€ 도메인 μ§€μ‹μ˜ 문제둜 μƒλ‹Ήνžˆ κΈ°κ³„λ²ˆμ—­μ΄ μ–΄λ €μš΄ μž‘μ—…μ΄μ˜€μ§€λ§Œ 졜근의 LLMμ—μ„œλŠ” 사전 ν›ˆλ ¨κ³Ό 효율적인 μ–΄ν…μ…˜ κ³„μ‚°μœΌλ‘œ μž‘μ—…μ„ 더 μ‰½κ²Œ μˆ˜ν–‰ν•  수 μžˆμ—ˆλ‹€.