Published 2023. 9. 17. 19:03

LLM(Large Language Model) 이해하기

728x90

출처 - https://www.thedatahunt.com/trend-insight/what-is-llm

먼저 LM(Language Model, 언어 모델) 에 대해서 이해하고 넘어가려고 한다.
언어 모델이란 인간의 언어를 이해하고 생성하도록 훈련된 일종의 인공지능 모델이라고 한다.
주어진 단어 내에서 패턴이나 구조, 관계를 학습하여 텍스트 번역과 같은 좁은 AI 작업에서 주로 활용되었다고 한다.

1. LLM(Large Language Model) 이란

그럼 LLM(Large Language Model) 이란 무엇일까? 해석 그대로 대량의 언어 모델이라고 볼 수 있다.
LLM 은 딥러닝 알고리즘과 통계 모델링을 통해 자연어 처리 작업(Natural Language Processing, NLP)을 수행하는 데 사용한다고 한다. 이 모델은 사전에 대규모의 언어 데이터를 학습하여 문장 구조나 문법, 의미 등을 이해하고 생성할 수 있다.

LLM 은 우리가 흔히 알고 있는 GPT(Generative Pre-trained Transformer) 와 BERT(Bidirectional Encoder Representations from Transformers) 와 같은 다양한 모델들이 있다.
정말 요즘에 GPT 가 일상에 많이 스며들었고 다양한 분야에서 사용되는 것으로 알고 있다.
이러한 모델들은 수천억 개의 매개변수를 가지고 있다고 한다. 최근에는 대용량 훈련 데이터와 큰 모델 아키텍처를 사용하여 더 정교한 언어 이해와 생성을 달성하는 데 주목을 받고 있다고 한다.

2. NLP vs LLM

그럼 NLP 와 LLM 의 차이에 대해서도 이해를 해보려고 한다. 서로 관련있는 개념이지만 서로 다른 개념이다.

NLP 는 인간의 언어를 이해하고 처리하는데 초점을 맞춘 인공지능 분야이다. 컴퓨터가 자연어 텍스트를 이해하고 분석하는 기술을 개발하는 것을 목표로 하고 있다. NLP 는 문장 구분 분석, 텍스트 분류, 기계 번역, 질의 응답 시스템, 감정 분석 등과 같은 다양한 작업에 활용된다.

LLM 은 큰 데이터셋을 사용하여 훈련된 대용량의 언어 모델을 가리킨다. 딥 러닝 기술과 통계 모델링을 사용하여 자연어 처리 작업을 수행할 수 있다.

따라서, NLP 는 자연어 처리 분야 전반을 아우르는 개념이고 텍스트를 이해하고 처리하는 기술에 초점을 두고 있고
LLM 은 NLP 의 한 부분으로 대량의 언어 데이터를 바탕으로 학습된 언어 모델을 사용하여 특정 NLP 작업을 수행하는 데 초점을 둔다고 한다. NLP 가 LLM 보다 더 넓은 의미의 개념이라고 볼 수 있고 LLM 은 그 안에서 특정한 접근 방식과 모델을 가리키는 한가지 형태라고 할 수 있다.

현재 다양한 분야에서 LLM 이 사용되고 있는 것으로 알고 있다. 가장 대표적으로 ChatGPT 가 아닐까 생각한다.

3. LLM 주요 모델

그럼 최근에 가장 주목을 받고 있는 LLM 모델은 어떤 것들이 있을까?
최근에 가장 주목을 받고 있는 LLM 모델은 다음과 같다고 한다.

3.1. GPT-3.5 (OpenAI)

GPT-3 보다 약간의 성능과 안정성을 개선하였고 광범위한 학습 데이터를 활용해 언어 이해 및 생성 능력을 향상시켜 SOTA 를 달성했다고 한다.

3.2. GPT-4 (OpenAI)

GPT-3 의 후속 모델로 이전 버전보다 더 큰 모델의 크기와 더 정교한 언어 이해와 생성 능력을 갖추고 있다고 한다.

3.3. PaLM 2 (Google)

Pre-trained Automatic Metrics 를 사용한 언어 모델로 사전 훈련된 언어 모델을 사용하여 기계 번역, 요약, 질문 응답 등의 다양한 NLP 작업에서 성능 평가를 위해 사용된다고 한다.

3.4. Llama 2 (Meta AI)

Language Model Benchmark (LlaMA) 에서 개발한 작업 중심 언어 모델로 SOTA 를 달성했다고 한다.
다양한 자연어 처리 작업을 초함한 언어 모델의 성능을 평가하고 비교하기 위해 사용된다고 한다.

추가적으로 hugging face 라는 플랫폼에서 LLM Leaderboard 를 제공해주고 있어 참고하면 좋을 것 같다.
각 목적에 맞게 필요한 모델을 찾는데 도움이 될 것 같다.

https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

뿐만 아니라 LLM 에 대해서 찾아보다보면 정말 다양한 플랫폼과 모델과 모듈들을 찾아볼 수 있었다.

transformer 기반의 다양한 모델들과 학습 스크립트를 구현해놓은 일종의 모듈인 Hugging Face 도 있었고
LLM 에서 구동되는 APP 을 개발하기 위한 프레임 워크인 langchain 이라는 것도 있었다.

이런 모듈이나 프레임워크 등에 대해서도 더 찾아보면 좋을 것 같다.

추가적으로 인기 있는 LLM Open source 에 대한 글도 찾을 수 있었다.

https://www.unite.ai/best-open-source-llms/

5 Best Open Source LLMs

In the rapidly evolving world of artificial intelligence (AI), Large Language Models (LLMs) have emerged as a cornerstone, driving innovations and reshaping the way we interact with technology. As these models become increasingly sophisticated, there's a g

www.unite.ai

4. 파인 튜닝 (Fine-tuning) 과 프롬프트 튜닝 (Prompt tuning)

LLM 에 대해서 알아보면서 Fine-tuning 이나 Prompt tuning 에 대해서도 많이 볼 수 있었는데 무엇인지 알아보았다.

4.1. 파인 튜닝 (Find-tuning)

사전 학습된 언어 모델 전체를 대상으로 추가 작업 데이터를 이용하여 모델을 재학습시키는 방법이다.
사전 학습한 모델을 초기 가중치로 사용하고 특정 작업에 대한 추가 학습 데이터로 모델을 재학습한다.

모델 파라미터의 일부 또는 전체를 재학습하기 때문에 작업 특정성이 높은 모델을 얻을 수 있다.
대량의 추가 작업 데이터가 필요할 수 있다.
일반적으로 새로운 작업에 대해 파인 튜닝하는 데 시간이 오래걸릴 수 있다.
특정 작업에 특화된 예측 수행 가능성이 높아진다.

4.2. 프롬트프 튜닝 (Prompt-tuning)

입력 텍스트에 특정 구조화된 프롬프트를 추가하거나 수정하여 모델의 동작을 조정하는 방법이다.
특정 작업에 맞게 최적의 프롬프트 구성을 실험하고 모델 출력을 조작하여 원하는 결과를 얻도록 모델을 조정한다.

사전 학습된 모델의 파라미터를 고정하고, 프롬프트 구성을 조정하여 특정 작업에 적합한 결과를 얻는다.
기존 데이터에 추가 작업하지 않아도 되므로 데이터 확보에 대한 부담을 줄일 수 있다.
작업 특정성이 낮고, 다양한 작업에 대해 유연한 조정이 가능하다.
초기 설정과 프롬프트 구성에 대한 실험이 필요하며, 설정에 따른 성능 차이가 있을 수 있다.

간단하게 정리해보자면
파인튜닝은 미리 학습된 모델에 새로운 특정 작업에 맞게 추가적으로 재학습시키는 작업이라고 볼 수 있고
프롬프트 튜닝은 입출력을 조정하여 원하는 결과를 얻을 수 있고 보다 유연하게 조정하는 작업이라고 볼 수 있다.

파인튜닝과 프롬프트 튜닝은 각각의 목적에 맞게 적절한 상황에서 사용될 수 있다.
파인 튜닝은 이미 학습된 모델을 새로운 작업에 적용하기 위한 가장 기본적인 방법이라고 한다.
프롬프트 튜닝은 모델을 통해 생성되는 결과를 보다 세세하게 제어하고자 할 때 유용하게 사용할 수 있다.

5. LLM 에서 알아두면 좋은 용어들

5.1. 단어 임베딩

단어들을 고차원 벡터로 표현하여 각 단어의 유사성과 관계를 캡처하는 기술이다.

5.2. Transformer

주의 메커니즘을 기반으로 한 인코더와 디코더 구조의 신경망 모델

5.3. Prompt Engineering

모델에 입력하는 질문이나 명령을 구조화하여 모델의 성능을 향상시키는 과정

5.4. Bias

모델이 학습 데이터의 불균형이나 잘못된 패턴을 포착하여 실제 세계의 현실과 일치하지 않는 결과를 내놓는 경향

정리

솔직히 여러 블로그를 찾아보고 했지만 수많은 레퍼런스들이 존재했다. 전부 다 이해하기에는 더 시간이 필요하다고 생각했고
지금 당장에는 LLM 이 무엇인지 맛보기로 알아보고 싶었기 때문에 여기까지 알아보고 보다 직접적으로 사용해야할 때 더 깊게 파고들어보려고 한다.

LLM 이 무엇인지에 대해서 정말 간단하게 알아보았는데 앞으로 추가적으로 살을 덧붙여 나가야할 것 같다.

- 참고 사이트

https://www.thedatahunt.com/trend-insight/what-is-llm

LLM이란 무엇인가? - 정의, 원리, 주요 모델, 적용 사례

LLM (거대 언어 모델, Large Language Model) 은 딥 러닝 알고리즘과 통계 모델링을 통해 NLP 작업을 수행하는 데에 사용합니다. 최근 생성 AI의 가능성이 주목 받으면서, LLM의 시장성과 가치가 더욱 주목

www.thedatahunt.com

https://anxious-outter.tistory.com/3

파인튜닝 vs 프롬프트

파인튜닝과 프롬프트 딥러닝 모델은 기본적으로 학습 데이터를 통해 학습하고, 이를 기반으로 새로운 입력 데이터에 대한 예측을 수행합니다. 그러나 때로는 미리 학습된 모델을 새로운 작업에

anxious-outter.tistory.com