chatGPT 를 학습에 어떻게 쓰일 수 있는가?
language model 이란?
문장의 일부를 보고 비어있는 단어를 확률적으로 맞추는 모델
LLM: Large Language Model
GPT에서 Temperature 개념:
- 0과 100 사이의 값
- 100에 가까울수록 조금 더 랜덤해짐
Language Model 훈련
1. 모델 훈련
- 웹상에서 존재하는 문서들이 모델의 훈련 데이터가 됨
-- 품질이 중요하기에 위키피디아가 가장 많이 사용됨
-- 이를 코드에 적용 가능하며 이 경우 github이 훈련용 데이터가 됨
-- unsupervised learning
- context window의 크기가 결국 모델의 메모리를 결정
language model: word to vector
- 언어 모델에 사용되는 transformer 모델은 기본적으로 수학 모델
- 단어를 그대로 사용할 수 없고 이를 숫자로 변환한 후 (one-hot encoding) 다시 N차원 공간의 벡터로 변환
-- 이를 워드 임베딩(word embedding)이라고 부름
-- 데이터 크기를 줄이고 단어간의 유사도 측정 가능
--- king : queen = man : woman
GPT (Generativee Pre-trained Transformer)
- openAI에서 만든 초거대 언어 모델
-- 훈련과 예측에 전용 하드웨어를 사용
-- LLM: Large Language Model
- 두 가지 모델을 제공
-- word completion
--- 한국어를 포함한 다양한 언어 지원
-- code completion
- 참고로 네이버의 초거대 언어 모델은 word completion만 지원
Fine Tuning
- 이미 만들어진 모델 위에 새로운 레이어를 얹히고 다른 용도의 데이터로 훈련하는 것
- GPT는 이를 API로 지원함
-- 기본 언어 모델 위에 나만의 모델 생성 (버티컬 전용 모델)
ChatGPT 소개
- 2022년 11월 30일 발표
- GPT를 챗봇의 형태로 Fine-Tuning
-- RLHF: Reinforcement Learning from Human Feedback
-- GPT의 지식을 챗봇의 형태로 활용 가능 (prompts 엔지니어링 탄생)
- 용도
-- 질문에 대한 답변
-- 정보 추출
-- 번역
-- 대화 생성
-- 글쓰기 지원
-- 코드 생성 및 리뷰
모든 일/업무에 사용해보기
- 검색하거나 주변에 물어보던 모든 일에 ChatGPT 사용해보기
ChatGPT처럼 엄청 뜨는 기술을 바라보는 관점
- 해당 분야의 발전이 너무 빨라서 이걸 쫓아다니는 것은 시간낭비
- 확실한 방향이 보일 때 까지는 아래처럼 행동하기
-- 너무 조바심내지 않기
--