transformer 3

LangChain의 주요 컴포넌트 사용 방법 및 예시 - LLM/Chat model

지난 게시글에서는 Langchaindml 패키지 그룹과 주요 컴포넌트에 대해서 정리했습니다. 2025.09.08 - [AI] - LangChain의 패키지 그룹과 주요 컴포넌트 정리 LangChain에서 특히 중요한 컴포넌트는 LLM/Chat model, Prompt template, Output parser, Chain, RAG 관련 컴포넌트라고 하였습니다. 이번 글에서는 그중에서도 LLM/Chat model 컴포넌트 사용 방법과 예시에 대해서 정리하도록 하겠습니다. LLM/Chat modelLLM과 Chat model 모두 언어 모델을 LangChain 방식으로 사용할 수 있는 래퍼입니다.LLM은 하나의 텍스트 입력에 대해 하나의 텍스트 출력을 반환하는 형식이고,Chat model은 채팅 형식의 언..

Development 2025.09.20

Attention 안정화 방법 (soft-capping vs. QK-norm)

Transformer 모델의 핵심인 Attention 메커니즘은 모델의 성능에 막대한 영향을 끼칩니다. 하지만 Attention 점수가 지나치게 커지거나 작아지면, gradient 흐름이 불안정해져 모델 학습이 어려워질 수 있습니다. 이런 문제를 해결하기 위한 대표적인 기법으로 최근 QK-Norm(Query-Key Normalization)이 사용되고 있습니다. Gemma 3는 Gemma 2의 soft-capping을 QK-norm으로 대채했다고 하며, Qwen 3에서도 QK-norm을 도입했다고 합니다. Gemma 2에서 사용했던 soft-capping은 무엇이고, Gemma 3와 Qwen 3에서 사용된 QK-norm은 무엇인지 간단하게 정리해보겠습니다.soft-cappingsoft-capping이란 ..

AI 2025.09.16

MHA vs. MQA vs. GQA 비교 정리

Grouped-Query Attention은 2023년 Google Research에서 발표한 기술로, Meta의 LLaMA2, Google의 Gemma에서 사용되었으며, 추론 속도를 빠르게 해주는 기술입니다.GQA와 함께 Multi-Head Attention(MHA), Multi-Query Attention(MQA)에 대해서도 간략하게 정리하려고 합니다.Multi-Head Attention(MHA)Multi-Head Attention(MHA)은 2017년 Attention Is All You Need에서 제안되었습니다.각 attention head는 독립적인 Query, Key, Value를 가지며, 다양한 시각에서 입력 토큰 간 관계를 파악합니다.장점: 풍부한 표현력, 다양한 attention 시각 ..

AI 2025.09.14