ai 14

Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity 논문 리뷰

본 논문은 2025년 Stanford 대학교에서 발표한 "Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity" 논문 입니다. 한국어로 번역하면 "언어적 샘플링: 모드 붕괴를 완화하고 LLM 다양성을 확보하는 방법" 입니다. 제목에서 알 수 있듯이 LLM 답변의 다양성이 감소되는 문제에 대한 원인과 학습 없이 이를 해결하는 방법에 대한 내용에 담고 있습니다. Paper: https://arxiv.org/abs/2510.01171 Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM DiversityPost-training alignment often reduc..

Papers 2026.01.09

LangChain Expression Language(LCEL) 사용 방법 및 예시

LangChain Expression Language(LCEL)은 LangChain에서 여러 컴포넌트(prompt, LLM, 파서, 후처리 함수 등)를 “파이프(pipe)” 형태로 간결하게 연결해 주는 표현 방식입니다. 2023년 하반기부터 LangChain에서 체인(chain) 구성 방식에서 LCEL을 활용하는 경향이 커지고 있습니다. 이번 포스팅에서는 LCEL의 주요 개념과 예제에 대해서 정리해보도록 하겠습니다.주요 개념Runnable: 입력(input)을 받아 출력(output)을 내는 구성 요소RunnableSequence: 여러 Runnable을 직렬(sequence) 로 연결한 것RunnableLambda: 단순한 Python 함수를 Runnable로 감싸서 파이프에서 쓸 수 있게 함Runna..

Development 2025.12.07

베이지안 정리(Bayes' theorem)

베이지안 정리(Bayes' theorem)는 사전 확률(prior)을 관찰된 데이터 정보를 반영해 사후 확률(posterior)로 갱신하는 규칙입니다. $$ P(A\mid B)=\frac{P(B\mid A)P(A)}{P(B)} $$ $ P(A \mid B) $: 사건 B가 일어났다는 정보를 알고 있을 때, A가 일어났을 확률(사후 확률)$ P(B \mid A) $: A가 참일 때 B가 관측될 가능도(우도, likelihood)$ P(A) $: 관측하기 전에 A가 일어날 것으로 믿는 A에 대한 사전 확률(prior)$ P(B) $: B가 관측될 전체 확률로, 사후 확률이 전체적으로 1이 되도록 만드는 역할을 함(evidence, 정규화 상수)예제어떤 질병의 발병률(사전 확률)은 1% (=0.01)이며, 검..

AI 2025.12.07

독립 변수(Independent Variable)와 종속 변수(Dependent Variable)

독립 변수(Independent Variable)독립 변수란 어떤 결과를 설명하기 위해 사용되는 원인 혹은 입력 값 입니다.즉, 결과에 영향을 줄 것이라고 가정하는 변수 입니다.독립 변수는 다른 변수와 독립적이라는 특징이 있습니다. 종속 변수(Dependent Variable)종속 변수란 독립 변수의 변화에 따라 값이 달라지는 결과 변수 입니다.즉, 설명하거나 예측하고 싶은 핵심 결과 입니다.종속 변수는 독립 변수에 종속적이라는 특징이 있습니다. 독립 변수와 종속 변수의 관계두 변수의 관계를 정리하면 다음과 같습니다.독립 변수(=원인) → 종속 변수(=결과) 머신러닝에서의 역할머신러닝에서 독립 변수와 종속 변수는 다음과 같이 해석됩니다.독립 변수 = Input(특징, Feature)종속 변수 = Outp..

AI 2025.12.01

직교 행렬(Orthogonal matrix)

직교행렬(orthogonal matrix)은 열 벡터와 행 벡터가 서로 직교하고 길이가 1인 정규직교 집합으로 이루어진 정사각행렬을 말합니다.여기서 직교(orthogonality)란 두 벡터의 내적이 0인 것을 의미합니다.즉, 벡터 $u$, $v$에 대하여 $u^\top v = 0$ 이면 두 벡터는 서로 직교합니다.직교행렬은 회전하거나 반사(reflection)하는 변환을 나타내며, 벡터의 길이와 각도를 보존하는 특별한 성질을 가집니다.즉, 직교행렬을 곱해도 벡터의 형태가 왜곡되지 않습니다.위키백과에서는 직교행렬 Q에 대해 다음과 같은 여러 동치 조건을 제시합니다. 아래에서 하나씩 살펴보겠습니다.1. $QQ^{\top} = Q^{\top}Q = I_{nxn}$. 즉, Q의 전치행렬은 Q의 역행렬이다우선 ..

AI 2025.11.23

LangChain의 주요 컴포넌트 사용 방법 및 예시 - Output Parser

지난 게시글에 이어서 Output Parser에 대해서 정리해보겠습니다. Output Parser는 LLM을 특정 형식으로 출력하도록 할 때, 그 출력을 프로그램적으로 다루고 싶을 때 사용합니다.Output Parser는 JSON 등의 출력 형식을 지정하는 프롬프트 작성과 응답 텍스트의 Python 객체로의 변환 기능을 제공합니다. LangChain에서 제공하는 OutputParser의 종류는 다음과 같습니다.StrOutputParser: 메시지/LLMResult → “가장 그럴듯한 문자열”CommaSeparatedListOutputParser: “a, b, c” → ["a","b","c"]MarkdownListOutputParser: "- 항목1\n- 항목2\n- 항목3" 같은 마크다운 불릿 리스트 텍..

Development 2025.09.24

LangChain의 주요 컴포넌트 사용 방법 및 예시 - Prompt Template

지난 게시글에서는 LangChain의 주요 컴포넌트 중에 하나인 Chat model 컴포넌트 사용 방법에 대해서 정리했습니다. 2025.09.08 - [AI] - LangChain의 주요 컴포넌트 사용 방법 및 예시 - LLM/Chat model 이번 글에서는 Prompt Template 사용 방법과 예시에 대해서 정리하도록 하겠습니다. PromptTemplatePromptTemplate은 단순 문자열 템플릿에 변수를 주입해 프롬프트를 재사용할 수 있게 합니다.input_variables에 입력받을 변수를 넣어주고, format 함수에서 각각 변수에 입력할 값을 넣어주면 됩니다.from langchain.prompts import PromptTemplatetemplate = "너는 {subject} 전..

Development 2025.09.22

LangChain의 주요 컴포넌트 사용 방법 및 예시 - LLM/Chat model

지난 게시글에서는 Langchaindml 패키지 그룹과 주요 컴포넌트에 대해서 정리했습니다. 2025.09.08 - [AI] - LangChain의 패키지 그룹과 주요 컴포넌트 정리 LangChain에서 특히 중요한 컴포넌트는 LLM/Chat model, Prompt template, Output parser, Chain, RAG 관련 컴포넌트라고 하였습니다. 이번 글에서는 그중에서도 LLM/Chat model 컴포넌트 사용 방법과 예시에 대해서 정리하도록 하겠습니다. LLM/Chat modelLLM과 Chat model 모두 언어 모델을 LangChain 방식으로 사용할 수 있는 래퍼입니다.LLM은 하나의 텍스트 입력에 대해 하나의 텍스트 출력을 반환하는 형식이고,Chat model은 채팅 형식의 언..

Development 2025.09.20

LangChain의 패키지 그룹과 주요 컴포넌트 정리

LangChain은 LLM(Large Language Model)을 사용하여 애플리케이션을 개발하기 위한 오픈소스 프레임워크입니다.2023년도에 사용해 봤을 때는 크게 필요성을 못 느꼈었는데, 2024년 1월에 v0.1.0으로 업데이트되면서 많이 바뀐 것으로 보입니다. v0.1.0에서는 기존 langchain 패키지에 대한 의존 관계가 너무 많아지는 문제 등을 해결하기 위해 langchain-core, langchain-community 등을 분리하여 아키텍처를 모듈화 하고,LangGraph라는 새로운 라이브러리를 소개하며, 에이전트에 그래프 기반 워크플로우를 도입하게 되었다고 합니다. 따라서, 최근 다시 LangChain을 공부하면서 배운 것을 정리해보고자 합니다. 제가 읽고 있는 책은 "랭체인과 ..

Development 2025.09.18

Attention 안정화 방법 (soft-capping vs. QK-norm)

Transformer 모델의 핵심인 Attention 메커니즘은 모델의 성능에 막대한 영향을 끼칩니다. 하지만 Attention 점수가 지나치게 커지거나 작아지면, gradient 흐름이 불안정해져 모델 학습이 어려워질 수 있습니다. 이런 문제를 해결하기 위한 대표적인 기법으로 최근 QK-Norm(Query-Key Normalization)이 사용되고 있습니다. Gemma 3는 Gemma 2의 soft-capping을 QK-norm으로 대채했다고 하며, Qwen 3에서도 QK-norm을 도입했다고 합니다. Gemma 2에서 사용했던 soft-capping은 무엇이고, Gemma 3와 Qwen 3에서 사용된 QK-norm은 무엇인지 간단하게 정리해보겠습니다.soft-cappingsoft-capping이란 ..

AI 2025.09.16