AI 8

ROUGE 스코어: 요약/생성 모델 평가 지표

텍스트 요약이나 생성 모델을 평가할 때 가장 자주 등장하는 지표가 ROUGE(Recall-Oriented Understudy for Gisting Evaluation)입니다. 이름 그대로 “정답(레퍼런스)과 비교했을 때 얼마나 잘 겹치는가”를 n-그램(연속된 단어/토큰 묶음) 기반으로 측정합니다. 직관적이고 구현이 쉬워 널리 쓰이지만, 해석을 잘못하면 성능을 과대/과소평가하기도 합니다. ROUGE는 무엇을 측정하나?ROUGE는 기본적으로 모델 출력(candidate) 과 사람이 만든 정답 요약(reference) 사이의 겹침(overlap) 을 측정합니다.겹침이 많다 → 정답과 비슷한 표현을 많이 썼다겹침이 적다 → 정답과 표현이 다르거나, 핵심을 놓쳤을 수 있다즉 ROUGE는 “의미가 맞는가”보다는 “..

AI 2025.12.09

베이지안 정리(Bayes' theorem)

베이지안 정리(Bayes' theorem)는 사전 확률(prior)을 관찰된 데이터 정보를 반영해 사후 확률(posterior)로 갱신하는 규칙입니다. $$ P(A\mid B)=\frac{P(B\mid A)P(A)}{P(B)} $$ $ P(A \mid B) $: 사건 B가 일어났다는 정보를 알고 있을 때, A가 일어났을 확률(사후 확률)$ P(B \mid A) $: A가 참일 때 B가 관측될 가능도(우도, likelihood)$ P(A) $: 관측하기 전에 A가 일어날 것으로 믿는 A에 대한 사전 확률(prior)$ P(B) $: B가 관측될 전체 확률로, 사후 확률이 전체적으로 1이 되도록 만드는 역할을 함(evidence, 정규화 상수)예제어떤 질병의 발병률(사전 확률)은 1% (=0.01)이며, 검..

AI 2025.12.07

주성분 분석(PCA, Principal Component Analysis)

데이터 분석과 머신러닝을 하다 보면 공통적으로 마주치는 문제가 있습니다.바로 차원의 저주(Curse of Dimensionality)입니다.특징(Feature)의 수가 많아질수록 모델의 계산 복잡도는 증가하고, 시각화와 해석 또한 어려워집니다. 이 문제를 해결하는 대표적인 방법이 바로 주성분 분석(PCA, Principal Component Analysis)입니다.PCA는 원본 데이터의 정보를 최대한 유지하면서 차원을 축소해 주는 강력한 기법으로, 데이터 전처리와 탐색적 분석 과정에서 매우 자주 활용됩니다. PCA란?PCA는 고차원 데이터를 보다 적은 차원으로 투영(projection)하여 데이터의 분산을 가장 크게 보존하는 새로운 축(주성분, Principal Components)을 찾는 방법입니다.쉽..

AI 2025.12.02

독립 변수(Independent Variable)와 종속 변수(Dependent Variable)

독립 변수(Independent Variable)독립 변수란 어떤 결과를 설명하기 위해 사용되는 원인 혹은 입력 값 입니다.즉, 결과에 영향을 줄 것이라고 가정하는 변수 입니다.독립 변수는 다른 변수와 독립적이라는 특징이 있습니다. 종속 변수(Dependent Variable)종속 변수란 독립 변수의 변화에 따라 값이 달라지는 결과 변수 입니다.즉, 설명하거나 예측하고 싶은 핵심 결과 입니다.종속 변수는 독립 변수에 종속적이라는 특징이 있습니다. 독립 변수와 종속 변수의 관계두 변수의 관계를 정리하면 다음과 같습니다.독립 변수(=원인) → 종속 변수(=결과) 머신러닝에서의 역할머신러닝에서 독립 변수와 종속 변수는 다음과 같이 해석됩니다.독립 변수 = Input(특징, Feature)종속 변수 = Outp..

AI 2025.12.01

직교 행렬(Orthogonal matrix)

직교행렬(orthogonal matrix)은 열 벡터와 행 벡터가 서로 직교하고 길이가 1인 정규직교 집합으로 이루어진 정사각행렬을 말합니다.여기서 직교(orthogonality)란 두 벡터의 내적이 0인 것을 의미합니다.즉, 벡터 $u$, $v$에 대하여 $u^\top v = 0$ 이면 두 벡터는 서로 직교합니다.직교행렬은 회전하거나 반사(reflection)하는 변환을 나타내며, 벡터의 길이와 각도를 보존하는 특별한 성질을 가집니다.즉, 직교행렬을 곱해도 벡터의 형태가 왜곡되지 않습니다.위키백과에서는 직교행렬 Q에 대해 다음과 같은 여러 동치 조건을 제시합니다. 아래에서 하나씩 살펴보겠습니다.1. $QQ^{\top} = Q^{\top}Q = I_{nxn}$. 즉, Q의 전치행렬은 Q의 역행렬이다우선 ..

AI 2025.11.23

Attention 안정화 방법 (soft-capping vs. QK-norm)

Transformer 모델의 핵심인 Attention 메커니즘은 모델의 성능에 막대한 영향을 끼칩니다. 하지만 Attention 점수가 지나치게 커지거나 작아지면, gradient 흐름이 불안정해져 모델 학습이 어려워질 수 있습니다. 이런 문제를 해결하기 위한 대표적인 기법으로 최근 QK-Norm(Query-Key Normalization)이 사용되고 있습니다. Gemma 3는 Gemma 2의 soft-capping을 QK-norm으로 대채했다고 하며, Qwen 3에서도 QK-norm을 도입했다고 합니다. Gemma 2에서 사용했던 soft-capping은 무엇이고, Gemma 3와 Qwen 3에서 사용된 QK-norm은 무엇인지 간단하게 정리해보겠습니다.soft-cappingsoft-capping이란 ..

AI 2025.09.16

MHA vs. MQA vs. GQA 비교 정리

Grouped-Query Attention은 2023년 Google Research에서 발표한 기술로, Meta의 LLaMA2, Google의 Gemma에서 사용되었으며, 추론 속도를 빠르게 해주는 기술입니다.GQA와 함께 Multi-Head Attention(MHA), Multi-Query Attention(MQA)에 대해서도 간략하게 정리하려고 합니다.Multi-Head Attention(MHA)Multi-Head Attention(MHA)은 2017년 Attention Is All You Need에서 제안되었습니다.각 attention head는 독립적인 Query, Key, Value를 가지며, 다양한 시각에서 입력 토큰 간 관계를 파악합니다.장점: 풍부한 표현력, 다양한 attention 시각 ..

AI 2025.09.14

RMSNorm 수식 및 예시 + (LayerNorm과 비교, pre-norm vs post-norm)

Gemma 3 Technical Report를 읽어보면, RMSNorm을 사용한다고 나와있습니다.RMSNorm은 정규화(Normalization)의 한 방식으로, 평균 대신 RMS(Root Mean Square) 값만을 사용해 입력 벡터를 정규화하는 기법입니다.딥러닝에서는 정규화라는 걸 자주 사용하는데, 모델이 안정적으로 학습되도록 입력값의 크기를 조정하는 역할을 하며, 그래디언트 소실이나 폭주를 방지하는 데도 도움을 줍니다.RMS(Root Mean Square)란?RMS란 제곱평균제곱근이라고 부르며, 어떤 숫자들의 크기를 대표하는 하나의 값으로 나타내고 싶을 때 사용됩니다.특히, 값들이 양수/음수가 섞여 있어도 전체적인 크기를 보고 싶을 때 유용합니다.계산 방법은 다음과 같습니다.숫자들을 제곱함그걸 평..

AI 2025.09.12