Product Design, Manufacturing & Innovation Resources

집 » 결정계수(R²)

결정계수(R²)

1900

Karl Pearson

(설명을 위한 생성된 이미지입니다)

R²은 모델의 적합도를 나타내는 통계량으로, 종속 변수의 분산 중 독립 변수로부터 예측 가능한 부분의 비율을 나타냅니다. R² 값이 1이면 완벽한 적합을 의미하고, 0이면 선형 관계가 없음을 의미합니다. R²은 [latex]R^2 equiv 1 – frac{SS_{res}}{SS_{tot}}[/latex]로 계산되며, 여기서 [latex]SS_{res}[/latex]는 잔차 제곱합입니다.

결정계수(R-제곱)는 회귀 모델을 평가하는 핵심 지표입니다. 이는 모델이 결과 변수의 변동성을 얼마나 잘 설명하는지를 직관적으로 보여줍니다. 결정계수는 두 가지 주요 구성 요소로 이루어져 있습니다. 첫 번째는 총 제곱합([latex]SS_{tot} = sum_i (y_i – bar{y})^2[/latex])으로, 종속 변수 [latex]y[/latex]의 총 분산을 측정합니다. 두 번째는 잔차 제곱합([latex]SS_{res} = sum_i (y_i – hat{y}_i)^2[/latex])으로, 모델이 설명하지 못하는 분산을 측정합니다. 여기서 [latex]hat{y}_i[/latex]는 예측값입니다.

공식 [latex]R^2 = 1 – SS_{res}/SS_{tot}[/latex]는 회귀 모델이 전체 분산 중 '설명하는' 비율을 나타냅니다. 예를 들어, R² 값이 0.75라는 것은 결과 변수의 변동성 중 75%가 모델의 예측 변수에 의해 설명된다는 의미입니다. 단순 선형 회귀에서 R²는 관측값과 예측값 사이의 피어슨 상관계수(r)의 제곱입니다.

하지만 R²에는 중요한 한계가 있습니다. 새로운 예측 변수가 모델에 추가되더라도, 설령 그 변수가 모델과 무관하더라도 R² 값은 절대 감소하지 않습니다. 이는 오해를 불러일으키고 과적합을 유발할 수 있습니다. 이러한 한계를 극복하기 위해 조정된 R² 값이 자주 사용됩니다. 조정된 R² 값은 모델에 포함된 예측 변수의 개수를 고려하여 R² 값을 수정함으로써 다중 회귀 분석의 적합도를 보다 정확하게 측정합니다.

모델 기반 시스템 엔지니어링(MBSE), 품질 보증, 품질 관리, 통계 분석, 통계적 공정 관리(SPC), 통계적 검정

UNESCO Nomenclature: 1209

통계

유형

추상 시스템

분열

상당한

용법

널리 사용됨

전구체

분산과 표준편차의 개념
최소제곱법
피어슨 상관계수
Analysis of variance (ANOVA) principles

응용 프로그램

과학 및 공학 분야에서 예측 모델의 성능 평가
계량경제학과 사회과학에서의 모델 선택
예측 변수 집합이 설명하는 분산의 비율을 정량화합니다.
위험 평가를 위한 재무 모델 검증

특허:

잠재적 혁신 아이디어

현재 하루 4만 건이 넘는 봇 트래픽을 차단하기 위해 이 콘텐츠는 커뮤니티 회원만 이용할 수 있습니다.
> 로그인 < 또는 >등록 < 이 콘텐츠를 비롯한 모든 제한된 콘텐츠와 도구는 (100% 무료로) 이용할 수 있습니다.

관련 용어: 결정계수, 적합도, 모델 평가, 설명된 분산, 제곱합, 회귀 진단, 통계적 유의성, 조정된 결정계수, 상관관계.

역사적 맥락

리만 기하학

리만 기하학은 미분기하학의 한 분야로, 리만 다양체, 즉 리만 계량을 갖는 매끄러운 다양체를 연구합니다. 이 계량은 접공간에 대한 내적들의 모음으로, 각 점에서 매끄럽게 변화합니다. 이를 통해 각도, 곡선의 길이, 표면적, 부피와 같은 국소적인 기하학적 개념들을 정의할 수 있으며, 이는 곡률에 대한 일반화된 개념으로 이어집니다.

랭크-널리티 정리

선형대수학에서 랭크-널리티 정리는 유한 차원 벡터 공간 사이의 임의의 선형 사상 [latex]T: V to W[/latex]에 대해, 그 정의역 [latex]V[/latex]의 차원은 랭크(이미지의 차원)와 널리티(핵의 차원)의 합과 같다는 것을 나타냅니다. 공식은 [latex]dim(V) = text{rank}(T) + text{nullity}(T)[/latex]입니다.

소수 정리

소수 정리는 정수들 사이에서 소수의 점근적 분포를 설명합니다. 이 정리는 x 이하의 소수의 개수를 나타내는 소수 개수 함수 π(x)가 점근적으로 x/ln(x)와 같다는 것을 의미합니다. 정식으로는 lim x→∞ π(x)/x/ln(x) = 1입니다. 이는 소수와 자연로그 사이의 근본적인 연결 고리를 제공합니다.

결정계수(R²)

프레드홀름 지수

프레드홀름 지수는 랭크-널리티 정리를 바나흐 공간과 같은 무한 차원 공간으로 일반화한 것이다. 프레드홀름 연산자 [latex]T: X to Y[/latex]의 경우, 그 지수는 [latex]text{ind}(T) = dim(ker(T)) - dim(text{coker}(T))[/latex]로 정의된다. 여기서 코커널(Coker)의 차원은 이미지가 전체 공간에서 얼마나 떨어져 있는지를 나타낸다. 이 지수는 연산자에 대한 작은 섭동에 대해 안정적인 정수 값을 갖는다.

위상 공간

위상 공간은 순서쌍 [latex](X, tau)[/latex]로 정의되며, 여기서 [latex]X[/latex]는 집합이고 [latex]tau[/latex]는 [latex]X[/latex]의 부분집합들(개집합)의 모음으로, 다음 세 가지 공리를 만족합니다. 1) 공집합 [latex]emptyset[/latex]과 [latex]X[/latex] 자체는 [latex]tau[/latex]에 속합니다. 2) [latex]tau[/latex]에 있는 임의의 개수의 집합들의 합집합 또한 [latex]tau[/latex]에 속합니다. 3) [latex]tau[/latex]에 있는 임의의 유한개의 집합들의 교집합 또한 [latex]tau[/latex]에 속합니다.

체르멜로-프랭켈 집합론(ZFC)

체르멜로-프랑켈 집합론(Zermelo–Fraenkel set theory), 흔히 ZFC(선택 공리 포함)로 약칭되는 이 이론은 현대 수학의 표준 공리 체계입니다. 이는 1차 논리로 표현되는 공리들의 모음으로, 집합의 속성을 형식화합니다. 오늘날 사용되는 거의 모든 수학 정리는 ZFC 내에서 공식화하고 증명할 수 있습니다.

1854

1884

1896

1900

1903

1914

1922

1854

1895

1899

1900

1911

1920

1924

미분가능 다양체 (기하학)

미분 가능 다양체는 국소적으로 유클리드 공간과 유사한 위상 공간으로, 미적분학을 적용할 수 있습니다. 각 점은 ℝⁿ의 열린 부분집합과 위상동형인 근방을 가집니다. 이러한 국소 좌표계(차트)들은 매끄러운 전이 함수로 연결되어 다양체의 미분 가능 구조를 정의하는 아틀라스를 형성합니다.

디지털 논리에서의 부울 대수

디지털 전자공학은 조지 불이 도입한 수학적 논리 체계인 불 대수에 기반을 두고 있습니다. 불 대수는 일반적으로 0과 1(또는 거짓과 참)의 두 값과 세 가지 기본 연산인 AND(논리곱), OR(논리합), NOT(부정)을 사용합니다. 이러한 연산은 모든 디지털 회로의 기본 구성 요소인 논리 게이트에 직접적으로 대응합니다.

동형성

동형사상은 연속적인 역함수를 갖는 두 위상 공간 사이의 연속 함수입니다. 이러한 함수가 존재할 때 두 위상 공간은 동형이라고 합니다. 위상학적 관점에서 동형 공간은 동일합니다. 이 개념은 마치 커피잔을 도넛 모양으로 바꾸는 것처럼, 어떤 물체를 찢거나 붙이지 않고 늘리거나 구부리거나 변형시켜 다른 형태로 만들 수 있다는 생각을 잘 나타냅니다.

깁스 현상

깁스 현상은 푸리에 급수가 불연속점을 지날 때 나타나는 현상을 설명합니다. 급수의 부분합은 불연속점 근처에서 오버슈트를 보이는데, 이 오버슈트는 항을 더 추가해도 사라지지 않습니다. 이 오버슈트는 급수의 항 개수와 관계없이 불연속점 높이의 약 9%에 해당하는 일정한 값으로 수렴합니다.

가우스-마르코프 정리

이 정리는 오차항의 평균이 0이고, 상관관계가 없으며, 분산이 일정할 때(등분산성), 최소제곱법(OLS) 추정량이 최적 선형 비편향 추정량(BLUE)이라는 것을 나타냅니다. '최적'이라는 것은 회귀 계수의 모든 선형 비편향 추정량 중에서 분산이 가장 작다는 것을 의미하며, 따라서 가장 정확합니다.

브라우어 고정점 정리

이 정리는 콤팩트 볼록 집합을 자기 자신으로 사상하는 임의의 연속 함수 f에 대해 f(x_0) = x_0을 만족하는 점 x_0이 존재한다는 것을 나타냅니다. 이 점을 고정점이라고 합니다. 쉽게 말해, 어떤 나라의 지도를 구겨서 그 나라 국경 안에 놓으면, 지도상의 점 중 적어도 하나는 항상 실제 위치 바로 위에 있게 됩니다.

Quality control engineer analyzing process variations in manufacturing statistics.

일반 원인 및 특수 원인 변동

A core principle of SPC distinguishing between two types of process variation. Common cause variation is the inherent, random "noise" within a process that is stable and predictable. Special cause variation, or assignable cause, stems from external, identifiable sources, indicating process instability. The goal is to eliminate special causes and reduce common cause variation.

셰워트 관리도

SPC에서 공정 변수를 시간에 따라 모니터링하는 데 사용되는 그래픽 도구입니다. 공정 평균을 나타내는 중심선(CL)과 상한(UCL) 및 하한(LCL) 관리 한계 사이에 데이터 포인트를 표시합니다. 이러한 한계는 일반적으로 평균에서 3표준편차(μ ± 3σ)로 설정되며, 예상되는 공통 원인 변동 범위를 정의합니다.

(날짜를 알 수 없거나 관련이 없는 경우, 예를 들어 "유체역학"의 경우, 주목할 만한 등장 시기를 대략적으로 추정하여 제공합니다.)