회귀 분석을 수행합니다. 종속변수 Y


회귀 분석은 통계 연구에서 가장 널리 사용되는 방법 중 하나입니다. 이는 종속변수에 대한 독립변수의 영향 정도를 확립하는 데 사용될 수 있습니다. Microsoft Excel에는 이러한 유형의 분석을 수행하도록 설계된 도구가 있습니다. 그것들이 무엇인지, 어떻게 사용하는지 살펴보겠습니다.

다만, 회귀분석을 수행할 수 있는 기능을 사용하기 위해서는 먼저 분석 패키지를 활성화해야 합니다. 그런 다음에만 이 절차에 필요한 도구가 Excel 리본에 나타납니다.


이제 탭으로 이동하면 "데이터", 도구 상자의 리본에 "분석"새로운 버튼이 보일 것입니다 - "데이터 분석".

회귀 분석 유형

회귀에는 여러 유형이 있습니다.

  • 비유담 같은;
  • 차분한;
  • 로그;
  • 지수;
  • 분명히 나타내는;
  • 쌍곡선;
  • 선형 회귀.

나중에 Excel에서 마지막 유형의 회귀 분석을 수행하는 방법에 대해 자세히 설명하겠습니다.

Excel의 선형 회귀

아래에는 일례로 외부 일일 평균 기온과 해당 근무일의 매장 고객 수를 보여주는 표가 나와 있습니다. 회귀 분석을 사용하여 기온 형태의 기상 조건이 소매점의 출석에 어떤 영향을 미칠 수 있는지 정확하게 알아 보겠습니다.

일반적인 선형 회귀 방정식은 다음과 같습니다: Y = a0 + a1x1 +…+ akhk. 이 공식에서 와이변수, 즉 우리가 연구하려는 요인의 영향을 의미합니다. 우리의 경우 이것이 구매자 수입니다. 의미 엑스변수에 영향을 미치는 다양한 요소입니다. 옵션 에이회귀 계수입니다. 즉, 그들은 특정 요인의 중요성을 결정하는 사람들입니다. 색인 케이는 동일한 요소의 총 개수를 나타냅니다.


분석결과 분석

회귀분석 결과는 설정에서 지정한 위치에 표 형태로 표시됩니다.

주요 지표 중 하나는 R-제곱. 모델의 품질을 나타냅니다. 우리의 경우 이 계수는 0.705, 즉 약 70.5%입니다. 이는 허용되는 수준의 품질입니다. 0.5 미만의 종속성은 좋지 않습니다.

또 다른 중요한 지표는 선의 교차점에 있는 셀에 있습니다. "Y교차점"및 열 "승산". 이는 Y의 가치를 나타내며, 우리의 경우 이는 구매자 수이며 다른 모든 요소는 0입니다. 이 표에서 이 값은 58.04입니다.

그래프 교차점의 값 "변수 X1"그리고 "승산"는 X에 대한 Y의 의존도 수준을 보여줍니다. 우리의 경우 이는 온도에 대한 매장 고객 수의 의존도 수준입니다. 계수 1.31은 상당히 높은 영향력 지표로 간주됩니다.

보시다시피 Microsoft Excel을 사용하면 회귀 분석 테이블을 만드는 것이 매우 쉽습니다. 그러나 숙련된 사람만이 출력 데이터로 작업하고 그 본질을 이해할 수 있습니다.

강의 3.

회귀 분석.

1) 회귀분석의 수치적 특성

2) 선형 회귀

3) 비선형 회귀

4) 다중회귀

5) MS EXCEL을 사용하여 회귀 분석 수행

제어 및 평가 도구 - 테스트 작업

1. 회귀분석의 수치적 특성

회귀 분석은 하나 이상의 독립 변수가 종속 변수에 미치는 영향을 연구하기 위한 통계적 방법입니다. 독립변수는 회귀변수 또는 예측변수라고 하며, 종속변수는 기준변수라고 합니다. 종속변수와 독립변수라는 용어는 인과관계가 아닌 변수의 수학적 종속성을 반영합니다.

회귀 분석의 목표

  • 예측 변수(독립 변수)에 의한 기준(종속) 변수의 변동 결정 정도를 결정합니다.
  • 독립변수를 사용하여 종속변수의 값을 예측합니다.
  • 종속변수의 변화에 ​​대한 개별 독립변수의 기여도 결정.

회귀 분석은 변수 사이에 관계가 있는지 여부를 결정하는 데 사용할 수 없습니다. 왜냐하면 이러한 관계의 존재는 분석을 적용하기 위한 전제 조건이기 때문입니다.

회귀분석을 수행하려면 먼저 통계학의 기본 개념과 확률론을 숙지해야 합니다.

이산형 및 연속형 확률 변수의 기본 수치 특성: 수학적 기대, 분산 및 표준 편차.

무작위 변수는 두 가지 유형으로 나뉩니다.

  • · 미리 합의된 특정 값만 취할 수 있는 이산형(예: 던진 주사위의 위쪽 가장자리에 있는 숫자 값 또는 이번 달의 서수 값)
  • · 연속적(가장 자주 - 일부 물리량의 값: 무게, 거리, 온도 등)은 자연 법칙에 따라 적어도 특정 간격으로 어떤 값이든 취할 수 있습니다.

확률 변수의 분포 법칙은 이산 확률 변수의 가능한 값과 확률 간의 대응 관계이며 일반적으로 표에 기록됩니다.

확률의 통계적 정의는 무작위 사건의 상대 빈도를 통해 표현됩니다. 즉, 전체 무작위 변수 수에 대한 무작위 변수 수의 비율로 구됩니다.

이산확률변수의 수학적 기대엑스수량 값의 곱의 합이라고합니다. 엑스이 값의 확률에 대해. 수학적 기대값은 또는 (엑스) .

N

= (엑스) = 엑스 1 1 + 엑스 2 2 +… + xn 피앤 = 에스 x 나는 피 나는

=1

수학적 기대값과 관련된 확률 변수의 분산은 분산이라는 수치적 특성을 사용하여 결정됩니다. 간단히 말해서, 분산은 평균값 주위에 무작위 변수가 퍼져 있는 것입니다. 분산의 본질을 이해하려면 예를 고려하십시오. 국가의 평균 급여는 약 25,000 루블입니다. 이 수치는 어디서 나온 걸까요? 대부분의 경우 모든 급여가 합산되어 직원 수로 나뉩니다. 이 경우 분산이 매우 큽니다 (최소 급여는 약 4,000 루블, 최대 급여는 약 100,000 루블입니다). 모든 사람의 급여가 동일하다면 차이는 0이 되고 스프레드도 발생하지 않습니다.

이산확률변수의 분산엑스확률 변수의 제곱 차이에 대한 수학적 기대값과 그 수학적 기대값입니다.

D = M [((X - M (X)) 2 ]

분산을 계산하기 위해 수학적 기대의 정의를 사용하여 다음 공식을 얻습니다.

D = S (xi - M (X)) 2pi

분산은 확률변수의 제곱의 차원을 갖습니다. 확률변수 자체와 동일한 차원에서 가능한 값의 분산이라는 수치적 특성을 가질 필요가 있는 경우에는 표준편차를 사용한다.

표준편차확률 변수를 분산의 제곱근이라고 합니다.

표준 편차는 수학적 기대치를 중심으로 무작위 변수 값의 분산을 측정한 것입니다.

예.

확률 변수 X의 분포 법칙은 다음 표에 나와 있습니다.

수학적 기대값, 분산 및 표준 편차를 구합니다. .

우리는 위의 공식을 사용합니다:

M(X) = 1 0.1 + 2 0.4 + 4 0.4 + 5 0.1 = 3

D = (1-3) 2 0.1 + (2 - 3) 2 0.4 + (4 - 3) 2 0.4 + (5 - 3) 2 0.1 = 1.6

예.

현금 복권에서는 1000루블의 1승, 100루블의 10승, 1루블의 100승이 각각 총 10,000장의 티켓 수로 진행됩니다. 한 복권 소유자의 무작위 승리 X에 대한 분배 법칙을 만듭니다. 티켓을 작성하고 확률 변수의 수학적 기대값, 분산 및 표준 편차를 결정합니다.

X 1 = 1000, X 2 = 100, X 3 = 1, X 4 = 0,

P 1 = 1/10000 = 0.0001, P 2 = 10/10000 = 0.001, P 3 = 100/10000 = 0.01, P 4 = 1 - (P 1 + P 2 + P 3) = 0.9889 .

결과를 표에 올려 보겠습니다.

수학적 기대는 무작위 변수 값과 확률의 쌍을 이룬 곱의 합입니다. 이 작업에서는 공식을 사용하여 계산하는 것이 좋습니다

1000 · 0.0001 + 100 · 0.001 + 1 · 0.01 + 0 · 0.9889 = 0.21 루블.

우리는 실제 "공정한" 티켓 가격을 받았습니다.

D = S (x i - M (X)) 2 p i = (1000 - 0.21) 2 0.0001 + (100 - 0.21) 2 0.001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

연속확률변수의 분포함수

테스트 결과 하나의 가능한 값(미리 알 수 없음)을 취하는 값을 확률 변수라고 합니다. 위에서 언급한 것처럼 확률 변수는 이산형(불연속형) 및 연속형일 수 있습니다.

이산형은 번호를 매길 수 있는 특정 확률로 별도의 가능한 값을 취하는 확률 변수입니다.

연속형은 어떤 유한 또는 무한 구간에서 모든 값을 취할 수 있는 확률변수입니다.

지금까지 우리는 확률 변수의 "유형"이 이산형이라는 한 가지 "유형"으로만 제한되었습니다. 유한한 가치를 취하는 것.

그러나 통계의 이론과 실제에는 연속 확률 변수 개념의 사용이 필요합니다. 이는 모든 간격의 수치 값을 허용합니다.

소위 확률 밀도 함수를 사용하여 연속 확률 변수의 분포 법칙을 정의하는 것이 편리합니다. 에프엑스(f(x)). 확률 P(a< X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

아빠< X < b) = ∫ 에프(엑스) dx

함수 f(x)의 그래프를 분포 곡선이라고 합니다. 기하학적으로, 확률 변수가 구간 (a; b)에 포함될 확률은 분포 곡선, Ox 축 및 직선 x = a, x = b로 둘러싸인 해당 곡선 사다리꼴의 면적과 같습니다.

P(a £ X

유한한 집합이나 가산 집합을 복소 사건에서 빼면 새로운 사건이 발생할 확률은 변하지 않습니다.

함수 f(x) - 실수 인수 x의 수치 스칼라 함수를 확률 밀도라고 하며 이 지점에 극한이 존재하는 경우 지점 x에 존재합니다.

확률 밀도의 속성:

  1. 확률 밀도는 음이 아닌 함수입니다. 즉, f(x) ≥ 0입니다.

(확률 변수 X의 모든 값이 (a;b) 구간에 포함되어 있으면 마지막

평등은 ∫ f (x) dx = 1)로 쓸 수 있습니다.

이제 함수 F(x) = P(X)를 고려해 보겠습니다.< х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

연속확률변수 X이면 F(x) = ∫ f(x) dx = 1).

마지막 평등으로부터 f (x) = F" (x)

때때로 함수 f(x)를 미분 확률 분포 함수라고 하고, 함수 F(x)를 누적 확률 분포 함수라고 합니다.

확률 분포 함수의 가장 중요한 속성을 살펴보겠습니다.

  1. F(x)는 비감소 함수입니다.
  2. F(-무한대) = 0.
  3. F(+무한대) = 1.

분포 함수의 개념은 확률 이론의 핵심입니다. 이 개념을 사용하여 연속 확률 변수에 대한 또 다른 정의를 제공할 수 있습니다. 누적 분포 함수 F(x)가 연속형인 경우 확률 변수를 연속형이라고 합니다.

연속확률변수의 수치적 특성

임의 변수의 수학적 기대치, 분산 및 기타 매개변수는 거의 항상 분포 법칙에서 발생하는 공식을 사용하여 계산됩니다.

연속 확률 변수의 경우 수학적 기대값은 다음 공식을 사용하여 계산됩니다.

M(X) = ∫ xf(엑스) dx

분산:

D (X) = ∫ ( 엑스-남(엑스)) 2 에프(엑스) dx 또는 D(X) = ∫ 엑스 2 에프(엑스) dx - (엠(엑스)) 2

2. 선형 회귀

2차원 확률 변수(X, Y)의 구성 요소 X와 Y가 종속적이라고 가정합니다. 그 중 하나가 다른 하나의 선형 함수로 대략적으로 표현될 수 있다고 가정합니다. 예를 들어

Y ≒ g(Х) = α + βХ, 최소 제곱법을 사용하여 매개변수 α 및 β를 결정합니다.

정의. 함수 g(Х) = α + βХ가 호출됩니다. 최선의 근사치최소 제곱법의 의미에서 Y, 수학적 기대 M(Y - g(X)) 2가 가능한 가장 작은 값을 취하는 경우; 함수 g(X)가 호출됩니다. 평균 제곱 회귀 Y에서 X로.

정리 X에 대한 Y의 선형 평균 제곱 회귀는 다음과 같은 형식을 갖습니다.

X와 Y의 상관 계수는 어디에 있습니까?

방정식 계수.

이 값에 대해 함수 F(α, β)가 있음을 확인할 수 있습니다.

에프(α, β ) = (Y - α - βX)²는 최소값을 가지며 이는 정리를 증명합니다.

정의. 계수는 다음과 같습니다. X에 대한 회귀 계수 Y, 그리고 직선 - - X에 대한 Y의 직접 평균 제곱 회귀.

정지점의 좌표를 등식으로 대체하면 함수 F(α, β)의 최소값을 찾을 수 있습니다. 이 양은 다음과 같습니다. 잔차 분산 Y는 X에 상대적이며 Y를 다음으로 대체할 때 허용되는 오류의 양을 나타냅니다.

g(X) = α+βX. 잔차 분산이 0과 같을 때, 즉 동등성은 근사치가 아니라 정확합니다. 따라서 Y와 X는 선형 함수 의존성과 관련이 있습니다. 마찬가지로 Y에 대한 X의 직접 평균 제곱 회귀를 얻을 수 있습니다.

Y에 대한 X의 잔차 분산입니다. 두 직접 회귀 모두에서 일치합니다. X의 회귀 방정식 Y와 Y의 X를 비교하고 방정식 시스템을 풀면 회귀선의 교차점, 즉 좌표(m x, m y)가 있는 점을 찾을 수 있습니다. X 값과 Y 값의 공동 분포의 중심입니다.

V. E. Gmurman "확률 이론 및 수학적 통계" p.256의 교과서에서 회귀 방정식을 구성하는 알고리즘을 고려해 보겠습니다.

1) 샘플 요소의 수, 샘플링 옵션, 해당 제곱 및 제품이 기록되는 계산표를 작성합니다.

2) 숫자를 제외한 모든 열의 합계를 계산합니다.

3) 각 값, 분산, 표준편차에 대한 평균값을 계산합니다.

5) X와 Y 사이에 연결이 존재한다는 가설을 테스트합니다.

6) 두 회귀선에 대한 방정식을 만들고 이 방정식의 그래프를 그립니다.

X에 대한 직선 회귀선 Y의 기울기는 표본 회귀 계수입니다.

계수 b=

X에서 Y의 회귀선에 필요한 방정식을 얻습니다.

와이 = 0.202 X + 1.024

Y의 X에 대한 회귀 방정식은 유사합니다.

X에 대한 직선 회귀선 Y의 기울기는 샘플 회귀 계수 pxy입니다.

계수 b=

엑스 = 4.119U - 3.714

3. 비선형 회귀

경제 현상 사이에 비선형 관계가 있는 경우 해당 비선형 함수를 사용하여 표현됩니다.

비선형 회귀에는 두 가지 클래스가 있습니다.

1. 분석에 포함된 설명 변수에 대해서는 비선형이지만 추정된 매개변수에 대해서는 선형인 회귀입니다. 예를 들면 다음과 같습니다.

다른 차수의 다항식

등변 쌍곡선 - ;

반대수 함수 - .

2. 추정되는 매개변수 측면에서 비선형적인 회귀 분석은 다음과 같습니다.

힘 - ;

실증적 - ;

지수 - .

포함된 변수에 대해 비선형적이었던 회귀분석은 단순히 변수를 교체함으로써 선형적인 형태로 이루어지며, 추가적인 매개변수 추정은 최소자승법을 이용하여 수행된다. 몇 가지 기능을 살펴보겠습니다.

2차 포물선은 대체를 사용하여 선형 형태로 축소됩니다. 결과적으로 우리는 최소 제곱법을 사용하여 매개변수를 추정하면 다음과 같은 방정식 시스템이 되는 2요인 방정식에 도달합니다.

2차 포물선은 일반적으로 요소 값의 특정 간격에 대해 고려 중인 특성 간의 연결 특성이 변경되는 경우에 사용됩니다. 즉, 직접 연결이 역방향으로 변경되거나 역방향에서 직접으로 변경됩니다.

등변 쌍곡선을 사용하여 원자재, 자재, 연료의 특정 비용과 생산량, 상품 유통 시간 및 매출액 간의 관계를 특성화할 수 있습니다. 그 전형적인 예는 실업률 사이의 비선형 관계를 특징으로 하는 필립스 곡선입니다. 엑스임금 인상 비율 와이.

쌍곡선은 간단한 대체를 통해 선형 방정식으로 축소됩니다. 최소 제곱법을 사용하여 선형 방정식 시스템을 구성할 수도 있습니다.

비슷한 방식으로 종속성은 선형 형식으로 축소됩니다.

엥겔곡선(내구재에 대한 지출 비중과 총 지출(또는 소득) 간의 관계를 수학적으로 설명하는 것)을 설명하기 위해 등변 쌍곡선과 반로그 곡선이 사용됩니다. 그들이 입력하는 방정식은 농업 생산의 생산성과 노동 강도 연구에 사용됩니다.

4. 다중 회귀

다중 회귀는 여러 독립 변수가 있는 관계 방정식입니다.

종속 변수(결과 속성)는 어디에 있습니까?

독립변수(요인).

다중 회귀 방정식을 작성하려면 다음 함수가 가장 자주 사용됩니다.

선형 -

힘 -

지수 -

과장법 - .

선형 형태로 축소할 수 있는 다른 함수를 사용할 수 있습니다.

다중회귀식의 매개변수를 추정하기 위해 최소제곱법(OLS)이 사용됩니다. 선형 방정식과 선형 방정식으로 축소할 수 있는 비선형 방정식의 경우 다음과 같은 정규 방정식 시스템이 구성되며, 이 솔루션을 통해 회귀 매개변수의 추정치를 얻을 수 있습니다.

이를 해결하기 위해 행렬식 방법을 사용할 수 있습니다.

시스템의 결정자는 어디에 있습니까?

특정 한정자 이는 시스템 결정자 행렬의 해당 열을 시스템의 왼쪽에 있는 데이터로 대체하여 얻습니다.

다중 회귀 방정식의 또 다른 유형은 표준화된 규모의 회귀 방정식입니다. OLS는 표준화된 규모의 다중 회귀 방정식에 적용됩니다.

5. 사용법MS뛰어나다회귀 분석을 수행하려면

회귀 분석은 확률 변수 Y(종속)와 하나 이상의 변수 수량 값(독립) 사이의 종속 형태를 설정하고 후자의 값이 정확하게 지정된 것으로 간주됩니다. 이러한 의존성은 일반적으로 알려지지 않은 여러 매개변수를 포함하는 일부 수학적 모델(회귀 방정식)에 의해 결정됩니다. 회귀 분석 중에 샘플 데이터를 기반으로 이러한 매개변수의 추정치를 찾고, 추정치의 통계적 오류 또는 신뢰 구간 경계를 결정하고, 채택된 수학적 모델과 실험 데이터의 적합성(적절성)을 확인합니다.

선형 회귀 분석에서는 확률 변수 간의 관계가 선형이라고 가정합니다. 가장 간단한 경우, 쌍 선형 회귀 모델에는 두 개의 변수 X와 Y가 있습니다. 그리고 n 쌍의 관측값 (X1, Y1), (X2, Y2), ..을 사용하여 직선을 구성(맞춤)해야 합니다. ., (Xn, Yn), 관찰된 값에 "최적"로 근접하는 회귀선이라고 합니다. 이 직선 y=ax+b의 방정식은 회귀 방정식입니다. 회귀 방정식을 사용하면 주어진 독립 변수 x 값에 해당하는 종속 변수 y의 기대 값을 예측할 수 있습니다. 하나의 종속변수 Y와 여러 독립변수 X1, X2, ..., Xm 사이의 의존성을 고려하는 경우 다중선형회귀를 말합니다.

이 경우 회귀 방정식의 형식은 다음과 같습니다.

y = a 0 +a 1 x 1 +a 2 x 2 +… +a m x m ,

여기서 a0, a1, a2, …, am은 결정이 필요한 회귀 계수입니다.

회귀 방정식의 계수는 최소 제곱법을 사용하여 결정되며, 변수 Y의 실제 값과 회귀 방정식에서 계산된 값 사이의 가능한 최소 제곱합을 달성합니다. 따라서, 예를 들어 선형 상관 관계가 없는 경우에도 선형 회귀 방정식을 구축할 수 있습니다.

회귀 모델의 효율성을 측정하는 방법은 결정 계수 R2(R-제곱)입니다. 결정 계수는 0과 1 사이의 값을 가질 수 있으며 결과 회귀 방정식이 원본 데이터를 대략적으로 설명하는 정확도를 결정합니다. F-test(Fisher)를 이용하여 회귀모델의 유의성을 검토하고, Student's t-test를 이용하여 계수 a0, a1, a2, ..., am과 zero 사이의 차이에 대한 신뢰도를 확인한다.

Excel에서 실험 데이터는 최대 16차까지의 선형 방정식으로 근사화됩니다.

y = a0+a1x1+a2x2+…+a16x16

선형 회귀 계수를 얻으려면 분석 패키지의 "회귀" 절차를 사용할 수 있습니다. 또한 선형 회귀 방정식에 대한 전체 정보는 LINEST 함수를 통해 제공됩니다. 또한 SLOPE 및 INTERCEPT 함수를 사용하여 회귀 방정식의 매개변수를 얻을 수 있으며, TREND 및 FORECAST 함수를 사용하여 원하는 지점에서 예측된 Y 값을 얻을 수 있습니다(쌍별 회귀의 경우).

LINEST 함수(known_y, [known_x], [상수], [통계])의 적용을 자세히 살펴보겠습니다. Known_y - 종속 매개변수 Y의 알려진 값 범위. 쌍회귀 분석에서는 형태; 복수형은 행이나 열이어야 합니다. 알려진_x - 하나 이상의 독립 매개변수의 알려진 값 범위. Y 범위와 모양이 동일해야 합니다(여러 매개변수의 경우 - 각각 여러 열 또는 행). 상수는 논리적 인수입니다. 회귀분석 문제의 실제 의미에 기초하여 회귀선이 좌표 원점을 통과해야 하는 경우, 즉 자유 계수가 0인 경우 이 인수의 값을 0으로 설정해야 합니다( 또는 "거짓"). 값이 1(또는 true)로 설정되거나 생략되면 자유 계수는 일반적인 방법으로 계산됩니다. 통계는 논리적인 주장이다. 값이 1(또는 "true")로 설정되면 모델의 효율성과 중요성을 평가하는 데 사용되는 회귀 통계가 추가로 반환됩니다(표 참조). 일반적으로 쌍회귀 y=ax+b의 경우 LINEST 함수를 적용한 결과는 다음과 같은 형식을 갖습니다.

테이블. 쌍별 회귀 분석을 위한 LINEST 함수의 출력 범위

방정식 y=a0+a1x1+a2x2+…+amxm에 대한 다중 회귀 분석의 경우 첫 번째 줄에는 계수 am,…,a1,a0이 표시되고 두 번째 줄에는 이러한 계수에 대한 표준 오차가 표시됩니다. 회귀 통계로 채워진 처음 두 열을 제외한 행 3-5는 #N/A를 반환합니다.

LINEST 함수는 배열 수식으로 입력해야 하며, 먼저 결과에 필요한 크기의 배열(회귀 통계가 필요한 경우 m+1 열 및 5개 행)을 선택하고 CTRL+SHIFT+ENTER를 눌러 수식 입력을 완료해야 합니다. .

이 예의 결과:

또한 프로그램에는 데이터 탭의 데이터 분석 기능이 내장되어 있습니다.

회귀 분석을 수행하는 데에도 사용할 수 있습니다.

슬라이드는 데이터 분석을 사용하여 수행한 회귀 분석 결과를 보여줍니다.

결과의 결론

회귀 통계

복수형 R

R-제곱

정규화된 R-제곱

표준오차

관찰

분산 분석

의의 F

회귀

승산

표준오차

t-통계량

P-값

하위 95%

상위 95%

하위 95.0%

상위 95.0%

Y교차점

가변 X 1

앞서 살펴본 회귀식 역시 MS Excel로 작성되었습니다. 이를 수행하려면 먼저 분산형 차트를 작성한 다음 상황에 맞는 메뉴를 통해 - 추세선 추가를 선택하세요. 새 창에서 다이어그램에 방정식 표시 상자를 선택하고 다이어그램에 근사 신뢰도 값(R^2)을 배치합니다.

문학:

  1. 확률 이론과 수학적 통계. Gmurman V. E. 대학 교과서. - 에드. 10번째, 지워졌습니다. -M .: 더 높습니다. 학교, 2010. - 479 p.
  2. 연습과 문제에서 더 높은 수학. 대학 교과서 / Danko P. E., Popov A. G., Kozhevnikova T. Ya., Danko S. P. 2 시간 후 - Ed. 6번째, 지워졌습니다. - M.: Onyx Publishing House LLC: Mir and Education Publishing House LLC, 2007. - 416 p.
    1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8 %D1%8F - 회귀 분석에 대한 일부 정보

공부하는 동안 학생들은 다양한 방정식을 자주 접하게 됩니다. 이 기사에서는 그 중 하나인 회귀 방정식에 대해 설명합니다. 이러한 유형의 방정식은 특히 수학적 매개변수 간의 관계 특성을 설명하는 데 사용됩니다. 이러한 유형의 평등은 통계 및 계량 경제학에 사용됩니다.

회귀의 정의

수학에서 회귀는 데이터 세트의 평균값이 다른 수량의 값에 미치는 영향을 설명하는 특정 수량을 의미합니다. 회귀 방정식은 특정 특성의 함수로 다른 특성의 평균값을 보여줍니다. 회귀 함수는 간단한 방정식 y = x의 형태를 가지며, 여기서 y는 종속 변수로 작용하고 x는 독립 변수(특징-인자)로 작용합니다. 실제로 회귀는 y = f(x)로 표현됩니다.

변수 간의 관계 유형은 무엇입니까?

일반적으로 상관 관계와 회귀 관계라는 두 가지 상반된 유형의 관계가 있습니다.

첫 번째는 조건변수의 동일성을 특징으로 합니다. 이 경우 어떤 변수가 다른 변수에 의존하는지 확실하게 알 수 없습니다.

변수 사이에 동일성이 없고 조건이 어떤 변수가 설명적이고 종속적인지 알려주면 두 번째 유형의 연결이 있는지에 대해 이야기할 수 있습니다. 선형회귀식을 구성하기 위해서는 어떤 관계가 관찰되는지를 알아내는 것이 필요할 것이다.

회귀 유형

오늘날 회귀에는 쌍곡선, 선형, 다중, 비선형, 쌍별, 역, 대수 선형 등 7가지 유형이 있습니다.

쌍곡선, 선형 및 로그

선형 회귀 방정식은 방정식의 매개 변수를 명확하게 설명하기 위해 통계에 사용됩니다. y = c+t*x+E처럼 보입니다. 쌍곡선 방정식은 일반 쌍곡선 y = c + m / x + E의 형태를 갖습니다. 로그 선형 방정식은 로그 함수를 사용하여 관계를 표현합니다: In y = In c + m * In x + In E.

다중 및 비선형

두 가지 더 복잡한 회귀 유형은 다중 회귀와 비선형 회귀입니다. 다중 회귀 방정식은 함수 y = f(x 1, x 2 ... x c) + E로 표현됩니다. 이 경우 y는 종속변수로 작용하고, x는 설명변수로 작용합니다. E 변수는 확률론적입니다. 이는 방정식에 다른 요인의 영향을 포함합니다. 비선형 회귀 방정식은 약간 논란의 여지가 있습니다. 한편으로는 고려된 지표에 비해 선형적이지 않지만, 다른 한편으로는 지표를 평가하는 역할에서는 선형적입니다.

역 및 쌍을 이루는 회귀 유형

역함수는 선형 형식으로 변환해야 하는 함수 유형입니다. 가장 전통적인 응용 프로그램에서는 y = 1/c + m*x+E 함수의 형태를 갖습니다. 쌍별 회귀 방정식은 y = f (x) + E의 함수로 데이터 간의 관계를 보여줍니다. 다른 방정식과 마찬가지로 y는 x에 따라 달라지며 E는 확률 매개변수입니다.

상관관계의 개념

이는 두 가지 현상이나 과정 사이에 관계가 있음을 보여주는 지표입니다. 관계의 강도는 상관계수로 표현됩니다. 해당 값은 [-1;+1] 간격 내에서 변동합니다. 부정적인 지표는 피드백이 있음을 나타내고, 긍정적인 지표는 직접적인 피드백을 나타냅니다. 계수가 0과 같은 값을 취하면 관계가 없습니다. 값이 1에 가까울수록 매개변수 간의 관계가 강해지고, 0에 가까울수록 약해집니다.

행동 양식

상관 관계 매개변수 방법은 관계의 강도를 평가할 수 있습니다. 이는 정규 분포의 법칙을 따르는 매개변수를 연구하기 위해 분포 추정을 기반으로 사용됩니다.

선형 회귀 방정식의 매개 변수는 의존성 유형, 회귀 방정식의 기능을 식별하고 선택한 관계 공식의 지표를 평가하는 데 필요합니다. 상관 필드는 연결 식별 방법으로 사용됩니다. 이를 위해서는 기존의 모든 데이터를 그래픽으로 표현해야 합니다. 알려진 모든 데이터는 직사각형 2차원 좌표계에 표시되어야 합니다. 그러면 상관관계 필드가 생성됩니다. 설명 요소의 값은 가로축을 따라 표시되고 종속 요소의 값은 세로축을 따라 표시됩니다. 매개변수 간에 기능적 관계가 있는 경우 선 형태로 나열됩니다.

이러한 데이터의 상관계수가 30% 미만이면 연결이 거의 없다고 말할 수 있습니다. 30%에서 70% 사이이면 중간 정도의 연결이 있음을 나타냅니다. 100% 표시는 기능적 연결의 증거입니다.

비선형 회귀 방정식은 선형 회귀 방정식과 마찬가지로 상관 지수(R)로 보완되어야 합니다.

다중 회귀에 대한 상관관계

결정계수는 다중 상관관계의 제곱을 측정한 것입니다. 그는 제시된 지표 세트와 연구 중인 특성의 긴밀한 관계에 대해 이야기합니다. 또한 매개변수가 결과에 미치는 영향의 성격에 대해서도 이야기할 수 있습니다. 이 지표를 사용하여 다중 회귀 방정식을 추정합니다.

다중 상관관계 지표를 계산하기 위해서는 해당 지수를 계산해야 합니다.

최소제곱법

이 방법은 회귀 요인을 추정하는 방법입니다. 그 본질은 함수에 대한 요인의 의존성 결과로 얻은 제곱 편차의 합을 최소화하는 것입니다.

이러한 방법을 사용하여 쌍별 선형 회귀 방정식을 추정할 수 있습니다. 이러한 유형의 방정식은 지표 간에 쌍을 이루는 선형 관계가 감지될 때 사용됩니다.

방정식 매개변수

선형 회귀 함수의 각 매개변수는 특정한 의미를 갖습니다. 쌍을 이루는 선형 회귀 방정식에는 c와 m이라는 두 개의 매개변수가 포함되어 있습니다. 매개변수 m은 변수 x가 하나의 기존 단위만큼 감소(증가)하는 경우 함수 y의 최종 지표의 평균 변화를 나타냅니다. 변수 x가 0이면 함수는 매개변수 c와 같습니다. 변수 x가 0이 아니면 요소 c는 경제적 의미를 갖지 않습니다. 함수에 대한 유일한 영향은 요소 c 앞에 있는 부호입니다. 마이너스가 있으면 요인에 비해 결과의 변화가 느리다고 말할 수 있습니다. 플러스가 있으면 결과의 변화가 가속화되었음을 나타냅니다.

회귀식의 값을 변화시키는 각 매개변수는 방정식을 통해 표현될 수 있다. 예를 들어 요인 c의 형식은 c = y - mx입니다.

그룹화된 데이터

모든 정보가 속성 x로 그룹화되는 작업 조건이 있지만 특정 그룹의 경우 종속 지표의 해당 평균값이 표시됩니다. 이 경우 평균값은 x에 따른 표시기가 어떻게 변하는지를 나타냅니다. 따라서 그룹화된 정보는 회귀 방정식을 찾는 데 도움이 됩니다. 관계분석에 활용됩니다. 그러나 이 방법에는 단점이 있습니다. 불행하게도 평균 지표는 외부 변동의 영향을 받는 경우가 많습니다. 이러한 변동은 관계의 패턴을 반영하지 않으며 단지 "노이즈"를 가릴 뿐입니다. 평균은 선형 회귀 방정식보다 훨씬 나쁜 관계 패턴을 보여줍니다. 그러나 방정식을 찾는 기초로 사용할 수 있습니다. 개별 모집단의 수에 해당 평균을 곱하면 그룹 내 합계 y를 얻을 수 있습니다. 다음으로, 받은 모든 금액을 더하고 최종 지표 y를 찾아야 합니다. 합계 표시기 xy를 사용하여 계산하는 것이 조금 더 어렵습니다. 간격이 작으면 조건에 따라 그룹 내 모든 단위에 대한 x 표시기를 동일하게 설정할 수 있습니다. x와 y의 곱의 합을 알아내려면 여기에 y의 합을 곱해야 합니다. 다음으로, 모든 양을 합산하여 총량 xy를 구합니다.

다중 쌍별 회귀 방정식: 관계의 중요성 평가

앞에서 설명한 것처럼 다중 회귀는 y = f (x 1,x 2,…,x m)+E 형식의 함수를 갖습니다. 대부분의 경우 이러한 방정식은 제품의 수요와 공급 문제, 환매주에 대한 이자 소득 문제를 해결하고 생산 비용 함수의 원인과 유형을 연구하는 데 사용됩니다. 또한 다양한 거시경제학 연구 및 계산에도 적극적으로 사용되지만, 미시경제학 수준에서는 이 방정식이 조금 덜 자주 사용됩니다.

다중 회귀 분석의 주요 작업은 각 요소가 개별적으로나 전체적으로 모델링해야 하는 지표와 해당 계수에 어떤 영향을 미치는지 추가로 확인하기 위해 엄청난 양의 정보가 포함된 데이터 모델을 구축하는 것입니다. 회귀 방정식은 다양한 값을 가질 수 있습니다. 이 경우 관계를 평가하기 위해 일반적으로 선형 및 비선형의 두 가지 유형의 함수가 사용됩니다.

선형 함수는 다음 관계의 형태로 표시됩니다: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. 이 경우 a2, a m은 "순수한" 회귀 계수로 간주됩니다. 다른 지표의 안정적인 값을 조건으로 각 해당 매개변수 x의 변화(감소 또는 증가)에 따른 매개변수 y의 평균 변화를 특성화하는 데 필요합니다.

비선형 방정식은 예를 들어 멱함수 y=ax 1 b1 x 2 b2 ...x m bm의 형태를 갖습니다. 이 경우 지표 b 1, b 2 ..... b m을 탄력성 계수라고 하며 해당 지표 x가 1% 증가(감소)함에 따라 결과가 어떻게 변경되는지(%만큼) 보여줍니다. 다른 요인에 대한 안정적인 지표가 있습니다.

다중 회귀 분석을 구성할 때 고려해야 할 요소는 무엇입니까?

다중 회귀 분석을 올바르게 구축하려면 어떤 요소에 특별한 주의를 기울여야 하는지 알아내는 것이 필요합니다.

경제적 요인과 모델링 대상 간의 관계의 성격을 어느 정도 이해하는 것이 필요합니다. 포함해야 할 요소는 다음 기준을 충족해야 합니다.

  • 정량적 측정을 거쳐야 합니다. 품목의 품질을 설명하는 요소를 사용하려면 어떤 경우에도 정량적 형식이 제공되어야 합니다.
  • 요인의 상호 상관이나 기능적 관계가 없어야 합니다. 이러한 행동은 대부분 돌이킬 수 없는 결과로 이어집니다. 일반 방정식 시스템은 무조건적이 되며 이로 인해 신뢰성이 떨어지고 추정치가 불분명해집니다.
  • 상관관계가 큰 지표의 경우, 지표의 최종 결과에 요인들이 개별적으로 미치는 영향을 알아낼 수 있는 방법이 없으므로 계수를 해석할 수 없게 됩니다.

공법

방정식의 요소를 선택하는 방법을 설명하는 수많은 방법과 방법이 있습니다. 그러나 이러한 모든 방법은 상관 지표를 사용한 계수 선택을 기반으로 합니다. 그중에는 다음이 포함됩니다:

  • 제거 방법.
  • 전환 방법.
  • 단계별 회귀 분석.

첫 번째 방법은 전체 세트에서 모든 계수를 필터링하는 것입니다. 두 번째 방법은 많은 추가 요소를 도입하는 것입니다. 세 번째는 이전에 방정식에 사용되었던 요소를 제거하는 것입니다. 이러한 각 방법에는 존재할 권리가 있습니다. 장단점이 있지만 모두 자신의 방식으로 불필요한 지표를 제거하는 문제를 해결할 수 있습니다. 일반적으로 각 개별 방법으로 얻은 결과는 매우 유사합니다.

다변량 분석 방법

요인을 결정하는 이러한 방법은 상호 연관된 특성의 개별 조합을 고려하는 것을 기반으로 합니다. 여기에는 판별 분석, 형상 인식, 주성분 분석 및 클러스터 분석이 포함됩니다. 그밖에 요인분석도 있는데, 이는 구성요소법의 발달로 인해 나타났다. 이들 모두는 특정 조건 및 요인에 따라 특정 상황에 적용됩니다.

회귀 분석 방법은 가치 관계를 구축하고 정렬하기 위해 특정 매개변수 시리즈에 속하는 제품의 기술 및 경제적 매개변수를 결정하는 데 사용됩니다. 이 방법은 기본적인 소비자 속성을 반영하는 하나 이상의 기술적, 경제적 매개변수가 존재하는 것을 특징으로 하는 제품의 수준과 가격 비율을 분석하고 정당화하는 데 사용됩니다. 회귀 분석을 통해 제품의 기술 및 경제 매개변수에 대한 가격의 의존성을 설명하는 경험적 공식을 찾을 수 있습니다.

P=f(X1X2,...,Xn),

여기서 P는 제품의 단가, 문지름 값입니다. (X1, X2, ... Xn) - 제품의 기술 및 경제 매개변수입니다.

사용되는 규범적 매개변수 방법 중 가장 진보된 방법인 회귀 분석 방법은 현대 정보 기술 및 시스템을 사용하여 계산을 수행할 때 효과적입니다. 적용에는 다음과 같은 주요 단계가 포함됩니다.

  • 제품의 분류 매개변수 그룹 결정;
  • 제품 가격에 가장 큰 영향을 미치는 매개변수 선택
  • 매개변수가 변경될 때 가격 변경 간의 연결 형태 선택 및 정당화;
  • 정규 방정식 시스템 구축 및 회귀 계수 계산.

가격이 균등화되는 제품의 주요 자격 그룹은 파라메트릭 시리즈로, 그 안에서 제품은 애플리케이션, 작동 조건 및 요구 사항 등에 따라 다양한 디자인으로 그룹화될 수 있습니다. 파라메트릭 시리즈를 구성할 때 자동 분류 방법 제품의 전체 질량에서 동질적인 그룹을 구별하는 데 사용할 수 있습니다. 기술 및 경제 매개변수의 선택은 다음과 같은 기본 요구 사항을 기반으로 이루어집니다.

  • 선택된 매개변수에는 표준 및 기술 사양에 기록된 매개변수가 포함됩니다. 기술 매개변수(전력, 부하 용량, 속도 등) 외에도 제품 직렬화 지표, 복잡성 계수, 통합 등이 사용됩니다.
  • 선택된 매개변수 세트는 시리즈에 포함된 제품의 설계, 기술 및 운영 특성을 충분히 완전히 특성화해야 하며 가격과 상당히 밀접한 상관관계를 가져야 합니다.
  • 매개변수는 상호의존적이어서는 안 됩니다.

가격에 큰 영향을 미치는 기술적, 경제적 매개변수를 선택하기 위해 쌍 상관 계수 행렬이 계산됩니다. 매개변수 간의 상관 계수의 크기를 기반으로 연결의 친밀도를 판단할 수 있습니다. 동시에, 0에 가까운 상관관계는 매개변수가 가격에 미미한 영향을 미친다는 것을 보여줍니다. 기술적, 경제적 매개변수의 최종 선택은 컴퓨터 기술과 적절한 표준 프로그램을 사용한 단계별 회귀 분석 과정에서 수행됩니다.

가격 책정 실무에서는 다음 기능 세트가 사용됩니다.

선의

P = ao + alXl + ... + antXn,

선형 전력

P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)

역로그

P = a0 + a1: X1 + ... + an: Xn에서,

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

지시적인

P = e^(a1+a1X1+...+anXn)

쌍곡선의

P = ao + a1:X1 + a2:X2 + ... + ap:Xn,

여기서 P는 가격 균등화입니다. X1 X2,..., Xn - 시리즈 제품의 기술 및 경제 매개변수의 값입니다. a0, a1 ..., аn - 회귀 방정식의 계산된 계수입니다.

가격 책정에 관한 실제 작업에서는 가격과 기술 및 경제 매개변수 간의 관계 형태에 따라 다른 회귀 방정식을 사용할 수 있습니다. 가격과 일련의 기술 및 경제 매개변수 간의 연결 기능 유형은 컴퓨터 처리 중에 미리 설정되거나 자동으로 선택될 수 있습니다. 가격과 매개변수 집합 간의 상관관계의 근접성은 다중 상관 계수의 값으로 평가됩니다. 하나에 가깝다는 것은 긴밀한 연결을 나타냅니다. 회귀 방정식을 사용하여 특정 매개변수 계열의 제품에 대한 균등화된(계산된) 가격 값을 얻습니다. 균등화 결과를 평가하기 위해 계산된 가격 값과 실제 가격 값의 편차에 대한 상대 값이 계산됩니다.

Tsr = Rf - Rr: R x 100

여기서 Рф, Рр - 실제 가격과 계산된 가격.

CR 값은 8~10%를 초과해서는 안 됩니다. 계산된 값이 실제 값과 크게 차이나는 경우 다음 사항을 조사해야 합니다.

  • 파라메트릭 시리즈 형성의 정확성(매개변수가 시리즈의 다른 제품과 크게 다른 제품을 포함할 수 있기 때문). 제외되어야 합니다.
  • 기술 및 경제 매개변수의 올바른 선택. 가격과 약한 상관관계를 갖는 일련의 매개변수가 가능합니다. 이 경우 계속해서 매개변수를 검색하고 선택해야 합니다.

회귀 분석을 수행하고, 알려지지 않은 방정식 매개변수를 찾고, 얻은 결과에 대한 경제적 평가를 수행하는 절차 및 방법론은 수학적 통계의 요구 사항에 따라 수행됩니다.

회귀분석은 측정된 데이터를 모델링하고 그 특성을 연구하는 방법입니다. 데이터는 종속변수(반응변수)와 독립변수(설명변수)의 값 쌍으로 구성됩니다. 회귀 모델은 독립 변수와 추가된 확률 변수가 있는 매개 변수의 함수입니다.

상관 분석 및 회귀 분석은 수학적 통계와 관련된 섹션이며 샘플 데이터를 사용하여 여러 수량의 통계적 의존성을 연구하기 위한 것입니다. 그 중 일부는 무작위입니다. 통계적 의존성을 사용하면 수량은 기능적으로 관련되지 않지만 결합 확률 분포에 의해 무작위 변수로 정의됩니다.

확률변수의 의존성에 대한 연구는 표본 데이터를 기반으로 한 회귀 모델 및 회귀 분석으로 이어집니다. 확률이론과 수학적 통계는 통계적 의존성을 연구하기 위한 도구일 뿐 인과관계를 확립하는 것을 목표로 하지 않습니다. 인과관계에 대한 아이디어와 가설은 연구 중인 현상에 대한 의미 있는 설명을 가능하게 하는 다른 이론에서 가져와야 합니다.

수치 데이터는 일반적으로 서로 명시적(알려진) 또는 암시적(숨겨진) 관계를 갖습니다.

직접 계산 방법, 즉 이전에 알려진 공식을 사용하여 계산한 지표는 명확하게 관련되어 있습니다. 예를 들어 계획 완료율, 수준, 특정 가중치, 금액 편차, 백분율 편차, 성장률, 성장률, 지수 등이 있습니다.

두 번째 유형(암시적)의 연결은 미리 알 수 없습니다. 그러나 복잡한 현상을 관리하기 위해서는 이를 설명하고 예측(예측)할 수 있는 능력이 필요합니다. 따라서 전문가들은 관찰의 도움을 받아 숨겨진 종속성을 식별하고 공식 형식, 즉 현상이나 프로세스를 수학적으로 모델링하기 위해 노력합니다. 그러한 기회 중 하나는 상관 회귀 분석을 통해 제공됩니다.

수학적 모델은 세 가지 일반적인 목적으로 구축되고 사용됩니다.

  • * 설명을 위해;
  • * 예측을 위해;
  • * 관리를 위해.

분석가는 상관관계 및 회귀분석 방법을 사용하여 상관계수를 사용하여 지표 간 연결의 긴밀성을 측정합니다. 이 경우 강도(강함, 약함, 보통 등)가 다르고 방향(직접, 역방향)이 다른 연결이 발견됩니다. 연결이 중요한 것으로 판명되면 회귀 모델 형태로 수학적 표현을 찾아 모델의 통계적 유의성을 평가하는 것이 좋습니다.

회귀 분석은 관측 데이터 간의 암묵적이고 가려진 연결을 식별하기 위한 현대 수학적 통계의 주요 방법이라고 합니다.

회귀분석의 문제 진술은 다음과 같이 공식화된다.

일련의 관찰 결과가 있습니다. 이 세트에서 하나의 열은 나머지 열이 나타내는 객체 및 환경의 매개 변수와 기능적 관계를 설정하는 데 필요한 표시기에 해당합니다. 필수: 지표와 요인 사이의 정량적 관계를 설정합니다. 이 경우 회귀 분석의 문제는 사용 가능한 실험 데이터를 가장 잘 설명하는 함수적 종속성 y = f(x2, x3, ..., xт)를 식별하는 작업으로 이해됩니다.

가정:

관찰 횟수는 요인과 그 관계에 관한 통계적 패턴을 입증하기에 충분합니다.

처리된 데이터에는 측정 오류 및 설명되지 않은 무작위 요인의 영향으로 인해 일부 오류(노이즈)가 포함되어 있습니다.

관찰 결과 매트릭스는 연구 시작 전에 사용할 수 있는 연구 대상 개체에 대한 유일한 정보입니다.

매개변수에 대한 지표의 의존성을 설명하는 함수 f(x2, x3, ..., xт)를 회귀 방정식(함수)이라고 합니다. "회귀"(회귀 (라틴어) - 후퇴, 무언가로 돌아가기)라는 용어는 방법 형성 단계에서 해결된 특정 문제 중 하나의 세부 사항과 관련이 있습니다.

회귀 분석 문제에 대한 솔루션을 여러 단계로 나누는 것이 좋습니다.

데이터 전처리;

회귀 방정식의 유형을 선택합니다.

회귀 방정식 계수 계산;

관찰 결과에 대해 구성된 함수의 적절성을 확인합니다.

전처리에는 데이터 매트릭스 표준화, 상관 계수 계산, 유의성 확인 및 고려 사항에서 중요하지 않은 매개 변수 제외가 포함됩니다.

회귀 방정식 유형 선택 데이터를 가장 잘 설명하는 함수 관계를 결정하는 작업에는 여러 가지 근본적인 어려움을 극복하는 작업이 포함됩니다. 일반적으로 표준화된 데이터의 경우 매개변수에 대한 지표의 기능적 의존성은 다음과 같이 나타낼 수 있습니다.

y = f(x1, x2, …, xm) + e

여기서 f는 결정될 이전에 알려지지 않은 함수입니다.

e - 데이터 근사 오류.

이 방정식을 일반적으로 표본 회귀 방정식이라고 합니다. 이 방정식은 지표의 변동과 요인의 변동 사이의 관계를 특성화합니다. 그리고 상관관계 측정은 요인의 변동과 관련된 지표의 변동 비율을 측정합니다. 즉, 지표와 요인 사이의 상관관계는 그 수준 간의 연관성으로 해석될 수 없으며, 회귀분석은 지표 생성에 있어서 요인의 역할을 설명하지 못한다.

또 다른 특징은 각 요소가 지표에 미치는 영향 정도를 평가하는 것입니다. 회귀 방정식은 지표에 대한 각 요소의 개별 영향에 대한 평가를 제공하지 않습니다. 이러한 평가는 다른 모든 요소가 연구 중인 요소와 관련이 없는 경우에만 가능합니다. 연구 중인 요인이 지표에 영향을 미치는 다른 요인과 관련되어 있는 경우 요인 영향의 혼합 특성이 얻어집니다. 이 특성에는 요인의 직접적인 영향과 다른 요인과의 연결 및 지표에 대한 영향을 통해 발휘되는 간접적인 영향이 모두 포함됩니다.

지표와 약하게 관련되어 있지만 다른 요소와 밀접하게 관련된 요소를 회귀 방정식에 포함하는 것은 권장되지 않습니다. 기능적으로 서로 관련된 요소는 방정식에 포함되지 않습니다(상관 계수는 1입니다). 이러한 요소를 포함하면 회귀 계수를 추정하기 위한 방정식 시스템이 퇴화되고 해의 불확실성이 발생합니다.

오류 e가 어떤 의미에서 최소화되도록 함수 f를 선택해야 합니다. 기능적 연결을 선택하기 위해서는 함수 f가 어떤 클래스에 속할 수 있는지에 대한 가설을 미리 제시한 후 이 클래스에서 "가장 좋은" 함수를 선택합니다. 선택한 기능 클래스에는 어느 정도 "부드러움"이 있어야 합니다. 인수 값의 "작은" 변경은 함수 값의 "작은" 변경을 유발해야 합니다.

실제로 널리 사용되는 특별한 경우는 1차 다항식 또는 선형 회귀 방정식입니다.

기능적 의존성 유형을 선택하려면 다음 접근 방식을 권장할 수 있습니다.

지표 값이 있는 포인트는 매개변수 공간에 그래픽으로 표시됩니다. 많은 수의 매개변수를 사용하면 각 매개변수에 대한 점을 구성하여 값의 2차원 분포를 얻을 수 있습니다.

점의 위치를 ​​기반으로 하고 지표와 개체 매개변수 간의 관계의 본질에 대한 분석을 기반으로 대략적인 회귀 유형 또는 가능한 옵션에 대한 결론이 내려집니다.

매개변수를 계산한 후 근사의 품질이 평가됩니다. 계산된 값과 실제 값 사이의 유사성 정도를 평가합니다.

전체 작업 영역에서 계산된 값과 실제 값이 비슷하면 회귀 분석 문제가 해결된 것으로 간주할 수 있습니다. 그렇지 않으면 다른 유형의 다항식이나 주기 함수와 같은 다른 분석 함수를 선택해 볼 수 있습니다.

회귀 방정식 계수 계산

미지수의 수가 항상 방정식의 수보다 크기 때문에 사용 가능한 데이터를 기반으로 방정식 시스템을 명확하게 푸는 것은 불가능합니다. 이 문제를 극복하려면 추가적인 가정이 필요합니다. 상식에 따르면 데이터 근사에서 최소 오류를 보장하는 방식으로 다항식의 계수를 선택하는 것이 좋습니다. 근사 오류를 평가하기 위해 다양한 측정값을 사용할 수 있습니다. 이러한 척도로는 평균 제곱근 오차가 널리 사용됩니다. 이를 기반으로 회귀 방정식의 계수를 추정하는 특별한 방법인 최소 제곱법(LSM)이 개발되었습니다. 이 방법을 사용하면 정규 분포 옵션 하에서 회귀 방정식의 알 수 없는 계수에 대한 최대 우도 추정을 얻을 수 있지만 다른 요인 분포에도 사용할 수 있습니다.

MNC는 다음 조항을 기반으로 합니다.

오류와 요인의 값은 독립적이므로 상관 관계가 없습니다. 간섭을 생성하는 메커니즘은 요소 값을 생성하는 메커니즘과 관련이 없다고 가정합니다.

오류 e의 수학적 기대치는 0과 같아야 합니다(상수 구성 요소는 계수 a0에 포함됨). 즉, 오류는 중심 수량입니다.

오차 분산의 표본 추정치는 최소화되어야 합니다.

선형 모델이 부정확하거나 매개변수가 부정확하게 측정된 경우, 이 경우 최소 제곱법을 사용하면 선택한 표준 편차의 의미에서 선형 모델이 실제 개체를 가장 잘 설명하는 계수 값을 찾을 수 있습니다. 표준.

결과 회귀 방정식의 품질은 지표 관찰 결과와 매개변수 공간의 특정 지점에서 회귀 방정식에 의해 예측된 값 사이의 근접성 정도에 따라 평가됩니다. 결과가 비슷하면 회귀 분석 문제가 해결된 것으로 간주할 수 있습니다. 그렇지 않으면 회귀 방정식을 변경하고 계산을 반복하여 매개변수를 추정해야 합니다.

지표가 여러 개인 경우 회귀 분석 문제는 각 지표에 대해 독립적으로 해결됩니다.

회귀 방정식의 본질을 분석할 때 다음 사항에 유의해야 합니다. 고려 된 접근 방식은 계수에 대한 별도의 (독립적) 평가를 제공하지 않습니다. 한 계수 값의 변경은 다른 계수 값의 변경을 수반합니다. 획득된 계수는 지표 값에 대한 해당 매개변수의 기여로 간주되어서는 안 됩니다. 회귀 방정식은 사용 가능한 데이터에 대한 훌륭한 분석 설명일 뿐 매개변수와 지표 간의 관계를 설명하는 법칙은 아닙니다. 이 방정식은 주어진 매개변수 변화 범위에서 지표 값을 계산하는 데 사용됩니다. 이 범위 밖의 계산에는 제한적으로 적합합니다. 보간 문제를 해결하는 데 사용할 수 있으며 제한된 범위에서는 외삽에 사용할 수 있습니다.

예측이 부정확한 주요 원인은 회귀선 외삽의 불확실성이 아니라 모델에서 고려되지 않은 요인으로 인한 지표의 상당한 변동입니다. 예측 능력의 한계는 모델에서 고려되지 않은 매개변수의 안정성 조건과 고려된 모델 요인의 영향 특성입니다. 외부 환경이 급격히 변하면 컴파일된 회귀 방정식은 그 의미를 잃게 됩니다.

매개변수의 기대값을 회귀식에 대입하여 얻은 예측값은 점 1입니다. 그러한 예측이 실현될 가능성은 무시할 수 있습니다. 예측의 신뢰구간을 결정하는 것이 좋습니다. 지표의 개별 값의 경우 간격은 회귀선 위치의 오류와 이 선에서 개별 값의 편차를 고려해야 합니다.

편집자의 선택
칼로리 함량: 지정되지 않음 요리 시간: 지정되지 않음 우리 모두는 어린 시절의 맛을 좋아합니다. 어린 시절의 맛이 우리를 "아름답고 먼 곳"으로 데려가기 때문입니다....

통조림 옥수수는 정말 놀라운 맛을 가지고 있습니다. 그것의 도움으로 옥수수를 곁들인 배추 샐러드 요리법을 얻을 수 있습니다...

우리의 꿈은 때때로 특이한 인상을 남기고 그것이 무엇을 의미하는지에 대한 의문이 생깁니다. 해결해야 한다는 사실 때문에...

혹시 꿈에서 도움을 요청하셨나요? 마음 속으로는 자신의 능력이 의심스럽고 현명한 조언과 지원이 필요합니다. 또 왜 꿈을 꾸지...
커피 찌꺼기에 대한 운세는 인기가 많으며 컵 바닥에 운명의 표시와 치명적인 상징이 표시되어 흥미를 자아냅니다. 이런 예측으로...
나이가 어리다. 슬로우 쿠커에 당면을 곁들인 죽 요리를 준비하는 몇 가지 요리법을 설명하겠습니다. 먼저 살펴 보겠습니다.
와인은 모든 행사에서뿐만 아니라 더 강한 것을 원할 때도 마시는 음료입니다. 하지만 테이블 와인은...
이제 다양한 비즈니스 대출이 매우 커졌습니다. 기업가는 종종 진정으로 수익성 있는 대출을 찾을 수 있습니다...
원하는 경우 오븐에 계란을 넣은 미트 로프를 얇은 베이컨 조각으로 감쌀 수 있습니다. 그것은 접시에 놀라운 향기를 줄 것입니다. 그리고 계란 대신...