Построение многофакторной регрессионной модели

Автор работы: Пользователь скрыл имя, 08 Июня 2012 в 14:53, курсовая работа

Краткое описание

При построении регрессионной модели необходимо:
- определить параметры модели;
- определить статистическую значимости оценок;
- построить доверительные интервалы оценок;
- проверить качество модели в целом

Содержание

Введение
1. Постановка задачи.
1.1 Определение цели и условий.
1.2 Сбор данных, оформление таблицы данных по всем показателям.
2. Анализ данных и отбор факторов. Выбор формы модели.
3. Построение модели регрессии. Количественная оценка параметров регрессии.
- Оценка качества модели
- Проверка качества параметров регрессии
- Проверка качества модели в целом
- Исключение статистически незначимого фактора из модели. Проверка качества новой модели.
- Проверка качества модели в целом.
4. Анализ остатков:
- тест Голдфельда-Квандта
- тест Уайта
- тест Дарбина-Уотсона
- тест Чоу

Прикрепленные файлы: 1 файл

НАША справка.doc

— 871.50 Кб (Скачать документ)

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ

МЕЖДУНАРОДНЫХ ОТНОШЕНИЙ

(УНИВЕРСИТЕТ)

МИД РОССИИ

 

 

 

КАФЕДРА ЭКОНОМЕТРИКИ И МАТЕМАТИЧЕСКИХ МЕТОДОВ

АНАЛИЗА ЭКОНОМИКИ

 

Аналитическая справка по эконометрике на тему:

 

«Построение многофакторной регрессионной модели»

 

 

Выполнили: студентки

III курса 1 группы

факультета МЭО

Евгения Журавлева

Ксения Сысоева

 

Научный руководитель:

Сернова Н. В.

 

 

 

 

 

 

 

 

МОСКВА 2009

 

 

 

 


СОДЕРЖАНИЕ

 

 

 

Введение

1. Постановка задачи.

    1.1 Определение цели и условий.

     1.2 Сбор данных, оформление таблицы данных по всем показателям.

 

2. Анализ данных и отбор факторов. Выбор формы модели.

 

3. Построение модели регрессии. Количественная оценка параметров регрессии.

- Оценка качества модели

- Проверка качества параметров регрессии

- Проверка качества модели в целом

- Исключение статистически незначимого фактора из модели. Проверка качества новой модели.

Проверка качества модели в целом.

4. Анализ остатков:

- тест Голдфельда-Квандта

- тест Уайта

- тест Дарбина-Уотсона

- тест Чоу

 

 

 

 

 

 

 

 

 

 

 

 

Введение

 

Регрессионный анализ это метод математической статистики, который оценивает регрессионную зависимость между результативным признаком и влияющими на него факторами в генеральной совокупности на основе анализа регрессионной зависимости в выборке.

Под регрессионной зависимостью понимают функциональную зависимость между изменением одной случайной величины Х и условным математическим ожиданием другой случайной величины Y.

Основной задачей регрессионного анализа является построение по выборочным данным модели регрессии, которая показывает, как в среднем изменяется значение результативного признака Y в зависимости от влияющих на него факторов в генеральной совокупности.

Регрессионная модель описывает, как в среднем зависит результативный признак   Y от  влияющих  на него  факториальных  признаков X,и выявляет какую роль играет каждый из факторов в изменении результативного признака.  На основе регрессионной модели можно определить среднее значение результативного признака Y при определенных значениях факториальных признаков.

 

Различают однофакторную и многофакторную модели регрессии. В однофакторной модели величина Y зависит только от одного факториального признака X. Если же таких признаков несколько, то модель является многофакторной.

В зависимости от функции, в виде которой описывается зависимость величины Y от факторов, различают линейную и нелинейную модель регрессии.

 

Коэффициенты регрессии при факториальных признаках, или параметры модели регрессии, называются коэффициентами регрессии. Коэффициенты в линейных однофакторных и многофакторных моделях показывают, на сколько изменится величина результативного признака Y при изменении значения данного факториального признака на единицу (при условии неизменности всех остальных факторных переменных в многофакторных моделях).

 

При построении регрессионной модели необходимо:

- определить параметры модели;

       - определить статистическую значимости оценок;

       - построить доверительные интервалы оценок;

        - проверить качество модели в целом.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1. Постановка задачи.

    1.1 Определение цели и условий.

Объектом исследования данной работы является динамика расходов на личное потребление американских граждан в период с 1939 по 1988 года.

Цель данной работы – определить степень зависимости расходов на личное потребление населения от группы факторов, выразить эту зависимость количественно и определить, изменился ли характер зависимости в периоды войн, кризисов и в мирное время.

Были выбраны три фактора, которые оказывают влияние на расходы на личное потребление американских граждан:

1) Валовой внутренний продукт

2) Валовой объем внутренних частных инвестиций

3) Личный доход

 

Для проведения анализа будем использовать регрессионный анализ, с помощью которого мы проанализируем влияние факторов и построим эконометрическую модель.

Процесс построения модели будет состоять из следующих этапов:

I.

Сбор исходных данных.

II.

Анализ данных, выбор факторов и формы модели.

III.

Построение модели.

IV.

Оценка качества модели.

 

 

 

 

 

 

 

1.2 Сбор данных, оформление таблицы данных по всем показателям.

Для исследования были использованы данные из книги Макконела и Брю «Экономикс»:

Т

Y

X1

X2

X3

Годы

Расходы на личное потребление (млрд. $)

Валовой внутренний продукт (млрд. $)

Валовой объем внутренних частных инвестиций (млрд. $)

Личный доход            (млрд. $)

1939

67,2

92

9,3

73,1

1940

71,2

101,3

13,6

78,6

1942

88,9

161,8

10,4

123,8

1944

108,5

219,7

7,8

166,3

1946

144,2

222,3

31,1

179,5

1948

175,4

269,6

48,1

211,1

1950

192,7

294,3

54,1

229,9

1952

219,7

358,6

54

276,1

1954

240,5

381,1

53,8

295,2

1956

271,9

438

72

340

1958

296,6

467,9

64,5

370

1960

332,3

527,4

78,9

412,7

1962

363,8

586,5

88,1

457,9

1964

411,7

664,4

102,1

515,8

1966

481,8

789,3

131,3

606,4

1968

558,7

911,5

141,2

714,5

1970

648,9

1039,7

152,4

841,1

1971

702,4

1128,6

178,2

905,1

1972

770,7

1240,4

207,6

994,3

1973

852,5

1385,5

244,5

1113,4

1974

932,4

1501

249,4

1225,6

1975

1030,3

1635,2

230,2

1331,7

1976

1149,8

1823,9

292

1475,4

1977

1278,4

2031,4

361,3

1637,1

1978

1430,3

2295,9

436

1848,3

1979

1596,3

2566,4

490,6

2081,5

1980

1762,9

2795,6

477,9

2323,9

1981

1944,2

3131,3

570,8

2599,4

1982

2079,3

3259,2

516,1

2768,4

1983

2286,4

3534,9

564,2

2946,9

1984

2498,4

3932,7

735,5

3274,8

1985

2712,6

4213

736,3

3515

1986

2895,2

4452,9

747,2

3712,4

1987

3105,3

4742,5

781,5

3962,5

1988

3356,6

5108,3

821,1

4272,1

 

 

Анализ данных и отбор факторов. Выбор формы модели.

 

Основной задачей является на данном этапе является определения набора факторов, которые  буду включены в модель.

Прежде, чем переходить к непосредственному построению модели, необходимо определиться с ее формой, то есть выявить характер воздействия каждого фактора на изменение результативного признака Y. Для этого необходимо построить графики корреляционного поля для каждого из факторов.

Для фактора Х1 этот график имеет следующий вид:

 

Анализ данного корреляционного поля позволяет принять гипотезу о существовании линейной зависимости.

Построим аналогичные графики для оставшихся факторов.

 

 

 

 

 

 

 

Для фактора Х2 график будет иметь следующий вид:

 

 

Для фактора Х3:

 

 

 

 

 

На всех графиках мы видим, что с увеличением каждого фактора X1, Х2, Х3 растет и величина результативного признака Y. Корреляционные поля дают возможность предположить, что существует линейная зависимость, так как все они могут быть аппроксимированы линейной функцией.

Таким образом, в нашем случае, мы будем рассматривать линейную многофакторную модель регрессии. Итак, определившись с формой модели, мы можем перейти к ее построению.

 

Построение модели регрессии. Количественная оценка параметров регрессии.

Можно предположить, что модель регрессии изучаемого явления будет иметь вид:

=   + x1 + x2 + x

 

где

, , , – коэффициенты регрессии,

располагаемый доход,

x1, x2, x3, факторы, влияющие на Y

 

Поскольку выбранная нами модель является линейной относительно параметров, то для количественной оценки параметров мы будем применять метод наименьших квадратов.

 

С помощью программы Microsoft Excel находим коэффициенты регрессии.

 

 

 

 

 

 

Коэффициенты

Y-пересечение

-14,08895774

Переменная X 1

0,433252671

Переменная X 2

-0,481615388

Переменная X 3

0,354804103

 

 

Подставив их в модель, получаем:

= -14,09  + 0,43 x1 - 0,48x2 + 0,35 x

 

Проведем качественный анализ коэффициентов регрессии и дадим интерпретацию каждого из параметров:

= 0,43 коэффициент регрессии, показывающий, на сколько млрд. долл. увеличится объем расходов на личное потребление американских граждан при увеличении ВВП на 1 млрд. долл. при условии, что остальные факторы остаются неизменными.

= -0,48 – коэффициент регрессии, который показывает, на сколько млрд. долл. уменьшится объем расходов на личное потребление американских граждан при увеличении валового объема частных инвестиций на 1 млрд. долл. при условии, что остальные факторы остаются неизменными.

= 0,35 – коэффициент регрессии, который показывает, на сколько млрд. долл. возрастет располагаемый доход американских граждан при увеличении их личного дохода на 1 млрд. долл. при условии, что остальные факторы остаются неизменными.

 

 

 

 

 

 

 

 

Оценка качества модели

Необходимо осуществить проверку качества полученной модели регрессии для того, чтобы узнать, соответствует ли она основным предпосылкам регрессионного анализа, а также для проверки адекватности модели. Проверка качества модели проходит в несколько этапов:

 

I. Проверка качества параметров регрессии.

II. Проверка качества модели в целом.

III. Анализ остатков.

 

I. Проверка качества параметров регрессии

Оценка качества параметров регрессии предполагает проверку статистических гипотез относительно свойств регрессионной модели. На основе построенной по выборочным данным регрессионной модели можно проверить гипотезу H0 о равенстве коэффициента регрессии генеральной совокупности нулю, т.е. об отсутствии регрессии Y на Xi в генеральной совокупности.

Вводим гипотезы:

H0:

H1:               (при α = 0,05)

Проверку гипотезы H0 осуществляем с помощью критерия t, которая является независимой случайной величиной, распределенной по закону Стьюдента. На основе данных регрессионной модели рассчитывается t-статистика:

,

где – стандартная ошибка параметра

 

 

 

Построим доверительный интервал для коэффициента регрессии:

 

Составим таблицу по данным, полученным с помощью Microsoft Excel:

 

Коэффициенты

Стандартная ошибка

t-набл

t-табл (при α=0,05, n-k-1=31)

Левая граница дов. инт.

Правая граница дов. инт.

Переменная X1

0,433252671

0,169291722

2,559207654

2,04

0,087979929

0,778525414

Переменная X2

-0,481615388

0,15655447

-3,07634389

2,04

-0,80091033

-0,16232044

Переменная X3

0,354804103

0,185656407

1,911079222

2,04

-0,02384463

0,733452841

 

Для коэффициентов и |t набл |>|t табл| и не попадает в доверительный интервал, поэтому нет оснований для принятия гипотезы Н0 и мы принимаем альтернативную гипотезу. Получаем, что при уровне значимости α = 0,05 отличие от нуля коэффициентов и не случайно. Значитфакторы Х1 и Х2 оказывает статистически значимое влияние на Y и их следует оставить в модели.

Что касается коэффициента , то здесь |t набл | < |t табл|, и попадает в доверительный интервал. Таким образом, гипотеза Н0 принимается. Это означает, что при уровне значимости α = 0,05 коэффициент    существенно не отличается от нуля. Поэтому фактор Х3 не оказывает статистически значимого влияния на Y.

Получаем, что личный доход не оказывает существенного воздействия на изменение расходов на личное потребление. Следовательно, этот фактора необходимо исключить из модели и проанализировать изменение качества модели в целом.

 

 

 

Проверка качества модели в целом

Проверка качества модели в целом позволяет нам оценить совместное влияние всех факторов, включенных в модель, на результативный признак.

Для проверки качества модели в целом, оценки того, насколько хорошо данная модель описывает фактические данные (вариацию результативного признака Y), используется дисперсионный анализ, на основе которого рассчитывается коэффициент детерминации R2.

Показатель R2  показывает, какую долю общей вариации составляет объясненная регрессией вариация, он служит показателем качества модели.

 

Этот коэффициент рассчитывается по формуле:

По результатам расчетов в Microsoft Excel R2 = 0,9995.

 

Принимаем нулевую гипотезу с уровнем значимости α = 0,05 о том, что все факторы, включенные в модель, совместно не оказывают  влияния на изменение результативного признака в генеральной совокупности. Принимаем также альтернативную ей гипотезу.

H0:

H1:

Проверка гипотезы осуществляется с помощью критерия Фишера, который рассчитывается по формуле:

Получаем Fнабл = 508, 93

Fтабл(α=0,05; 31; 3)= 3,17

Fнабл> Fтабл, поэтому нет оснований для принятия гипотезы H0.

Следовательно, при уровне значимости α = 0,05 все факторы, включенные в модель, совместно оказывают статистически значимое влияние на изменение Y. То есть изменение расходов на личное потребление на 99 % определяется учтенными факторами.

 

Однако, как мы выяснили, в модель включен один статистически незначимый фактор Х3, поэтому, несмотря на высокий R2, данную модель нельзя использовать для прогнозов, а данный фактор необходимо удалить из модели.

 

 

Исключение статистически незначимого фактора из модели. Проверка качества новой модели.

 

Удалим из модели Х3, пересчитаем коэффициенты регрессии и рассмотрим качество получившейся модели.

Двухфакторная  модель с исключенным фактором Х2 примет вид:

=   + x1 + x2

 

Для количественной оценки параметров регрессии применяем метод наименьших квадратов.

Находим коэффициенты регрессии с помощью Microsoft Excel и подставляем их в модель.

 

Коэффициенты

Y-пересечение

-26,0332689

Переменная X 1

0,753408323

Переменная X 2

-0,610844734

 

 

Получаем, что наша модель принимает следующий вид:

 

= - 26,03 + 0,75x1 - 0,61x2 

 

Оценим качество полученной модели.

 

I. Проверка качества параметров регрессии.

Вводим гипотезы:

H0:

H1:               (α = 0,05)

Проверку гипотезы H0 осуществляем с помощью критерия Стьюдента.

На основе данных регрессионной модели рассчитывается t-статистика:

,

где – стандартная ошибка параметра

 

Построим доверительный интервал для коэффициента регрессии:

 

По данным Microsoft Excel для новой модели составим таблицу:

 

Коэффициенты

Стандартная ошибка

t-набл

t-табл (при α=0,05, n-k-1=31)

Левая граница дов. инт.

Правая граница дов. инт.

Переменная X1

0,753408323

0,025376799

29,68886367

2,04

0,701717475

0,80509917

Переменная X2

-0,610844734

0,146932216

-4,15732335

2,04

-0,91013586

-0,31155360

 

Для обоих коэффициентов и |t набл |>|t табл| и не попадает в доверительный интервал, поэтому нет оснований для принятия гипотезы Н0 и принимается альтернативная гипотеза. Это означает, что при уровне значимости α = 0,05 отличие от нуля всех коэффициентов в новой модели не случайно. Следовательно,  факторы X1 и X2 оказывают статистически значимое влияние на Y и их следует оставить в модели.

 

 

 

II. Проверка качества модели в целом.

Для оценки того, насколько хорошо данная модель описывает фактические данные (вариацию результативного признака Y), снова используем коэффициент детерминации R2, вычисляемый по формуле

 

Согласно расчетам Microsoft Excel, коэффициент детерминации R2 почти не уменьшился (с 0,999542 до 0,999538). Это еще раз подтверждает незначительность исключенного фактора для модели в целом.

 

Для оценки качества модели в целом выдвигаем гипотезу H0  (о незначимости всех факторов на изменение Y) и альтернативную:

H0:

H1:               (α = 0,05)

 

Проверка гипотезы осуществляется с помощью критерия Фишера, который рассчитывается по формуле:

Получаем Fнабл = 788,02

Fтабл(α=0,05; 31; 2)= 3,26

Fнабл> Fтабл, поэтому нет оснований для принятия гипотезы H0.

Следовательно, при уровне значимости α = 0,05 все факторы, включенные в модель, совместно оказывают статистически значимое влияние на изменение Y. То есть изменение расходов на личное потребление более, чем на 99 % определяется учтенными факторами.

 

Как мы выяснили показатель R2 практически не изменился, что дает нам основание для принятия новой модели, поскольку она содержит меньшее число факторов. При этом все коэффициенты двухфакторной модели статистически значимы, а сама модель адекватна и может быть использована для последующего анализа и прогнозирования после анализа остатков.

Поскольку проверка качества модели была основана на предположении о независимости нормально распределенных остатков, необходимо проверить правильность данного предположения.

 

III. Анализ остатков

 

Качество остатков имеет большое значение для построения модели регрессии, т. к. полученные нами оценки будут являться эффективными, несмещенными и состоятельными, если удовлетворены все требования к остаткам. Существуют два основных условий для остатков, которые должны быть соблюдены:

Во-первых, дисперсия остатков должна быть постоянной (должна быть гомоскедастичность остатков), иначе в модели будет иметь место гетероскедастичность (ошибки будут не коррелированны, но при этом с непостоянными дисперсиями). Условие гомороскедастичности проверяется с помощью тестов Голдфельда-Кванта и Уайта.

Во-вторых, между остатками не должно быть автокорреляции, т. к. по теореме Гаусса-Маркова для эффективности, несмещенности и состоятельности полученных оценок необходимо, чтобы не было корреляции между последующими значениями остатков.

 

Проводим графический анализ остатков, отражающий зависимость остатков от каждого из факторов и проанализируем отклонения остатков.

 

 

 

 

 


 

 

 

 

Проанализировав данные графики, можно сделать вывод о том, что остатки меняются случайным образом и не зависят от значения параметра.

Тем не менее проведем проверку на наличие гетероскедастичности и автокорреляции в остатках с помощью тестов Голдфельда-Кванта, Уайта и Дарбина-Уотсона.

 

Проверим наличие гетероскедастичности в модели с помощью теста Голдфельда-Кванта

Если графический анализ остатков указывает на возможную неоднородность дисперсий ошибок , то наблюдения упорядочивают в порядке предполагаемого возрастания дисперсий случайных ошибок. Затем отбрасывают r центральных наблюдений (для более надежного разделения групп с малыми и большими дисперсиями случайных ошибок), так что для дальнейшего анализа остается n-r наблюдений. Далее производят оценивание выбранной модели отдельно по первым и по последним наблюдениям; вычисляют отношение остаточных сумм квадратов.

При принятии решения учитывается, что если , (дисперсии однородны) и выполнены остальные стандартные предположения о модели наблюдений, включая предположение о нормальности ошибок, то тогда отношение

имеет F— распределение Фишера с и степенями свободы.

Пусть мы предположили, что существует фактор, который вызывает  гетероскедастичность (фактор X2 - валовой объем внутренних частных инвестиций)

Упорядочиваем всю таблицу в порядке возрастания данных по валовому объему внутренних частных инвестиций:

 

 

 

 

Т

Y

X1

X2

X3

Годы

Расходы на личное потребление (млрд. $)

Валовой внутренний продукт (млрд. $)

Валовой объем внутренних частных инвестиций (млрд. $)

Личный доход            (млрд. $)

1944

108,5

219,7

7,8

166,3

1939

67,2

92

9,3

73,1

1942

88,9

161,8

10,4

123,8

1940

71,2

101,3

13,6

78,6

1946

144,2

222,3

31,1

179,5

1948

175,4

269,6

48,1

211,1

1954

240,5

381,1

53,8

295,2

1952

219,7

358,6

54

276,1

1950

192,7

294,3

54,1

229,9

1958

296,6

467,9

64,5

370

1956

271,9

438

72

340

1960

332,3

527,4

78,9

412,7

1962

363,8

586,5

88,1

457,9

1964

411,7

664,4

102,1

515,8

1966

481,8

789,3

131,3

606,4

1968

558,7

911,5

141,2

714,5

1970

648,9

1039,7

152,4

841,1

1971

702,4

1128,6

178,2

905,1

1972

770,7

1240,4

207,6

994,3

1975

1030

1635,2

230,2

1331,7

1973

852,5

1385,5

244,5

1113,4

1974

932,4

1501

249,4

1225,6

1976

1150

1823,9

292

1475,4

1977

1278

2031,4

361,3

1637,1

1978

1430

2295,9

436

1848,3

1980

1763

2795,6

477,9

2323,9

1979

1596

2566,4

490,6

2081,5

1982

2079

3259,2

516,1

2768,4

1983

2286

3534,9

564,2

2946,9

1981

1944

3131,3

570,8

2599,4

1984

2498

3932,7

735,5

3274,8

1985

2713

4213

736,3

3515

1986

2895

4452,9

747,2

3712,4

1987

3105

4742,5

781,5

3962,5

1988

3357

5108,3

821,1

4272,1

 

 

Делим весь ряд наблюдений на 3 части (средняя часть r=5; 1-я и 3-я части равны между собой =15)

Т

Y

X1

X2

X3

Годы

Расходы на личное потребление (млрд. $)

Валовой внутренний продукт (млрд. $)

Валовой объем внутренних частных инвестиций (млрд. $)

Личный доход            (млрд. $)

1944

108,5

219,7

7,8

166,3

1939

67,2

92

9,3

73,1

1942

88,9

161,8

10,4

123,8

1940

71,2

101,3

13,6

78,6

1946

144,2

222,3

31,1

179,5

1948

175,4

269,6

48,1

211,1

1954

240,5

381,1

53,8

295,2

1952

219,7

358,6

54

276,1

1950

192,7

294,3

54,1

229,9

1958

296,6

467,9

64,5

370

1956

271,9

438

72

340

1960

332,3

527,4

78,9

412,7

1962

363,8

586,5

88,1

457,9

1964

411,7

664,4

102,1

515,8

1966

481,8

789,3

131,3

606,4

1968

558,7

911,5

141,2

714,5

1970

648,9

1039,7

152,4

841,1

1971

702,4

1128,6

178,2

905,1

1972

770,7

1240,4

207,6

994,3

1975

1030

1635,2

230,2

1331,7

1973

852,5

1385,5

244,5

1113,4

1974

932,4

1501

249,4

1225,6

1976

1150

1823,9

292

1475,4

1977

1278

2031,4

361,3

1637,1

1978

1430

2295,9

436

1848,3

1980

1763

2795,6

477,9

2323,9

1979

1596

2566,4

490,6

2081,5

1982

2079

3259,2

516,1

2768,4

1983

2286

3534,9

564,2

2946,9

1981

1944

3131,3

570,8

2599,4

1984

2498

3932,7

735,5

3274,8

1985

2713

4213

736,3

3515

1986

2895

4452,9

747,2

3712,4

1987

3105

4742,5

781,5

3962,5

1988

3357

5108,3

821,1

4272,1

Теперь строим регрессии для 1 и 3 части и находим сумму квадратов остатков.

Вывод остатка 1 части

 

 

Наблюдение

Предсказанное Y

Остатки

Квадрат остатков

1

37,59944076

29,60055924

876,1931071

2

41,97950581

29,22049419

853,8372808

3

89,51541248

-0,61541248

0,378732521

4

134,7259507

-26,22595067

687,8004887

5

122,45213

21,74786999

472,9698492

6

147,7039832

27,69601681

767,069347

7

162,6481004

30,05189964

903,116672

8

211,15334

8,546660019

73,04539747

9

228,2271962

12,27280381

150,6217134

10

259,9787556

11,92124441

142,1160683

11

287,0869999

9,513000056

90,49717006

12

323,118631

9,181369026

84,29753719

13

362,0252913

1,774708708

3,149590999

14

412,1639734

-0,463973353

0,215271272

15

488,4280066

-6,628006623

43,93047179

 

 

 

5149,238698

 

 

Вывод остатка 3 части

 

 

Наблюдение

Предсказанное Y

Остатки

Квадрат остатков

1

952,4879468

-20,08794679

403,5256063

2

1065,323563

-35,02356259

1226,649937

3

1169,741509

-19,94150852

397,663762

4

1283,742195

-5,342195407

28,53905177

5

1437,388595

-7,088595126

50,24818086

6

1607,833424

-11,53342394

133,0198677

7

1788,27234

-25,37233962

643,7556177

8

1984,444038

-40,24403775

1619,582575

9

2114,218169

-34,91816918

1219,278539

10

2292,551212

-6,151212035

37,8374095

11

2487,61934

10,78066014

116,222633

12

2698,311017

14,28898308

204,1750374

13

2872,395466

22,80453406

520,0467739

14

3069,630542

35,66945819

1272,310248

15

3321,037855

35,56214522

1264,666173

 

 

 

9137,52141

 

 

Итак, принимаем гипотезу о том, что

H0: , т.е. разброс остатков постоянен

Альтернативная гипотеза

H1:

Проверяем с помощью критерия Фишера

Где k-размер выборки

m-число факторов

Fнабл=2,65

Fтабл(0,05; k-m-1; k-m-1) =3,52

Итак, Fнабл <Fтабл нет оснований для отвержения гипотезы об отсутствии гетероскедастичности и постоянстве дисперсии. Можно утверждать, что данная модель – модель с гомоскедастичностью.

 

Рассмотрим теперь тест Уайта

Тест Уайта используется для проверки однородности дисперсий ошибок в модели наблюдений.

а) Строим регрессию для исходной модели и находим квадраты остатков.

б) Строим регрессию для квадрата остатков (модель имеет следующий вид):

Вводим гипотезы

H0: , т.е. факторы не влияют на квадрат остатков исходной модели

H1:

 

Найдем с помощью критерия Фишера

Если выполнены все стандартные предположения о модели наблюдений, то тогда отношение

имеет F— распределение Фишера с и степенями свободы.

Итак, Fнабл=2,13

Fтабл(0,05; 31; 4)=2,18223

Поскольку Fнабл<Fтабл, то нет оснований отвергать гипотезу H0 об отсутствии гетероскедастичности.

 

Критерий Уайта

Если выполнены все стандартные предположения о модели наблюдений, то тогда

имеет распределение χ²

Где n – число наблюдений

А N – число регрессоров в модели (здесь – 14)

χ²= 53,67196 (при α=0,05)

Поскольку , то нет оснований отклонять гипотезу H0 об отсутствии гетероскедастичности.

 

Итог: поскольку выполняются критерии Уайта и Голдфельда-Кванта можно утверждать, что в данной модели отсутствует гетероскедастичность и дисперсия остатков постоянна.

 

Теперь проверим наличие автокорреляции остатков с помощью критерия Дарбина-Уотсона.

Критерий Дарбина-Уотсона применяется для проверки гипотезы о наличии автокорреляции в остатках генеральной совокупности.

Коэффициент Дарбина-Уотсона находится как

 

Выдвигаем гипотезы

H0: , т. е. не существует автокорреляция остатков

Альтернативная гипотеза

H1:

Для сравнения табличных значений и расчетных строится специальная схема,

 

 

 

 

 

Статистика DW может принимать значения только от 0 до 4:

      При попадании найденного значения DW в отрезок от 0 до dL имеет место положительная автокорреляция остатков.

      При попадании найденного значения DW в отрезок от 4-dL для модели характерна отрицательная автокорреляция остатков

      При попадании найденного показателя в отрезок от dU до 4-dU можно говорить о том, что отсутствует автокорреляция в остатках.

Строим схему для нашего случая (n=35, 5% уровень значимости)

 

 

 

 

 

 

Поскольку найденное значение попадает в интервал (1,73;2,27), то можно утверждать, что в модели отсутствует автокорреляция остатков.

 

Благодаря проведенному анализу мы выяснили, что найденные нами оценки являются эффективными, состоятельными и несмещенными, поскольку удовлетворяются требования к остаткам об отсутствии автокорреляции и гетероскедастичности.

 

Тест Чоу

              Проверка Чоу позволяет ответить на вопрос, можно ли считать наборы параметров регрессионных уравнений (константа, регрессия), построенные для разных групп наблюдений, одинаковыми. Он применяется, когда возникает сомнение в том, что при всех наблюдениях параметры неизменны.

Исследуем для нашей модели влияние валового объема внутренних частных инвестиций на расходы на личное потребление в зависимости от валового внутреннего продукта.

Группируем валовой внутренний продукт по объему на две группы:  меньше и больше 1200 млрд. $.

Годы

Расходы на личное потребление (млрд. $)

Валовой внутренний продукт (млрд. $)

Валовой объем внутренних частных инвестиций (млрд. $)

Личный доход            (млрд. $)

1939

67,2

92

9,3

73,1

1940

71,2

101,3

13,6

78,6

1942

88,9

161,8

10,4

123,8

1944

108,5

219,7

7,8

166,3

1946

144,2

222,3

31,1

179,5

1948

175,4

269,6

48,1

211,1

1950

192,7

294,3

54,1

229,9

1952

219,7

358,6

54

276,1

1954

240,5

381,1

53,8

295,2

1956

271,9

438

72

340

1958

296,6

467,9

64,5

370

1960

332,3

527,4

78,9

412,7

1962

363,8

586,5

88,1

457,9

1964

411,7

664,4

102,1

515,8

1966

481,8

789,3

131,3

606,4

1968

558,7

911,5

141,2

714,5

1970

648,9

1039,7

152,4

841,1

1971

702,4

1128,6

178,2

905,1

Годы

Расходы на личное потребление (млрд. $)

Валовой внутренний продукт (млрд. $)

Валовой объем внутренних частных инвестиций (млрд. $)

Личный доход            (млрд. $)

1972

770,7

1240,4

207,6

994,3

1973

852,5

1385,5

244,5

1113,4

1974

932,4

1501

249,4

1225,6

1975

1030,3

1635,2

230,2

1331,7

1976

1149,8

1823,9

292

1475,4

1977

1278,4

2031,4

361,3

1637,1

1978

1430,3

2295,9

436

1848,3

1979

1596,3

2566,4

490,6

2081,5

1980

1762,9

2795,6

477,9

2323,9

1981

1944,2

3131,3

570,8

2599,4

1982

2079,3

3259,2

516,1

2768,4

1983

2286,4

3534,9

564,2

2946,9

1984

2498,4

3932,7

735,5

3274,8

1985

2712,6

4213

736,3

3515

1986

2895,2

4452,9

747,2

3712,4

1987

3105,3

4742,5

781,5

3962,5

1988

3356,6

5108,3

821,1

4272,1

 

Далее мы находим регрессию для каждой модели и ищем

.

S1=396554,2

S2= 73002,24

Выдвигаем гипотезы

H0: , т.е. нет разницы между отрезками

H1:

Критерий Фишера

Итак,

F=1,114

Если выполнены все стандартные предположения о модели наблюдений, то тогда отношение

имеет F— распределение Фишера с и степенями свободы.

Fтабл (0,05; 25; 5)=2,37

Т.к Fнабл <Fтаб,  нет оснований для отвержения гипотезы H0, значит, в зависимости от расстояния влияние остальных факторов не изменяется

 

Мы провели анализ модели, разделив исходную выборку на части, и приняли гипотезу о том, что при увеличении расстояния влияние остальных факторов на величину изучаемого явления неизменно.

На данном этапе мы проанализировали качество модели:

      Добились того, что все факторы в нашей модели оказывают статистически значимое влияние на величину изучаемого явления (личное потребление);

      Выяснили, что модель является адекватной, поскольку все включенные в модель факторы совместно оказывают статистически значимое влияние на изменение Y;

      После анализа остатков обнаружили, что для данной модели выполняются все требования к остаткам, а именно: отсутствие гетероскедастичности и автокорреляции остатков;

      С помощью теста Чоу мы подтвердили наше предположение о том, что наборы параметров регрессионных уравнений, построенные для разных групп наблюдений, можно считать одинаковыми.

Можно утверждать, что данная модель является адекватной, качество модели удовлетворяет и ее можно использовать для анализа и прогнозирования.

29

 


Регрессионная статистика

 

 

 

 

 

 

 

Множественный R

0,999771083

 

 

 

 

 

 

 

R-квадрат

0,999542218

 

 

 

 

 

 

 

Нормированный R-квадрат

0,999497917

 

 

 

 

 

 

 

Стандартная ошибка

22,12625828

 

 

 

 

 

 

 

Наблюдения

35

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Дисперсионный анализ

 

 

 

 

 

 

 

 

 

df

SS

MS

F

Значимость F

 

 

 

Регрессия

3

33137540,23

11045846,74

22562,28382

7,90717E-52

 

 

 

Остаток

31

15176,71047

489,5713054

 

 

 

 

 

Итого

34

33152716,94

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Нижние 95,0%

Верхние 95,0%

Y-пересечение

84,50779215

37,94240843

2,227264838

0,033326323

7,123740279

161,891844

7,123740279

161,891844

Переменная X 1

0,441873224

0,195048302

2,265455369

0,030619062

0,04406959

0,839676857

0,04406959

0,839676857

Переменная X 2

-0,602774728

0,256443222

-2,350519247

0,025288233

-1,12579412

-0,079755331

-1,12579412

-0,07975533

Переменная X 3

0,260911156

0,228160374

1,143542811

0,26156747

-0,20442499

0,726247306

-0,20442499

0,726247306

 

Приложение

 

Регрессионный анализ первоначальной модели

 

 

 

 

 

 

 

 

Регрессионный анализ новой модели

 

Регрессионная статистика

 

 

 

 

 

 

 

Множественный R

0,999769022

 

 

 

 

 

 

 

R-квадрат

0,999538098

 

 

 

 

 

 

 

Нормированный R-квадрат

0,999509229

 

 

 

 

 

 

 

Стандартная ошибка

21,87557505

 

 

 

 

 

 

 

Наблюдения

35

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Дисперсионный анализ

 

 

 

 

 

 

 

 

df

SS

MS

F

Значимость F

 

 

 

Регрессия

2

33137403,63

16568701,82

34623,38503

4,29336E-54

 

 

 

Остаток

32

15313,30509

478,540784

 

 

 

 

 

Итого

34

33152716,94

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Нижние 95,0%

Верхние 95,0%

Y-пересечение

-26,0332689

5,639241808

-4,616448413

6,037E-05

-37,5200285

-14,5465092

-37,52

-14,5465

Переменная X 1

0,753408323

0,025376799

29,68886367

7,32588E-25

0,701717475

0,80509917

0,701717

0,805099

Переменная X 2

-0,610844734

0,146932216

-4,157323354

0,000224656

-0,91013586

-0,31155360

-0,91014

-0,31155

 

 

 

 

 

 

 

 

29

 

Информация о работе Построение многофакторной регрессионной модели