Построение многофакторной регрессионной модели

Автор работы: Пользователь скрыл имя, 08 Июня 2012 в 14:53, курсовая работа

Краткое описание

При построении регрессионной модели необходимо:
- определить параметры модели;
- определить статистическую значимости оценок;
- построить доверительные интервалы оценок;
- проверить качество модели в целом

Содержание

Введение
1. Постановка задачи.
1.1 Определение цели и условий.
1.2 Сбор данных, оформление таблицы данных по всем показателям.
2. Анализ данных и отбор факторов. Выбор формы модели.
3. Построение модели регрессии. Количественная оценка параметров регрессии.
- Оценка качества модели
- Проверка качества параметров регрессии
- Проверка качества модели в целом
- Исключение статистически незначимого фактора из модели. Проверка качества новой модели.
- Проверка качества модели в целом.
4. Анализ остатков:
- тест Голдфельда-Квандта
- тест Уайта
- тест Дарбина-Уотсона
- тест Чоу

Скачать полностью (144.94 Кб) Сколько стоит заказать работу?

Прикрепленные файлы: 1 файл

НАША справка.doc

— 871.50 Кб (Скачать документ)

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ

МЕЖДУНАРОДНЫХ ОТНОШЕНИЙ

(УНИВЕРСИТЕТ)

МИД РОССИИ

КАФЕДРА ЭКОНОМЕТРИКИ И МАТЕМАТИЧЕСКИХ МЕТОДОВ

АНАЛИЗА ЭКОНОМИКИ

Аналитическая справка по эконометрике на тему:

«Построение многофакторной регрессионной модели»

Выполнили: студентки

III курса 1 группы

факультета МЭО

Евгения Журавлева

Ксения Сысоева

Научный руководитель:

Сернова Н. В.

МОСКВА 2009

СОДЕРЖАНИЕ

Введение

1. Постановка задачи.

1.1 Определение цели и условий.

1.2 Сбор данных, оформление таблицы данных по всем показателям.

2. Анализ данных и отбор факторов. Выбор формы модели.

3. Построение модели регрессии. Количественная оценка параметров регрессии.

- Оценка качества модели

- Проверка качества параметров регрессии

- Проверка качества модели в целом

- Исключение статистически незначимого фактора из модели. Проверка качества новой модели.

- Проверка качества модели в целом.

4. Анализ остатков:

- тест Голдфельда-Квандта

- тест Уайта

- тест Дарбина-Уотсона

- тест Чоу

Введение

Регрессионный анализ – это метод математической статистики, который оценивает регрессионную зависимость между результативным признаком и влияющими на него факторами в генеральной совокупности на основе анализа регрессионной зависимости в выборке.

Под регрессионной зависимостью понимают функциональную зависимость между изменением одной случайной величины Х и условным математическим ожиданием другой случайной величины Y.

Основной задачей регрессионного анализа является построение по выборочным данным модели регрессии, которая показывает, как в среднем изменяется значение результативного признака Y в зависимости от влияющих на него факторов в генеральной совокупности.

Регрессионная модель описывает, как в среднем зависит результативный признак Y от влияющих на него факториальных признаков X,и выявляет какую роль играет каждый из факторов в изменении результативного признака. На основе регрессионной модели можно определить среднее значение результативного признака Y при определенных значениях факториальных признаков.

Различают однофакторную и многофакторную модели регрессии. В однофакторной модели величина Y зависит только от одного факториального признака X. Если же таких признаков несколько, то модель является многофакторной.

В зависимости от функции, в виде которой описывается зависимость величины Y от факторов, различают линейную и нелинейную модель регрессии.

Коэффициенты регрессии при факториальных признаках, или параметры модели регрессии, называются коэффициентами регрессии. Коэффициенты в линейных однофакторных и многофакторных моделях показывают, на сколько изменится величина результативного признака Y при изменении значения данного факториального признака на единицу (при условии неизменности всех остальных факторных переменных в многофакторных моделях).

При построении регрессионной модели необходимо:

- определить параметры модели;

- определить статистическую значимости оценок;

- построить доверительные интервалы оценок;

- проверить качество модели в целом.

1. Постановка задачи.

1.1 Определение цели и условий.

Объектом исследования данной работы является динамика расходов на личное потребление американских граждан в период с 1939 по 1988 года.

Цель данной работы – определить степень зависимости расходов на личное потребление населения от группы факторов, выразить эту зависимость количественно и определить, изменился ли характер зависимости в периоды войн, кризисов и в мирное время.

Были выбраны три фактора, которые оказывают влияние на расходы на личное потребление американских граждан:

1) Валовой внутренний продукт

2) Валовой объем внутренних частных инвестиций

3) Личный доход

Для проведения анализа будем использовать регрессионный анализ, с помощью которого мы проанализируем влияние факторов и построим эконометрическую модель.

Процесс построения модели будет состоять из следующих этапов:

I.	Сбор исходных данных.
II.	Анализ данных, выбор факторов и формы модели.
III.	Построение модели.
IV.	Оценка качества модели.

1.2 Сбор данных, оформление таблицы данных по всем показателям.

Для исследования были использованы данные из книги Макконела и Брю «Экономикс»:

Т	Y	X1	X2	X3
Годы	Расходы на личное потребление (млрд. $)	Валовой внутренний продукт (млрд. $)	Валовой объем внутренних частных инвестиций (млрд. $)	Личный доход (млрд. $)
1939	67,2	92	9,3	73,1
1940	71,2	101,3	13,6	78,6
1942	88,9	161,8	10,4	123,8
1944	108,5	219,7	7,8	166,3
1946	144,2	222,3	31,1	179,5
1948	175,4	269,6	48,1	211,1
1950	192,7	294,3	54,1	229,9
1952	219,7	358,6	54	276,1
1954	240,5	381,1	53,8	295,2
1956	271,9	438	72	340
1958	296,6	467,9	64,5	370
1960	332,3	527,4	78,9	412,7
1962	363,8	586,5	88,1	457,9
1964	411,7	664,4	102,1	515,8
1966	481,8	789,3	131,3	606,4
1968	558,7	911,5	141,2	714,5
1970	648,9	1039,7	152,4	841,1
1971	702,4	1128,6	178,2	905,1
1972	770,7	1240,4	207,6	994,3
1973	852,5	1385,5	244,5	1113,4
1974	932,4	1501	249,4	1225,6
1975	1030,3	1635,2	230,2	1331,7
1976	1149,8	1823,9	292	1475,4
1977	1278,4	2031,4	361,3	1637,1
1978	1430,3	2295,9	436	1848,3
1979	1596,3	2566,4	490,6	2081,5
1980	1762,9	2795,6	477,9	2323,9
1981	1944,2	3131,3	570,8	2599,4
1982	2079,3	3259,2	516,1	2768,4
1983	2286,4	3534,9	564,2	2946,9
1984	2498,4	3932,7	735,5	3274,8
1985	2712,6	4213	736,3	3515
1986	2895,2	4452,9	747,2	3712,4
1987	3105,3	4742,5	781,5	3962,5
1988	3356,6	5108,3	821,1	4272,1

Анализ данных и отбор факторов. Выбор формы модели.

Основной задачей является на данном этапе является определения набора факторов, которые буду включены в модель.

Прежде, чем переходить к непосредственному построению модели, необходимо определиться с ее формой, то есть выявить характер воздействия каждого фактора на изменение результативного признака Y. Для этого необходимо построить графики корреляционного поля для каждого из факторов.

Для фактора Х1 этот график имеет следующий вид:

Анализ данного корреляционного поля позволяет принять гипотезу о существовании линейной зависимости.

Построим аналогичные графики для оставшихся факторов.

Для фактора Х2 график будет иметь следующий вид:

Для фактора Х3:

На всех графиках мы видим, что с увеличением каждого фактора X1, Х2, Х3 растет и величина результативного признака Y. Корреляционные поля дают возможность предположить, что существует линейная зависимость, так как все они могут быть аппроксимированы линейной функцией.

Таким образом, в нашем случае, мы будем рассматривать линейную многофакторную модель регрессии. Итак, определившись с формой модели, мы можем перейти к ее построению.

Построение модели регрессии. Количественная оценка параметров регрессии.

Можно предположить, что модель регрессии изучаемого явления будет иметь вид:

= + x1 + x2 + x3

где

, , , – коэффициенты регрессии,

– располагаемый доход,

x1, x2, x3, – факторы, влияющие на Y

Поскольку выбранная нами модель является линейной относительно параметров, то для количественной оценки параметров мы будем применять метод наименьших квадратов.

С помощью программы Microsoft Excel находим коэффициенты регрессии.

	Коэффициенты
Y-пересечение	-14,08895774
Переменная X 1	0,433252671
Переменная X 2	-0,481615388
Переменная X 3	0,354804103

Подставив их в модель, получаем:

= -14,09 + 0,43 x1 - 0,48x2 + 0,35 x3

Проведем качественный анализ коэффициентов регрессии и дадим интерпретацию каждого из параметров:

= 0,43 – коэффициент регрессии, показывающий, на сколько млрд. долл. увеличится объем расходов на личное потребление американских граждан при увеличении ВВП на 1 млрд. долл. при условии, что остальные факторы остаются неизменными.

= -0,48 – коэффициент регрессии, который показывает, на сколько млрд. долл. уменьшится объем расходов на личное потребление американских граждан при увеличении валового объема частных инвестиций на 1 млрд. долл. при условии, что остальные факторы остаются неизменными.

= 0,35 – коэффициент регрессии, который показывает, на сколько млрд. долл. возрастет располагаемый доход американских граждан при увеличении их личного дохода на 1 млрд. долл. при условии, что остальные факторы остаются неизменными.

Оценка качества модели

Необходимо осуществить проверку качества полученной модели регрессии для того, чтобы узнать, соответствует ли она основным предпосылкам регрессионного анализа, а также для проверки адекватности модели. Проверка качества модели проходит в несколько этапов:

I. Проверка качества параметров регрессии.

II. Проверка качества модели в целом.

III. Анализ остатков.

I. Проверка качества параметров регрессии

Оценка качества параметров регрессии предполагает проверку статистических гипотез относительно свойств регрессионной модели. На основе построенной по выборочным данным регрессионной модели можно проверить гипотезу H0 о равенстве коэффициента регрессии генеральной совокупности нулю, т.е. об отсутствии регрессии Y на Xi в генеральной совокупности.

Вводим гипотезы:

H0:

H1: (при α = 0,05)

Проверку гипотезы H0 осуществляем с помощью критерия t, которая является независимой случайной величиной, распределенной по закону Стьюдента. На основе данных регрессионной модели рассчитывается t-статистика:

где – стандартная ошибка параметра

Построим доверительный интервал для коэффициента регрессии:

Составим таблицу по данным, полученным с помощью Microsoft Excel:

	Коэффициенты	Стандартная ошибка	t-набл	t-табл (при α=0,05, n-k-1=31)	Левая граница дов. инт.	Правая граница дов. инт.
Переменная X1	0,433252671	0,169291722	2,559207654	2,04	0,087979929	0,778525414
Переменная X2	-0,481615388	0,15655447	-3,07634389	2,04	-0,80091033	-0,16232044
Переменная X3	0,354804103	0,185656407	1,911079222	2,04	-0,02384463	0,733452841

Для коэффициентов и |t набл |>|t табл| и не попадает в доверительный интервал, поэтому нет оснований для принятия гипотезы Н0 и мы принимаем альтернативную гипотезу. Получаем, что при уровне значимости α = 0,05 отличие от нуля коэффициентов и не случайно. Значит, факторы Х1 и Х2 оказывает статистически значимое влияние на Y и их следует оставить в модели.

Что касается коэффициента , то здесь |t набл | < |t табл|, и попадает в доверительный интервал. Таким образом, гипотеза Н0 принимается. Это означает, что при уровне значимости α = 0,05 коэффициент существенно не отличается от нуля. Поэтому фактор Х3 не оказывает статистически значимого влияния на Y.

Получаем, что личный доход не оказывает существенного воздействия на изменение расходов на личное потребление. Следовательно, этот фактора необходимо исключить из модели и проанализировать изменение качества модели в целом.

Проверка качества модели в целом

Проверка качества модели в целом позволяет нам оценить совместное влияние всех факторов, включенных в модель, на результативный признак.

Для проверки качества модели в целом, оценки того, насколько хорошо данная модель описывает фактические данные (вариацию результативного признака Y), используется дисперсионный анализ, на основе которого рассчитывается коэффициент детерминации R2.

Показатель R2 показывает, какую долю общей вариации составляет объясненная регрессией вариация, он служит показателем качества модели.

Этот коэффициент рассчитывается по формуле:

По результатам расчетов в Microsoft Excel R2 = 0,9995.

Принимаем нулевую гипотезу с уровнем значимости α = 0,05 о том, что все факторы, включенные в модель, совместно не оказывают влияния на изменение результативного признака в генеральной совокупности. Принимаем также альтернативную ей гипотезу.

H0:

H1:

Проверка гипотезы осуществляется с помощью критерия Фишера, который рассчитывается по формуле:

Получаем Fнабл = 508, 93

Fтабл(α=0,05; 31; 3)= 3,17

Fнабл> Fтабл, поэтому нет оснований для принятия гипотезы H0.

Следовательно, при уровне значимости α = 0,05 все факторы, включенные в модель, совместно оказывают статистически значимое влияние на изменение Y. То есть изменение расходов на личное потребление на 99 % определяется учтенными факторами.

Однако, как мы выяснили, в модель включен один статистически незначимый фактор – Х3, поэтому, несмотря на высокий R2, данную модель нельзя использовать для прогнозов, а данный фактор необходимо удалить из модели.

Исключение статистически незначимого фактора из модели. Проверка качества новой модели.

Удалим из модели Х3, пересчитаем коэффициенты регрессии и рассмотрим качество получившейся модели.

Двухфакторная модель с исключенным фактором Х2 примет вид:

= + x1 + x2

Для количественной оценки параметров регрессии применяем метод наименьших квадратов.

Находим коэффициенты регрессии с помощью Microsoft Excel и подставляем их в модель.

	Коэффициенты
Y-пересечение	-26,0332689
Переменная X 1	0,753408323
Переменная X 2	-0,610844734

Получаем, что наша модель принимает следующий вид:

= - 26,03 + 0,75x1 - 0,61x2

Оценим качество полученной модели.

I. Проверка качества параметров регрессии.

Вводим гипотезы:

H0:

H1: (α = 0,05)

Проверку гипотезы H0 осуществляем с помощью критерия Стьюдента.

На основе данных регрессионной модели рассчитывается t-статистика:

где – стандартная ошибка параметра

Построим доверительный интервал для коэффициента регрессии:

По данным Microsoft Excel для новой модели составим таблицу:

	Коэффициенты	Стандартная ошибка	t-набл	t-табл (при α=0,05, n-k-1=31)	Левая граница дов. инт.	Правая граница дов. инт.
Переменная X1	0,753408323	0,025376799	29,68886367	2,04	0,701717475	0,80509917
Переменная X2	-0,610844734	0,146932216	-4,15732335	2,04	-0,91013586	-0,31155360

Для обоих коэффициентов и |t набл |>|t табл| и не попадает в доверительный интервал, поэтому нет оснований для принятия гипотезы Н0 и принимается альтернативная гипотеза. Это означает, что при уровне значимости α = 0,05 отличие от нуля всех коэффициентов в новой модели не случайно. Следовательно, факторы X1 и X2 оказывают статистически значимое влияние на Y и их следует оставить в модели.

II. Проверка качества модели в целом.

Для оценки того, насколько хорошо данная модель описывает фактические данные (вариацию результативного признака Y), снова используем коэффициент детерминации R2, вычисляемый по формуле

Согласно расчетам Microsoft Excel, коэффициент детерминации R2 почти не уменьшился (с 0,999542 до 0,999538). Это еще раз подтверждает незначительность исключенного фактора для модели в целом.

Для оценки качества модели в целом выдвигаем гипотезу H0 (о незначимости всех факторов на изменение Y) и альтернативную:

H0:

H1: (α = 0,05)

Проверка гипотезы осуществляется с помощью критерия Фишера, который рассчитывается по формуле:

Получаем Fнабл = 788,02

Fтабл(α=0,05; 31; 2)= 3,26

Fнабл> Fтабл, поэтому нет оснований для принятия гипотезы H0.

Следовательно, при уровне значимости α = 0,05 все факторы, включенные в модель, совместно оказывают статистически значимое влияние на изменение Y. То есть изменение расходов на личное потребление более, чем на 99 % определяется учтенными факторами.

Как мы выяснили показатель R2 практически не изменился, что дает нам основание для принятия новой модели, поскольку она содержит меньшее число факторов. При этом все коэффициенты двухфакторной модели статистически значимы, а сама модель адекватна и может быть использована для последующего анализа и прогнозирования после анализа остатков.

Поскольку проверка качества модели была основана на предположении о независимости нормально распределенных остатков, необходимо проверить правильность данного предположения.

III. Анализ остатков

Качество остатков имеет большое значение для построения модели регрессии, т. к. полученные нами оценки будут являться эффективными, несмещенными и состоятельными, если удовлетворены все требования к остаткам. Существуют два основных условий для остатков, которые должны быть соблюдены:

Во-первых, дисперсия остатков должна быть постоянной (должна быть гомоскедастичность остатков), иначе в модели будет иметь место гетероскедастичность (ошибки будут не коррелированны, но при этом с непостоянными дисперсиями). Условие гомороскедастичности проверяется с помощью тестов Голдфельда-Кванта и Уайта.

Во-вторых, между остатками не должно быть автокорреляции, т. к. по теореме Гаусса-Маркова для эффективности, несмещенности и состоятельности полученных оценок необходимо, чтобы не было корреляции между последующими значениями остатков.

Проводим графический анализ остатков, отражающий зависимость остатков от каждого из факторов и проанализируем отклонения остатков.

Проанализировав данные графики, можно сделать вывод о том, что остатки меняются случайным образом и не зависят от значения параметра.

Тем не менее проведем проверку на наличие гетероскедастичности и автокорреляции в остатках с помощью тестов Голдфельда-Кванта, Уайта и Дарбина-Уотсона.

Проверим наличие гетероскедастичности в модели с помощью теста Голдфельда-Кванта

Если графический анализ остатков указывает на возможную неоднородность дисперсий ошибок , то наблюдения упорядочивают в порядке предполагаемого возрастания дисперсий случайных ошибок. Затем отбрасывают r центральных наблюдений (для более надежного разделения групп с малыми и большими дисперсиями случайных ошибок), так что для дальнейшего анализа остается n-r наблюдений. Далее производят оценивание выбранной модели отдельно по первым и по последним наблюдениям; вычисляют отношение остаточных сумм квадратов.

При принятии решения учитывается, что если , (дисперсии однородны) и выполнены остальные стандартные предположения о модели наблюдений, включая предположение о нормальности ошибок, то тогда отношение

имеет F— распределение Фишера с и степенями свободы.

Пусть мы предположили, что существует фактор, который вызывает гетероскедастичность (фактор X2 - валовой объем внутренних частных инвестиций)

Упорядочиваем всю таблицу в порядке возрастания данных по валовому объему внутренних частных инвестиций:

Т	Y	X1	X2	X3
Годы	Расходы на личное потребление (млрд. $)	Валовой внутренний продукт (млрд. $)	Валовой объем внутренних частных инвестиций (млрд. $)	Личный доход (млрд. $)
1944	108,5	219,7	7,8	166,3
1939	67,2	92	9,3	73,1
1942	88,9	161,8	10,4	123,8
1940	71,2	101,3	13,6	78,6
1946	144,2	222,3	31,1	179,5
1948	175,4	269,6	48,1	211,1
1954	240,5	381,1	53,8	295,2
1952	219,7	358,6	54	276,1
1950	192,7	294,3	54,1	229,9
1958	296,6	467,9	64,5	370
1956	271,9	438	72	340
1960	332,3	527,4	78,9	412,7
1962	363,8	586,5	88,1	457,9
1964	411,7	664,4	102,1	515,8
1966	481,8	789,3	131,3	606,4
1968	558,7	911,5	141,2	714,5
1970	648,9	1039,7	152,4	841,1
1971	702,4	1128,6	178,2	905,1
1972	770,7	1240,4	207,6	994,3
1975	1030	1635,2	230,2	1331,7
1973	852,5	1385,5	244,5	1113,4
1974	932,4	1501	249,4	1225,6
1976	1150	1823,9	292	1475,4
1977	1278	2031,4	361,3	1637,1
1978	1430	2295,9	436	1848,3
1980	1763	2795,6	477,9	2323,9
1979	1596	2566,4	490,6	2081,5
1982	2079	3259,2	516,1	2768,4
1983	2286	3534,9	564,2	2946,9
1981	1944	3131,3	570,8	2599,4
1984	2498	3932,7	735,5	3274,8
1985	2713	4213	736,3	3515
1986	2895	4452,9	747,2	3712,4
1987	3105	4742,5	781,5	3962,5
1988	3357	5108,3	821,1	4272,1

Делим весь ряд наблюдений на 3 части (средняя часть r=5; 1-я и 3-я части равны между собой =15)

Т	Y	X1	X2	X3
Годы	Расходы на личное потребление (млрд. $)	Валовой внутренний продукт (млрд. $)	Валовой объем внутренних частных инвестиций (млрд. $)	Личный доход (млрд. $)
1944	108,5	219,7	7,8	166,3
1939	67,2	92	9,3	73,1
1942	88,9	161,8	10,4	123,8
1940	71,2	101,3	13,6	78,6
1946	144,2	222,3	31,1	179,5
1948	175,4	269,6	48,1	211,1
1954	240,5	381,1	53,8	295,2
1952	219,7	358,6	54	276,1
1950	192,7	294,3	54,1	229,9
1958	296,6	467,9	64,5	370
1956	271,9	438	72	340
1960	332,3	527,4	78,9	412,7
1962	363,8	586,5	88,1	457,9
1964	411,7	664,4	102,1	515,8
1966	481,8	789,3	131,3	606,4
1968	558,7	911,5	141,2	714,5
1970	648,9	1039,7	152,4	841,1
1971	702,4	1128,6	178,2	905,1
1972	770,7	1240,4	207,6	994,3
1975	1030	1635,2	230,2	1331,7
1973	852,5	1385,5	244,5	1113,4
1974	932,4	1501	249,4	1225,6
1976	1150	1823,9	292	1475,4
1977	1278	2031,4	361,3	1637,1
1978	1430	2295,9	436	1848,3
1980	1763	2795,6	477,9	2323,9
1979	1596	2566,4	490,6	2081,5
1982	2079	3259,2	516,1	2768,4
1983	2286	3534,9	564,2	2946,9
1981	1944	3131,3	570,8	2599,4
1984	2498	3932,7	735,5	3274,8
1985	2713	4213	736,3	3515
1986	2895	4452,9	747,2	3712,4
1987	3105	4742,5	781,5	3962,5
1988	3357	5108,3	821,1	4272,1

Теперь строим регрессии для 1 и 3 части и находим сумму квадратов остатков.

Вывод остатка 1 части
Наблюдение	Предсказанное Y	Остатки	Квадрат остатков
1	37,59944076	29,60055924	876,1931071
2	41,97950581	29,22049419	853,8372808
3	89,51541248	-0,61541248	0,378732521
4	134,7259507	-26,22595067	687,8004887
5	122,45213	21,74786999	472,9698492
6	147,7039832	27,69601681	767,069347
7	162,6481004	30,05189964	903,116672
8	211,15334	8,546660019	73,04539747
9	228,2271962	12,27280381	150,6217134
10	259,9787556	11,92124441	142,1160683
11	287,0869999	9,513000056	90,49717006
12	323,118631	9,181369026	84,29753719
13	362,0252913	1,774708708	3,149590999
14	412,1639734	-0,463973353	0,215271272
15	488,4280066	-6,628006623	43,93047179
			5149,238698

Вывод остатка 3 части
Наблюдение	Предсказанное Y	Остатки	Квадрат остатков
1	952,4879468	-20,08794679	403,5256063
2	1065,323563	-35,02356259	1226,649937
3	1169,741509	-19,94150852	397,663762
4	1283,742195	-5,342195407	28,53905177
5	1437,388595	-7,088595126	50,24818086
6	1607,833424	-11,53342394	133,0198677
7	1788,27234	-25,37233962	643,7556177
8	1984,444038	-40,24403775	1619,582575
9	2114,218169	-34,91816918	1219,278539
10	2292,551212	-6,151212035	37,8374095
11	2487,61934	10,78066014	116,222633
12	2698,311017	14,28898308	204,1750374
13	2872,395466	22,80453406	520,0467739
14	3069,630542	35,66945819	1272,310248
15	3321,037855	35,56214522	1264,666173
			9137,52141

Итак, принимаем гипотезу о том, что

H0: , т.е. разброс остатков постоянен

Альтернативная гипотеза

H1:

Проверяем с помощью критерия Фишера

Где k-размер выборки

m-число факторов

Fнабл=2,65

Fтабл(0,05; k-m-1; k-m-1) =3,52

Итак, Fнабл <Fтабл – нет оснований для отвержения гипотезы об отсутствии гетероскедастичности и постоянстве дисперсии. Можно утверждать, что данная модель – модель с гомоскедастичностью.

Рассмотрим теперь тест Уайта

Тест Уайта используется для проверки однородности дисперсий ошибок в модели наблюдений.

а) Строим регрессию для исходной модели и находим квадраты остатков.

б) Строим регрессию для квадрата остатков (модель имеет следующий вид):

Вводим гипотезы

H0: , т.е. факторы не влияют на квадрат остатков исходной модели

H1:

Найдем с помощью критерия Фишера

Если выполнены все стандартные предположения о модели наблюдений, то тогда отношение

имеет F— распределение Фишера с и степенями свободы.

Итак, Fнабл=2,13

Fтабл(0,05; 31; 4)=2,18223

Поскольку Fнабл<Fтабл, то нет оснований отвергать гипотезу H0 об отсутствии гетероскедастичности.

Критерий Уайта

Если выполнены все стандартные предположения о модели наблюдений, то тогда

имеет распределение χ²

Где n – число наблюдений

А N – число регрессоров в модели (здесь – 14)

χ²= 53,67196 (при α=0,05)

Поскольку , то нет оснований отклонять гипотезу H0 об отсутствии гетероскедастичности.

Итог: поскольку выполняются критерии Уайта и Голдфельда-Кванта можно утверждать, что в данной модели отсутствует гетероскедастичность и дисперсия остатков постоянна.

Теперь проверим наличие автокорреляции остатков с помощью критерия Дарбина-Уотсона.

Критерий Дарбина-Уотсона применяется для проверки гипотезы о наличии автокорреляции в остатках генеральной совокупности.

Коэффициент Дарбина-Уотсона находится как

Выдвигаем гипотезы

H0: , т. е. не существует автокорреляция остатков

Альтернативная гипотеза

H1:

Для сравнения табличных значений и расчетных строится специальная схема,

Статистика DW может принимать значения только от 0 до 4:

 При попадании найденного значения DW в отрезок от 0 до dL имеет место положительная автокорреляция остатков.

 При попадании найденного значения DW в отрезок от 4-dL для модели характерна отрицательная автокорреляция остатков

 При попадании найденного показателя в отрезок от dU до 4-dU можно говорить о том, что отсутствует автокорреляция в остатках.

Строим схему для нашего случая (n=35, 5% уровень значимости)

Поскольку найденное значение попадает в интервал (1,73;2,27), то можно утверждать, что в модели отсутствует автокорреляция остатков.

Благодаря проведенному анализу мы выяснили, что найденные нами оценки являются эффективными, состоятельными и несмещенными, поскольку удовлетворяются требования к остаткам об отсутствии автокорреляции и гетероскедастичности.

Тест Чоу

Проверка Чоу позволяет ответить на вопрос, можно ли считать наборы параметров регрессионных уравнений (константа, регрессия), построенные для разных групп наблюдений, одинаковыми. Он применяется, когда возникает сомнение в том, что при всех наблюдениях параметры неизменны.

Исследуем для нашей модели влияние валового объема внутренних частных инвестиций на расходы на личное потребление в зависимости от валового внутреннего продукта.

Группируем валовой внутренний продукт по объему на две группы: меньше и больше 1200 млрд. $.

Годы	Расходы на личное потребление (млрд. $)	Валовой внутренний продукт (млрд. $)	Валовой объем внутренних частных инвестиций (млрд. $)	Личный доход (млрд. $)
1939	67,2	92	9,3	73,1
1940	71,2	101,3	13,6	78,6
1942	88,9	161,8	10,4	123,8
1944	108,5	219,7	7,8	166,3
1946	144,2	222,3	31,1	179,5
1948	175,4	269,6	48,1	211,1
1950	192,7	294,3	54,1	229,9
1952	219,7	358,6	54	276,1
1954	240,5	381,1	53,8	295,2
1956	271,9	438	72	340
1958	296,6	467,9	64,5	370
1960	332,3	527,4	78,9	412,7
1962	363,8	586,5	88,1	457,9
1964	411,7	664,4	102,1	515,8
1966	481,8	789,3	131,3	606,4
1968	558,7	911,5	141,2	714,5
1970	648,9	1039,7	152,4	841,1
1971	702,4	1128,6	178,2	905,1
Годы	Расходы на личное потребление (млрд. $)	Валовой внутренний продукт (млрд. $)	Валовой объем внутренних частных инвестиций (млрд. $)	Личный доход (млрд. $)
1972	770,7	1240,4	207,6	994,3
1973	852,5	1385,5	244,5	1113,4
1974	932,4	1501	249,4	1225,6
1975	1030,3	1635,2	230,2	1331,7
1976	1149,8	1823,9	292	1475,4
1977	1278,4	2031,4	361,3	1637,1
1978	1430,3	2295,9	436	1848,3
1979	1596,3	2566,4	490,6	2081,5
1980	1762,9	2795,6	477,9	2323,9
1981	1944,2	3131,3	570,8	2599,4
1982	2079,3	3259,2	516,1	2768,4
1983	2286,4	3534,9	564,2	2946,9
1984	2498,4	3932,7	735,5	3274,8
1985	2712,6	4213	736,3	3515
1986	2895,2	4452,9	747,2	3712,4
1987	3105,3	4742,5	781,5	3962,5
1988	3356,6	5108,3	821,1	4272,1

Далее мы находим регрессию для каждой модели и ищем

S1=396554,2

S2= 73002,24

Выдвигаем гипотезы

H0: , т.е. нет разницы между отрезками

H1:

Критерий Фишера

Итак,

F=1,114

Если выполнены все стандартные предположения о модели наблюдений, то тогда отношение

имеет F— распределение Фишера с и степенями свободы.

Fтабл (0,05; 25; 5)=2,37

Т.к Fнабл <Fтаб, нет оснований для отвержения гипотезы H0, значит, в зависимости от расстояния влияние остальных факторов не изменяется

Мы провели анализ модели, разделив исходную выборку на части, и приняли гипотезу о том, что при увеличении расстояния влияние остальных факторов на величину изучаемого явления неизменно.

На данном этапе мы проанализировали качество модели:

 Добились того, что все факторы в нашей модели оказывают статистически значимое влияние на величину изучаемого явления (личное потребление);

 Выяснили, что модель является адекватной, поскольку все включенные в модель факторы совместно оказывают статистически значимое влияние на изменение Y;

 После анализа остатков обнаружили, что для данной модели выполняются все требования к остаткам, а именно: отсутствие гетероскедастичности и автокорреляции остатков;

 С помощью теста Чоу мы подтвердили наше предположение о том, что наборы параметров регрессионных уравнений, построенные для разных групп наблюдений, можно считать одинаковыми.

Можно утверждать, что данная модель является адекватной, качество модели удовлетворяет и ее можно использовать для анализа и прогнозирования.

Регрессионная статистика
Множественный R	0,999771083
R-квадрат	0,999542218
Нормированный R-квадрат	0,999497917
Стандартная ошибка	22,12625828
Наблюдения	35

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия	3	33137540,23	11045846,74	22562,28382	7,90717E-52
Остаток	31	15176,71047	489,5713054
Итого	34	33152716,94

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%	Нижние 95,0%	Верхние 95,0%
Y-пересечение	84,50779215	37,94240843	2,227264838	0,033326323	7,123740279	161,891844	7,123740279	161,891844
Переменная X 1	0,441873224	0,195048302	2,265455369	0,030619062	0,04406959	0,839676857	0,04406959	0,839676857
Переменная X 2	-0,602774728	0,256443222	-2,350519247	0,025288233	-1,12579412	-0,079755331	-1,12579412	-0,07975533
Переменная X 3	0,260911156	0,228160374	1,143542811	0,26156747	-0,20442499	0,726247306	-0,20442499	0,726247306

Приложение

Регрессионный анализ первоначальной модели

Регрессионный анализ новой модели

Регрессионная статистика
Множественный R	0,999769022
R-квадрат	0,999538098
Нормированный R-квадрат	0,999509229
Стандартная ошибка	21,87557505
Наблюдения	35

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия	2	33137403,63	16568701,82	34623,38503	4,29336E-54
Остаток	32	15313,30509	478,540784
Итого	34	33152716,94

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%	Нижние 95,0%	Верхние 95,0%
Y-пересечение	-26,0332689	5,639241808	-4,616448413	6,037E-05	-37,5200285	-14,5465092	-37,52	-14,5465
Переменная X 1	0,753408323	0,025376799	29,68886367	7,32588E-25	0,701717475	0,80509917	0,701717	0,805099
Переменная X 2	-0,610844734	0,146932216	-4,157323354	0,000224656	-0,91013586	-0,31155360	-0,91014	-0,31155

Информация о работе Построение многофакторной регрессионной модели