Линейная модель парной регрессии
Доклад, 16 Апреля 2013, автор: пользователь скрыл имя
Краткое описание
Эконометрика – это наука, изучающая конкретные количественные и качественные взаимосвязи экономических объектов и процессов с помощью математических и статистических методов и моделей. (Большой Энциклопедический Словарь – М., БРЭ, 1977)
Эконометрические методы – это, прежде всего, методы статистического анализа конкретных экономических данных.
Прикрепленные файлы: 1 файл
PRAKTIKUM_PO_EKONOMETRIKE.doc
— 400.50 Кб (Скачать документ)Оценка значимости уравнения в целом дается с помощью F – критерия Фишера. При этом выдвигается нулевая гипотеза, что коэффициент регрессии равен нулю, т.е. H0 : β1=0, следовательно, фактор не оказывает влияния на результат.
Непосредственному расчету F – критерия предшествует анализ дисперсии результативного признака Y. Центральное место в нем занимает разложение общей суммы квадратов отклонений переменной у от среднего значения на две части – «объясненную» и «остаточную» («необъясненную»):
Общая сумма квадратов Сумма квадратов Остаточная сумма
отклонений = отклонений, объясненная + квадратов
Обозначим SSобщ = , SSR = и SSост = .
Любая сумма квадратов отклонений связана с числом степеней свободы df (degree of freedom), т.е. с числом свободы независимого варьирования признака.
Число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант. Число степеней свободы остаточной суммы квадратов при линейной парной регрессии составляет n - 2 , общей суммы квадратов – n -1 и число степеней свободы для факторной суммы квадратов, т. е. объясненной регрессией равно единице. Имеем равенство:
n – 1 = 1+ (n – 2).
Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений или дисперсию на одну степень свободы.
Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F –отношения или F – критерий, статистика которого F при нулевой гипотезе
распределена по закону Фишера со степенями свободы (1, n-2).
Если вычисленное значение F –отношения - F факт при заданном уровне значимости α больше критического (табличного) F табл , т.е.
F факт > F табл = F(α;1,n-2),
то гипотеза Н0 : β1=0 отвергается, признаётся статистическая значимость уравнения регрессии, т.е. связь между рассматриваемыми признаками есть и результаты наблюдений не противоречат предположению о её линейности.
Если F факт < F табл = F(α;1,n-2), то гипотеза Н0 не отвергается, уравнение регрессии считается статистически незначимым.
Критическое значение F табл = F(α;1,n-2), при заданном уровне значимости α и числе степеней свободы 1; n -2 находится по таблицам 1 Приложения.
Оценка значимости уравнения регрессии обычно дается в виде таблицы дисперсионного анализа.
Дисперсионный анализ результатов регрессии
|
Источники вариации |
Число степеней свободы |
Сумма квадратов отклонений |
Дисперсия на одну степень свободы |
F - отношение | |
фактиче- ское |
таблич- ное | ||||
|
Объясненная |
1 |
||||
|
Остаточная |
n– 2 |
F табл = F(α;1,n-2) | |||
|
Общая |
n– 1 |
| |||
Величина F – критерия связана с коэффициентом детерминации R2. Значение F – критерия можно выразить следующим образом:
Для расчёта коэффициента детерминации можно использовать формулу:
Максимальное значение коэффициента R2 равно единице. Это происходит в том случае, когда линия регрессии точно соответствует всем наблюдениям, так что для всех i и все остатки равны нулю.
Если в выборке отсутствует видимая связь между X и Y, то коэффициент детерминации будет близок к нулю.
Легко показать, что принцип минимизации суммы квадратов остатков при выполнении определённых условий эквивалентен минимизации дисперсии остатков, следовательно, автоматически максимизируется коэффициент детерминации.
- С помощью теста Гольдфельда – Квандта исследуйте гетероскедастичность остатков. Сделайте выводы.
Гетероскедастичность остатков – это свойство остатков, которое заключается в том, что их дисперсии или разбросы для каждого фиксированного Х являются неоднородными или неодинаковыми.
Для обнаружения
При малом объёме выборки для оценки гетероскедастичности используют тест Гольдфельда-Квандта, разработанный в 1965г. М.Г. Гольдфельд и Р.Э. Квандт рассмотрели однофакторную линейную модель, для которой дисперсия остатков возрастает пропорционально квадрату фактора, остатки распределены нормально и не подвержены автокорреляции.
- упорядочить все n наблюдений по величине Х;
- исключить из рассмотрения «с» центральных наблюдений;
- оценить МНК отдельные регрессии для первых n1= и последних n2= наблюдений;
Замечание. Мощность критерия зависит от выбора значения n1 и n2 по отношению к n. Обычно выбирают n1 = n2 таким образом, чтобы вся совокупность разделилась на три равные части. Однако М.Г. Гольдфельд и Р.Э. Квандт уточняют это правило и рекомендуют брать значения n1 = n2=11, если n=30 и n1 = n2=22, если n=60 [1].
Выдвигается основная гипотеза H0 об отсутствии гетероскедастичности и формируется статистика критерия F, которая в случае справедливости нулевой гипотезы имеет распределение Фишера-Снедекора соответственно со степенями свободы числителя и знаменателя n2 -2 и n1 -2.
- рассчитать значение критерия Фишера , где и - дисперсии остатков регрессий для первой и последней групп наблюдений соответственно;
- принять статистическое решение:
если F факт > F табл = F(α; n2-2, n1-2), то гипотеза H0 отвергается и с вероятностью 1-α утверждается, что гетероскедастичность остатков является достоверной, в противном случае наличие гетероскедастичности является недоказанной.
- В случае пригодности линейной модели рассчитайте прогнозное значение результата, если значение фактора увеличится на 5% от его среднего уровня. Определите доверительный интервал прогноза для уровня значимости =0,05.
Построенная адекватная модель может использоваться для прогнозирования.
- Точечный прогноз по уравнению регрессии.
Если известно значение независимой переменной хр, то прогноз зависимой переменной осуществляется подстановкой этого значения в полученное эмпирическое уравнение регрессии .
Показателем точности прогноза служит его дисперсия (чем она меньше, тем точнее прогноз):
Подставив вместо её несмещённую оценку , получим выборочную исправленную дисперсию рассматриваемой случайной величины.
Очевидно, что чем больше объем выборки, тем точнее прогноз. При фиксированном объёме выборки прогноз тем точнее, чем больше вариация выборочных данных и чем ближе значение независимой переменной хр к среднему выборочному значению.
- Интервальный прогноз среднего значения по уравнению регрессии.
Доверительный интервал
для М(Y/X=xр) имеет вид:
- Интервальный прогноз индивидуальных значений зависимой переменной. Интервал
определяет границы, за
пределами которых могут
9. Оцените полученные результаты, проинтерпретируйте полученное уравнение регрессии.
Существуют два этапа
интерпретации уравнения
Интерпретация линейного уравнения регрессии.
Можно сказать, что увеличение х на одну единицу (в единицах измерения переменной х) приведёт к увеличению значения y на b1 единиц (в единицах измерения переменной y).
Постоянная b0 дает прогнозируемое значение у (в единицах у), если х=0. Это может иметь или не иметь ясного смысла в зависимости от конкретной ситуации.
Решение с помощью ППП Excel
- Встроенная статистическая функция ЛИНЕЙН определяет параметры выборочного уравнения линейной регрессии .
Порядок вычисления:
- введите исходные данные;
- выделите область пустых ячеек 5х2 (5 строк, 2 столбца) для вывода результатов регрессионной статистики, которая будет выводиться в порядке, указанном в следующей таблице:
Значение коэффициента b1 |
Значение коэффициента b0 |
|
Стандартная ошибка коэффициента b1 – |
Стандартная ошибка коэффициента b0 – |
|
Коэффициент детерминации R2 |
Стандартная ошибка регрессии – |
|
F - статистика |
Число степеней свободы |
Регрессионная сумма квадратов – SSR = |
Остаточная сумма квадратов – SSост = |
- в главном меню выберите ВСТАВКА/ФУНКЦИЯ;
- в окне Категория выберите СТАТИСТИЧЕСКИЕ, в окне Функция – ЛИНЕЙН. Щелкните по кнопке ОК;
- заполните аргументы функции:
Известные_ значения_ у – диапазон, содержащий данные результативного признака;
Известные_ значения _ х – диапазон, содержащий данные факторного признака; Константа – логическое значение, которое указывает на наличие или отсутствие свободного члена в уравнении;
если Константа = 0, то свободный член рассчитывается обычным образом,
если Константа = 1, то свободный член равен 0.
Статистика – логическое значение, которое указывает, выводить дополнительную информацию по регрессионному анализу (Статистика =1) или нет (Статистика =0).
Щелкните по кнопке ОК;
- чтобы раскрыть таблицу 5х2, нажмите на клавишу <F2>, а затем – на комбинацию клавиш <CTRL>+<SHIFT>+<ENTER>.
Выборочное уравнение регрессии нужно записать в общепринятом виде (под коэффициентами в скобках указать их стандартные отклонения).
- С помощью инструмента анализа да
нных Регрессия, помимо результатов регрессионной статистики, дисперсионного анализа и доверительных интервалов, можно получить остатки и графики подбора линии регрессии, остатков и нормальной вероятности.
Порядок действий:
- в главном меню выберите СЕРВИС/ АНАЛИЗ ДАННЫХ / РЕГРЕССИЯ. Щелкните по кнопке ОК;
- заполните диалоговое окно ввода данных: