Проведение корреляционного и регрессионного анализа зависимости товарооборота от торговой площади и среднего в день числа посетителей

Автор работы: Пользователь скрыл имя, 09 Декабря 2012 в 18:37, лабораторная работа

Краткое описание

Цель самостоятельной работы: практическое изучение и применение основных методов корреляционного и регрессионного анализа.
Объект исследования: товарооборот 12 магазинов.

Прикрепленные файлы: 1 файл

kursach.doc

— 260.00 Кб (Скачать документ)

МИНИСТЕРСТВО НАУКИ  И ОБРАЗОВАНИЯ

РОССИЙСКОЙ ФЕДЕРАЦИИ

Федеральное государственное  бюджетное образовательное   учреждение высшего профессионального образования

«Рязанский  государственный радиотехнический университет»

 

Кафедры «Эконометрики и математического моделирования»

 

Лабораторная  работа

по дисциплине

«Эконометрика»

 

на тему:

«Проведение корреляционного и регрессионного анализа зависимости товарооборота от торговой площади и среднего в день числа посетителей»

 

 

 

 

 

Выполнила:

Студентка группы 976

Кочеткова А.В.

Проверил:

профессор Чураков Е.П.

 

 

 

 

Рязань 2011

Тема самостоятельной работы: проведение корреляционного и регрессионного анализа зависимости товарооборота от торговой площади и среднего в день числа посетителей.

 

Цель самостоятельной  работы: практическое изучение и применение основных методов корреляционного и регрессионного анализа.

 

Объект исследования: товарооборот 12 магазинов.

 

Исходные данные к работе:

 

Даны экспериментальные данные:

 



 

 

 

 

 

Годовой товарооборот магазинов (в  млн.р.)

 

 

 

 

 

 

 

 



 

 

 

 

 

Торговая площадь (тыс.кв.м.)

 

 

 

 

 

 

 

 



 

 

 

 

 

 

 

Среднее в день число посетителей (тыс.чел.)

 

 

 

 

 

 

 

Регрессионная модель, используемая в процессе выполнения работы

 

Y= 0+ 1X1+ 2X2+ 3X1X2+e , где

 

Y –товарооборот; X1 –торговая площадь; X2 – среднее число посетителей;

i, i=0, 1, 2, 3, – параметры регрессии, e – стохастическая составляющая, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии.[1]

 

 

 

 

Выполнение  работы.

 

Диаграмма рассеивания  – это совокупность точек с  координатами xi и y в системе координат OXY.

 

Построим диаграмму  рассеяния показателей годового товарооборота (Y) в зависимости от торговой площади (X1).

 

Построим диаграмму  рассеяния показателей годового товарооборота (Y) в зависимости от среднего числа посетителей (X2).

 

 

На основании диаграмм можно сделать вывод, что величины X1 и Y, X2 и Y связаны линейно-функциональной зависимостью.

Проверяем наличие зависимости  переменной Y от аргументов X1, X2. Для упрощения анализа на начальном этапе исследования выявляем наличие этой зависимости  отдельно по каждой экзогенной переменной  X1, X2.  Соответствующий анализ проводится по следующей схеме.

Находим средние значения товарооборота магазинов, торговой площади и среднего числа покупателей.



 

, где n – количество магазинов

 



 



 

 

 

где y – среднее значение товарооборота магазина

 





 

 

 

где X1 – среднее значение торговой площади

 





 

 

 

 

где X2 – среднее значение числа покупателей в день

 

 

На основании экспериментальных  данных находятся эмпирические (выборочные) коэффициенты парной корреляции r1 и r2 эндогенной переменной  Y с каждой из экзогенных переменных X1 и X2 :

 



 

                 



 

 

 

 





 

 

 

 

 

 

 

Линейный коэффициент  корреляции находится в пределах: . Чем ближе абсолютное значение к единице, тем сильнее линейная связь между факторами, чем ближе к 0, тем связь слабее. [1] Степень тесноты линейной связи оценивают с помощью шкалы Чеддока:

Коэффициент корреляции

0

(0;0,3]

(0,3;0,5]

(0,5;0,7]

(0,7;0,9]

(0,9;1]

1

Теснота 
линейной связи

линейной  
связи нет

слабая

умеренная

заметная

сильная

весьма  
сильная

функциональная


 

В нашем случае r1 показывает, что теснота линейной связи весьма сильная, а r2 показывает, что теснота заметная.

С помощью вычисленных  эмпирических коэффициентов корреляции находим соответствующие значения случайной величины

 



 



 

 

 

 



 

 



 

 

 

 

 

распределенной по закону Стьюдента с n-2 степенями свободы и используемой для выявления значимости каждого из парных коэффициентов корреляции. Для анализа значимости  задаем доверительной вероятностью 1-a=0,95 и находим  100a/2-процентную точку w100a/2 распределения Стьюдента с n-2 степенями свободы.

 

w100a/2 точку можно найти с помощью функции:

 

 



 

 

Рассчитав w100a/2 точку, мы видим, что выполняется условие >w100a/2, это дает нам право с вероятностью ошибиться a=0,05 ошибиться отвергнуть гипотезу об отсутствии корреляционной связи между величинами Y и X1, Y и X2 как не соответствующую экспериментальным данным, а соответствующий выборочный коэффициент корреляции r1 и r2 признать значимым.

 

Построим доверительные  интервалы для истинных коэффициентов корреляции r1 и r2 с доверительной вероятностью 1-a

 

tаnhck<ryk£tanhdk                           (1)

 

Таким образом, для построения интервала (1) следует задаться доверительной вероятностью 1-a , найти по эмпирическим данным коэффициент r1 и r2 , выявляем квантиль т. е. а/2-квантиль стандартного гауссовского распределения N (0, 1), рассчитываем Ck и Dk и, наконец, находим границы интервала tanh C, tanh D.

 









 

 

 

 

 

 





 

 

 





 

Построим доверительные интервалы для истинных коэффициентов корреляции r1 и r2 с доверительной вероятностью 1-a

 tanhck<ryk£tanhdk,  k=1,2



 

 



        

 

 



 



      

 

 

Получаем, что с доверительной  вероятностью 0,95  Ψyk  (0,895;0,992] ; 

Ψyk  (0,18;0,903]

Ψyk  - истинный коэффициент корреляции.

Символами tanhcи tanhdk обозначены гиперболические тангенсы, которые можно рассчитать по формуле.   

  



 

 

 

Найдем ua/2 квантиль стандартного гауссова распределения N(0, 1)

 





 

 

 

При условии устранения из парных выборочных коэффициентов корреляции влияния мешающего параметра, соответствующего этому коэффициенту парной корреляции рассчитываем эмпирический коэффициент корреляции r12=r21 между экзогенными переменными X1 и X2.

 





 

 

 

 

 

 

 





 

 

 

 

 

 

 

Находим очищенные от влияния мешающей экзогенной переменной частные эмпирические коэффициенты корреляции с1 и с2 эндогенной и экзогенных переменных.

 





 

 

 

 





 

 

 

 

 

Выполняем проверку гипотезы   H0 о некоррелированности эндогенной и экзогенных переменных (истинный коэффициент частной корреляции равняется нулю). При вычислении критических точек объем n выборки следует заменить на n-(s-1) , где s=2 – количество экзогенных переменных.

s -1 – мешающий параметр.

Находим соответствующие  значения случайной величины распределенной по закону Стьюдента и используемой для выявления значимости каждого из парных коэффициентов корреляции.

 





 

 

 

 

 





 

 

 

 

 

Построим доверительные  интервалы для истинных коэффициентов корреляции r1 и r2 с доверительной вероятностью 1-a

 









 

 

 

 









 

 

 

 

 

 

Построим доверительные  интервалы для истинных коэффициентов корреляции r1 и r2 с доверительной вероятностью 1-a

 

tanhck<ryk£tanhdk,  k=1,2

 



 

 



 

 



 



 

 

 

Получаем, что с доверительной  вероятностью  0,95  Ψyk (0,886;0,992] ; 

Ψyk  (0,139;0,91]

Ψyk  - истинный коэффициент корреляции.

Сопоставив результаты до и после замены объема выборки  на n-1, что полученные значения стали меньше, а значит стали более точными.

Используя метод наименьших квадратов, найдем МНК–оценку a1 вектора регрессионных параметров a.

 

    вектор-столбец оценок  регрессионных параметров

 







 

 

 

 

 

 

 

 

 

 

 

 

 

 

Используя регрессионную модель  Y= 0+ 1X1+ 2X2+ 3X1X2+e, построим

 

 



 

 

 

 

 

 

 

 

 

 

 

 

 

Используя метод наименьших квадратов, найдем МНК–оценку a1 вектора регрессионных параметров a. Оценка находится из условия

 

 

И определяется соотношениями

 



 

 



 

 

 

 

 

 



Определим величину v, являющуюся мерой разброса экспериментальных данных Yi относительно значений, “предсказанных” регрессионной моделью (оценка дисперсии стохастической составляющей в составе экспериментальных данных).

 

 



 



 

 

 

 

где m+1 – размерность вектора а, значит m=3

 



Di- i-й компонент вектора D=Xa1

 

 

Вычислим коэффициент детерминации К. Долю дисперсии, которая обусловлена регрессией, в общей дисперсии показателя Y характеризует коэффициент детерминации К. Коэффициент детерминации изменяется в диапазоне от 0 до 1. Если он равен 0, это означает, что связь между переменными регрессионной модели отсутствует, и вместо нее для оценки значения выходной переменной можно с таким же успехом использовать простое среднее ее наблюдаемых значений. Напротив, если коэффициент детерминации равен 1, это соответствует идеальной модели, когда все точки наблюдений лежат точно на линии регрессии, т.е. сумма квадратов их отклонений равна 0. На практике, если коэффициент детерминации близок к 1, это указывает на то, что модель работает очень хорошо (имеет высокую значимость), а если к 0, то это означает низкую значимость модели, когда входная переменная плохо "объясняет" поведение выходной, т.е. линейная зависимость между ними отсутствует. Очевидно, что такая модель будет иметь низкую эффективность. [5]

 

 



 

 



               

 

 

 

 

В нашем случае коэффициент детерминации равен 0,988, а это значит, что модель работает эффективно.

 

Подтвердим более тщательным образом  наличие зависимости товарооборота от величины торговой площади и числа посетителей. Для этого вычислим величину распределенную по закону Фишера с m степенями свободы числителя и n-m-1 степенями свободы знаменателя.

 





 

 

 

Пусть w100a – 100a% -я точка F-распределения с числом степеней свободы числителя m и знаменателя n-m-1, которая находится

Информация о работе Проведение корреляционного и регрессионного анализа зависимости товарооборота от торговой площади и среднего в день числа посетителей