Исследование зависимости стоимости автомобилей марки LAND CRUISER от различных факторов
Курсовая работа, 02 Мая 2014, автор: пользователь скрыл имя
Краткое описание
Цель работы : Провести анализ зависимости между типом автомобиля и его ценой под воздействием различных характеризующих его факторов.
Содержание
Данные для исследования…………………… ...............................................................3
Глава 1. Изучение зависимости функции от переменных 7
1.1. Облака точек 8
1.2. Построение моделей, описывающих данную зависимость 9
1.3. Исследование факторов на мультиколлинеарность…………………….
Глава 2. Исследование остатков модели
2.1. График остатков
2.2. Нормальное распределение .
2.3. Постоянство дисперсии
2.4. Некоррелированность
Глава 3. Расчет доверительного интервала для коэффициентов регрессии 19
Заключение 20
Прикрепленные файлы: 1 файл
KURSOVAYa_EMM_III Широкова.docx
— 7.79 Мб (Скачать документ)Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования
«Российский государственный университет нефти и газа
имени И.М.Губкина»
Кафедра экономики нефтяной и газовой промышленности
Курсовая работа
Выполнила: |
студентка гр. ЭУ-10-1 |
Широкова Д. Г. |
Проверила: |
Ст. пр. |
Иткина А. Я. |
Москва 2013 г.
Оглавление
Данные для исследования
МОДЕЛЬ ЦЕНА ГОД ДВИГАТЕЛЬ ТИП ПРОБЕГ КУЗОВ ЦВЕТ
|
200 000 |
1991 |
2693А |
тд/ |
250 000 |
Есть |
|||||||||||||||||||
|
680 000 |
1992 |
2693А |
тд |
311 000 |
Есть |
|||||||||||||||||||
|
1 799 000 |
2013 |
2993А |
и |
1 111 |
Есть |
|||||||||||||||||||
|
1 899 000 |
2013 |
2993А |
и |
1 111 |
Есть |
|||||||||||||||||||
|
1 680 000 |
2013 |
2993М |
и |
1 310 |
Есть |
|||||||||||||||||||
|
1 850 000 |
2013 |
2993А |
и |
151 |
Есть |
|||||||||||||||||||
|
1 380 000 |
2008 |
2693А |
и |
65 000 |
Есть |
|||||||||||||||||||
|
1 730 000 |
2013 |
2693А |
и |
1 300 |
Есть |
|||||||||||||||||||
|
1 480 299 |
2010 |
2693А |
и |
31 000 |
Есть |
|||||||||||||||||||
|
1 820 000 |
2012 |
2693А |
и |
1 450 |
Есть |
|||||||||||||||||||
|
1 000 000 |
2006 |
2693А |
и |
97 000 |
Есть |
|||||||||||||||||||
|
1 510 000 |
2009 |
2693А |
и |
74 000 |
Есть |
|||||||||||||||||||
|
1 530 000 |
2010 |
2693А |
и |
17 000 |
Есть |
|||||||||||||||||||
|
1 210 000 |
2008 |
2693А |
и |
90 000 |
Есть |
|||||||||||||||||||
|
1 230 000 |
2008 |
2693А |
и |
84 000 |
Есть |
|||||||||||||||||||
|
1 350 000 |
2007 |
2693А |
и |
90 000 |
Есть |
|||||||||||||||||||
|
1 680 000 |
2010 |
2693А |
и |
39 000 |
Есть |
|||||||||||||||||||
|
1 900 000 |
2012 |
2693А |
и |
1 300 |
Есть |
|||||||||||||||||||
|
995 000 |
2005 |
2693А |
и |
97 000 |
Есть |
|||||||||||||||||||
|
1 060 000 |
2006 |
2693А |
и |
174 000 |
Есть |
|||||||||||||||||||
|
1 920 000 |
2013 |
2693А |
и |
1 111 |
Есть |
|||||||||||||||||||
|
1 280 000 |
2008 |
2693А |
и |
107 000 |
Есть |
|||||||||||||||||||
|
1 779 000 |
2012 |
2693А |
и |
1 100 |
Есть |
|||||||||||||||||||
|
500 000 |
1998 |
2693А |
и/ |
240 000 |
Есть |
|||||||||||||||||||
|
1 599 000 |
2010 |
2693А |
и |
45 000 |
Есть |
|||||||||||||||||||
|
1 897 000 |
2013 |
2693А |
и |
2 960 |
Есть |
|||||||||||||||||||
|
930 000 |
2005 |
2693А |
и |
160 000 |
Есть |
|||||||||||||||||||
|
1 330 000 |
2009 |
2693А |
и |
82 000 |
Есть |
|||||||||||||||||||
|
1 460 000 |
2010 |
2693А |
и |
61 000 |
Есть |
|||||||||||||||||||
|
820 000 |
2003 |
2693А |
и |
153 000 |
Есть |
|||||||||||||||||||
|
1 549 000 |
2010 |
2693А |
и |
62 000 |
Нет |
|||||||||||||||||||
|
1 449 000 |
2010 |
2693А |
и |
48 000 |
Нет |
|||||||||||||||||||
|
1 449 900 |
2010 |
2693А |
и |
57 000 |
Нет |
|||||||||||||||||||
|
880 000 |
2004 |
2693А |
и |
183 000 |
Есть |
|||||||||||||||||||
|
1 459 000 |
2009 |
2693А |
и |
33 000 |
Есть |
|||||||||||||||||||
|
1 380 000 |
2008 |
2693А |
и |
60 000 |
Есть |
|||||||||||||||||||
|
1 799 999 |
2013 |
2693А |
и |
1 111 |
Есть |
|||||||||||||||||||
|
1 565 000 |
2009 |
2693А |
и |
39 000 |
Есть |
|||||||||||||||||||
|
1 890 000 |
2012 |
2693А |
и |
1 011 |
Есть |
|||||||||||||||||||
|
1 300 000 |
2008 |
2693А |
и |
120 000 |
Есть |
|||||||||||||||||||
Источник: http://cars.auto.ru/list/?category_id=15§ion_id=1&subscribe_id=&filter_id=&mark_id=260&groups[]=1245&groups[]=17396&groups[]=23289&groups[]=17397&groups[]=28627&groups[]=28667&groups[]=17398&groups[]=17401&groups[]=28928&groups[]=17400&groups[]=22185&groups[]=30231&groups[]=20134&year[1]=&year[2]=&color_id=&price_usd[1]=&price_usd[2]=¤cy_key=RUR&body_key=&run[1]=&run[2]=&engine_key=0&engine_volume[1]=&engine_volume[2]=&drive_key=&engine_power[1]=&engine_power[2]=&transmission_key=0&used_key=&wheel_key=&custom_key=&available_key=&change_key=&owner_pts=&stime=0&country_id=1&has_photo=0®ion[]=87®ion_id=87&sort_by=2&city_id=&output_format=1&client_id=0&extras[1]=0&extras[2]=0&extras[3]=0&extras[4]=0&extras[5]=0&extras[6]=0&extras[7]=&extras[8]=0&extras[9]=0&extras[10]=0&extras[11]=0&extras[12]=&extras[13]=0&extras[14]=0&extras[15]=0&extras[16]=0&extras[17]=0&extras[18]=&extras[19]=&extras[20]=&extras[21]=&extras[22]=&extras[23]=0&extras[24]=0&extras[25]=&extras[26]=&extras[27]=0&extras[28]=0&extras[29]=&submit=%D0%9D%D0%B0%D0%B9%D1%82%D0%B8&sort=engine_volume
Размерность
МОДЕЛЬ |
ШТ |
ЦЕНА |
РУБ |
ГОД |
ГОД |
ДВИГАТЕЛЬ |
Л |
ТИП |
- |
ПРОБЕГ |
КМ |
КУЗОВ |
- |
Цель моей работы : Провести анализ зависимости между типом автомобиля и его ценой под воздействием различных характеризующих его факторов.
Чтобы привести исходные данные в вид, пригодный для исследования, необходимо задать фиктивные переменные.
ТИП: И-1 Д/ТД-0
КУЗОВ: ВНЕДОРОЖНИК -1 ХЭТЧБЕК – 0
Исходя из этого, изменим данные, чтобы с ними можно было работать в Eviews. Также для работы переименуем переменные.
- Исследовать зависимость функции от переменных
MODEL№ |
PRICE |
DATE |
MOTOR |
TYPE |
RUN |
BODY | |
1 |
200 000 |
1991 |
|
0 |
250 000 |
1 | |
2 |
680 000 |
1992 |
2693 |
0 |
311 000 |
1 | |
3 |
1 799 000 |
2013 |
2993 |
1 |
1 111 |
1 | |
4 |
1 899 000 |
2013 |
2993 |
1 |
1 111 |
1 | |
5 |
1 680 000 |
2013 |
2993 |
1 |
1 310 |
1 | |
6 |
1 850 000 |
2013 |
2993 |
1 |
151 |
1 | |
7 |
1 380 000 |
2008 |
2693 |
1 |
65 000 |
1 | |
8 |
1 730 000 |
2013 |
2693 |
1 |
1 300 |
1 | |
9 |
1 480 299 |
2010 |
2693 |
1 |
31 000 |
0 | |
10 |
1 820 000 |
2012 |
2693 |
1 |
1 450 |
1 | |
11 |
1 000 000 |
2006 |
2693 |
1 |
97 000 |
1 | |
12 |
1 510 000 |
2009 |
2693 |
1 |
74 000 |
1 | |
13 |
1 530 000 |
2010 |
2693 |
1 |
17 000 |
1 | |
14 |
1 210 000 |
2008 |
2693 |
1 |
90 000 |
1 | |
15 |
1 230 000 |
2008 |
2693 |
1 |
84 000 |
1 | |
16 |
1 350 000 |
2007 |
2693 |
1 |
90 000 |
1 | |
17 |
1 680 000 |
2010 |
2693 |
1 |
39 000 |
1 | |
18 |
1 900 000 |
2012 |
2693 |
1 |
1 300 |
1 | |
19 |
995 000 |
2005 |
2693 |
1 |
97 000 |
1 | |
20 |
1 060 000 |
2006 |
2693 |
1 |
174 000 |
1 | |
21 |
1 920 000 |
2013 |
2693 |
1 |
1 111 |
1 | |
22 |
1 280 000 |
2008 |
2693 |
1 |
107 000 |
1 | |
23 |
1 779 000 |
2012 |
2693 |
1 |
1 100 |
1 | |
24 |
500 000 |
1998 |
2693 |
1 |
240 000 |
1 | |
25 |
1 599 000 |
2010 |
2693 |
1 |
45 000 |
1 | |
26 |
1 897 000 |
2013 |
2693 |
1 |
2 960 |
1 | |
27 |
930 000 |
2005 |
2693 |
1 |
160 000 |
1 | |
28 |
1 330 000 |
2009 |
2693 |
1 |
82 000 |
0 | |
29 |
1 460 000 |
2010 |
2693 |
1 |
61 000 |
1 | |
30 |
820 000 |
2003 |
2693 |
1 |
153 000 |
1 | |
31 |
1 549 000 |
2010 |
2693 |
1 |
62 000 |
1 | |
32 |
1 449 000 |
2010 |
2693 |
1 |
48 000 |
1 | |
33 |
1 449 900 |
2010 |
2693 |
1 |
57 000 |
1 | |
34 |
880 000 |
2004 |
2693 |
1 |
183 000 |
1 | |
35 |
1 459 000 |
2009 |
2693 |
1 |
33 000 |
1 | |
36 |
1 380 000 |
2008 |
2693 |
1 |
60 000 |
1 | |
37 |
1 799 999 |
2013 |
2693 |
1 |
1 111 |
1 | |
38 |
1 565 000 |
2009 |
2693 |
1 |
39 000 |
1 | |
39 |
1 890 000 |
2012 |
2693 |
1 |
1 011 |
1 | |
40 |
1 300 000 |
2008 |
2693 |
1 |
120 000 |
1 |
А).Строим облако точек для всех количественных переменных
На основании графиков корреляционных полей можно сделать вывод, что для большинства переменных зависимость линейная.
Б) Модель date-price напоминает помимо линейной функции график параболы, гиперболы, а также функции косинуса.
Построим данные модели для сравнения
Линейная модель
Парабола
Гипербола
Косинус
Для сравнения полученных моделей строим таблицу
R2 |
Adj.R2 |
S.E. of regression |
Sum squared resid |
Akaike |
Schwarz | |
Линейная |
0.946811 |
0.938989 |
101861.5 |
3.53Е+11 |
26.03810 |
26.29143 |
Парабола |
0.946899 |
0.939090 |
101777.6 |
3.52Е+11 |
26.03645 |
26.28978 |
Гипербола |
0.946632 |
0.938784 |
102032.7 |
3.54Е+11 |
26.04146 |
26.29479 |
Косинус |
0.880930 |
0.863420 |
152405.5 |
7.90E+11 |
26.84396 |
27.09729 |
Исходя из того, что наилучшая зависимость – та, для которой значение коэффициента детерминации и исправленного коэффициента детерминации наибольшее, а значение стандартной ошибки регрессии (S.E. of regression), остаточной суммы квадратов (Sum squared resid), критериев Акаике и Шварца – наименьшее, то наилучшей моделью является модель – парабола.
В) Исследование факторов на мультиколлинеарность по корреляционной матрице
Этап 1. Смотрим зависимость цены от типа автомобиля – знак верный, зависимость цены от пробега (чем больше пробег, тем ниже цена), верный знак. Чем больше объем двигателя (чем больше мощность), тем больше цена – это верно. Чем меньше год выпуска – тем выше цена. Чем более модифицирован кузов – тем цена будет больше, все верно.
Этап 2. Смотрим на первую строку и ищем значения коэффициентов, ниже 0,05 по модулю. Вычеркиваем переменную BODY
Этап 3. Смотрим тело матрицы и ищем коэффициенты парной корреляции больше 0.8. Таких коэффициентов нет. I-0.948017I RUN---DATE мультиколлинеарны
Этап 4. Рассмотрим коэффициенты по модулю от 0.5 до 0.8. RUN---TYPE (-0.630295),
при этом I-0.630295I< I-0.935152I Они не мультиколлинеарны.
(1) price=f(type,run, motor)
(2) price = f(type, date^2, motor)
Вот так будет выглядеть модель (1):
Данная модель в целом качественная, поскольку в ней значение prob(F-statistic) меньше уровня значимости α=0,05, на котором мы проверяем гипотезу о незначимости модели, а значит, гипотеза отклоняется.
Модель в целом значима, но переменная MOTOR не значима на уровне значимости 0.05. Удалим переменную.
Модель (1.1)
Вот так будет выглядеть модель (2):
Данная модель также в целом качественная, поскольку в ней значение prob(F-statistic) меньше уровня значимости α=0,05, на котором мы проверяем гипотезу о незначимости модели, а значит, гипотеза отклоняется.
На уровне 0,1 незначимы TYPE и MOTOR.
Исключили MOTOR (2.1):
Исключили TYPE (2.2):
:
Модель в целом значима, и все переменные на уровне значимости 0.1 значимы.
Сравним модели:
Остаточная сумма квадратов |
Коэффициент детерминации |
Стандартная ошибка регрессии |
Критерий Акаике |
Критерий Шварца | |
1.1 |
1.81Е+11 |
0.942512 |
101513.9 |
25.96582 |
26.09248 |
2.2 |
8.32Е+11 |
0.874509 |
147997.0 |
26.69648 |
26.78092 |
Лучшей будет модель с большим коэффициентом детерминации и с меньшими остаточной суммой квадратов, стандартной ошибкой, а также критериями Акаике и Шварца. Исходя из этого, лучшей моделью является 1.1
- Исследовать остатки наилучшей модели
2.1 График остатков;
постоянство мат. ожидания (и его равенство нулю):
По значению Mean в таблице можно заметить, что математическое ожидание равно -2,23* 10^(-9), т.е. равно нулю с точностью до ошибки округления в вычислениях, как и должно быть, т.к. в модели присутствует свободный член. Таким образом, можно утверждать, что математическое ожидание остатков постоянно и равно нулю.
2.2 Нормальное распределение:
а) гистограмма;
б) моменты ( асимметрия и эксцесс);
в) критерий Жарка-Бера;
Чтобы проверить гипотезу о его постоянстве используем статистику Жарка-Берра. Данная статистика проверяет гипотезу о нормальном распределении остатков модели, а нормальное распределение обладает нулевым мат.ожиданием. Поскольку probability меньше α (α=0,05), то мы отклоняем гипотезу о нормальном распределении. Посмотрим на значения асимметрии и эксцесса. Поскольку Skewness (асимметрия) равно 0,190888, то распределение правостороннее. Значение эксцесса (kurtosis)=2,154 (около 3). Мы можем принять гипотезу на уровне значимости 0,05.
- Постоянство дисперсии:
а) критерий Уайта;
б) критерий Фишера;
Критерий Уайта в анализе no cross определяется по значению статистики χ2 (Obs R-squared). При этом для рассмотрения выдвигается гипотеза о гомоскедастичности остатков. В проведенном тесте значение ошибки для критерия Уайта =0,000974. Поэтому на уровне значимости α=0,05 мы отвергнем гипотезу и сделаем вывод о гетероскедастичности остатков.
Критерий Фишера проверяет ту же гипотезу, что и критерий Уайта, но имеет иную систему расчета. Для принятия гипотезы о гомоскедастичности остатков, prob(F-statistic) должна быть больше заданного уровня значимости α. В нашем случае для α=0,05 гипотеза будет отвергнута и сделан вывод о гетероскедастичности остатков.
2.4 Некоррелированность:
а) коррелограмма и Q-критерий Льюнга-Бокса;
б) критерий Дарбина-Уотсона;
Расчет статистики Льюинга-Бокса проверяет гипотезу о том, что автокорреляция n-го порядка равна нулю или, говоря другим языком, для каждого уровня расчета автокорреляция остатков отсутствует. Чтобы принять гипотезу, необходимо, чтобы Prob(Q-stat) была больше заданного уровня значимости α. В таком случае, для α=0,05 автокорреляция остатков всех уровней отсутствует.
Критерий Дарбина-Уотсона равен 1,909183 (чем ближе к 2, тем меньше коррелируются остатки). Для 40 наблюдений и трех объясняющих переменных критические значения d1=1,148 и du=1,437
0 1,148 1,437 2 2,563 2,852 4
Наш коэффициент попадает в интервал [1,437; 2]. Близок к 2, остатки почти не коррелируются.
3.
Доверительный интервал для коэффициентов
В модели содержатся следующие коэффициенты:
B1=-782798,6
B2=25,38788
B3=-1*10^8
Доверительный интервал для коэффициентов модели находится по формуле:
[bi-ti*Si;bi+ti*Si], где ti – статистика Стьюдента для α/2 и n-m-1 числа степеней свободы (36), а Si - стандартная ошибка дисперсии для каждого из коэффициентов.
Стандартная ошибка регрессии выпишем из модели:
Sb1=114897
Sb2=1,244484
Sb3=4936234
Найдем для нашего случая t=tα/2;n-m-1=t0.025;36=2,042
b1 |
b1–t*S1 |
-782798,6 - 2,042*114897 |
-1017418,274 |
b1+t*S1 |
-782798,6 + 2,042*114897 |
-548178,926 | |
b2 |
b2–t*S2 |
25,38788- 2,042*1,244484 |
22,846643672 |
b2+t*S2 |
25,38788+2,042*1,244484 |
27, 929116328 | |
b3 |
b3–t*S3 |
-1*10^8-2,042*4936234 |
-110079789,828 |
b3+t*S3 |
-1*10^8+ 2,042*4936234 |
-89920210,172 |