Дискриминантный анализ

Автор работы: Пользователь скрыл имя, 12 Июня 2012 в 12:22, реферат

Краткое описание

Дuскрuмuнантный анализ - это раздел математической статистики, содержанием которого является разработка методов решения задач различения (дискриминации) объектов наблюдения по определенным признакам. Например, разбиение совокупности предприятий на несколько однородных групп по значениям каких-либо показателей производственно-хозяйственной деятельности.

Содержание

1.Введение
2.Назначение дискриминантного анализа
3. Математико-статистические идеи метода
4. Основные результаты дискриминантного анализа
5.Заключение
6.Список литературы

Скачать полностью (16.57 Кб) Сколько стоит заказать работу?

Прикрепленные файлы: 1 файл

реферат.doc

— 81.00 Кб (Скачать документ)

λ-Вилкса выполняет ту же функцию, что и в MANOVA, то есть является мерой достоверности различения классов при помощи данного набора переменных. λ-Вилкса — это мера остаточной дискриминативной способности переменных при учете данного набора канонических функций. Следовательно, чем меньше λ-Вилкса, тем лучше данная каноническая функция (или весь их набор) различает объекты. χ^2-тест позволяет определить статистическую достоверность такого различения.

Значения канонических функций вычисляются для каждого объекта по формуле, которая идентична по виду линейному уравнению множественной регрессии.

Значения канонических функций вычисляются для каждого центроида и каждого объекта, в том числе — «неизвестного», для которого не известна принадлежность к классу, и интерпретируются как их координаты в пространстве канонических функций. В этом пространстве малой размерности можно получить наглядное отображение всех объектов вместе с центроидами классов.

Принадлежность объекта к классу в большинстве компьютерных программ дискриминантного анализа определяется по расстоянию этого объекта до центроида соответствующего класса в пространстве канонических функций. Объект причисляется к тому классу, к центроиду которого он ближе всего. Однако надо помнить, что если расстояние объекта до класса велико (то есть профиль объекта мало похож на среднегрупповой), то объект может быть причислен к данному классу, поскольку до остальных классов он еще дальше.

Производной от расстояния является еще одна мера классификации -апостериорная вероятность принадлежности к классу. Априорная вероятность («до опыта») принадлежности «нового» объекта к классу равна численности «известных» объектов этого класса, деленной на все «известные» объекты. Эта вероятность известна и без дискриминантного анализа, «до опыта». Апостериорная вероятность («после опыта») вычисляется исходя из расстояний данного объекта до центроидов каждого класса в предположении, что он принадлежит к одному из этих классов. Для любого объекта, следовательно, сумма этих вероятностей по всем классам равна 1. И чем меньше расстояние этого объекта до центроида класса, тем выше апостериорная вероятность его принадлежности к этому классу. Отнесение объекта к классу на основе наибольшей из вероятностей, таким образом, эквивалентно использованию наименьшего расстояния до центроида этого класса.

Вычисленные расстояния или апостериорные вероятности для известных объектов позволяют определить точность классификации и проанализировать ошибки, а для неизвестных — отнести объекты к одному из классов.

Анализ дискриминантных переменных позволяет, если это необходимо, отсеять несущественные для предсказания дискриминантные переменные. Наиболее важными показателями в этом анализе являются: критерий F-Фишера, толерантность и статистика F-удаления. Значимость каждой переменной для разделения классов определяется по F -Фишера по модели дисперсионного анализа. Толерантность равна единице минус квадрат коэффициента множественной корреляции этой переменной со всеми остальными. Если толерантность равна нулю, то эта переменная является линейной комбинацией одной или нескольких других переменных и ее нельзя включать в анализ, равно как и переменные с очень малой толерантностью (скажем, меньше 0,001). Статистика F-удаления оценивает ухудшение разделения классов при удалении данной переменной из набора. Следовательно, чем больше значение этой статистики, тем более значима данная переменная для различения классов. На величину статистики F -удаления влияет не только различительная способность самой этой переменной (как в модели дисперсионного анализа), но и ее связь с другими переменными: чем сильнее она связана с другими переменными, тем меньше статистика F-удаления, тем меньше значение данной переменной.

Компьютерные программы позволяют автоматически отсеять малозначимые для дискриминантного анализа переменные. Во-первых, программа (SPSS) автоматически исключает из анализа переменные с низкой толерантностью. Во-вторых, возможен пошаговый дискриминантами анализ. При пошаговом методе переменные удаляются из анализа или включаются в него на основе улучшения (ухудшения) качества различения классов (обычно — по λ-Вилкса). Критериями для включения и удаления переменной являются статистики F -включения и F -удаления, которые показывают степень улучшения и ухудшения различения классов при включении и удалении данной переменной. Численные значения этих статистик могут быть заданы пользователем программы.

Дополнением к задаче классификации является анализ расстоянии между классами. Программы обычно вычисляют значения F -критерия Фишера и р-уровень статистической значимости расстояния. Анализ расстояний позволяет определить, насколько существенно различаются классы по выбранным для анализа дискриминантным переменным.

Несмотря на обилие статистических критериев и показателей качества классификации, основным ориентиром для исследователя должно вес же являться сопоставление действительной классификации «известных» объектов и их классификации при помощи канонических функций. Таким образом, основным показателем качества является процент совпадения этих двух классификаций.

Дискриминантный анализ относится к наиболее сложным методам.

Основные результаты дискриминантного анализа:

1)Определение статистической значимости различия классов при помощи данного набора дискриминантных переменных.

2)Классификация «известных» и «неизвестных» объектов при помощи расстояний или значений априорных вероятностей. Качество классификации определяется совпадением действительной классификации и предсказанной для «известных» объектов. Мерой качества может служить вероятность ошибочной классификации как соотношение количества ошибочного отнесения к общему количеству «известных» объектов.

3)Выяснение вклада каждой переменной в дискриминантный анализ. Определяется по значению критерия F-Фишера, толерантности статистики F-удаления.

4)Вычисление расстояний между центроидами классов и определение их статистической значимости по F-критерию.

5)Анализ канонических функций, их интерпритация через дискриминантные (по стандартизированным и структурным коэффициентам канонических функций).

6)Графическое представление всех объектов и центроидов классов в осях канонических функций.

Заключение

Аппарат дискриминантного анализа разрабатывался многими учеными-специалистами, начиная с конца 50-х годов ХХ в. Дискриминантным анализом, как и другими методами многомерной статистики, занимались П.Ч. Махаланобис, Р. Фишер, Г.Хотеллинг и другие видные ученые.

Список литературы

Наследов А.Д. - Математические методы психологического исследования. Анализ и интерпретация данных.
Е.В.Сидоренко - Методы математической обработки в психологии.

Информация о работе Дискриминантный анализ