Технология Data Mining

Автор работы: Пользователь скрыл имя, 03 Декабря 2013 в 19:10, реферат

Краткое описание

• Целью данной работы является раскрытие основных свойств возможностей технологии "добычи знаний", а также рассмотрение возможностей применения технологии Data Mining на примере SAS Interprise Miner.

Содержание

• Введение
• 1. Задачи Data Mining
• 1.1 Классификация задач Data Mining
• 1.2 Задача классификации и регрессии
• 1.3 Задача поиска ассоциативных правил
• 1.4 Задача кластеризации
• 2. Базовые методы Data Mining
• 2.1 Нечеткая логика
• 2.2 Генетические алгоритмы
• 2.3 Нейронные сети
• 3. Процесс Data Mining
• 4. Построение деревьев решений в системе See5
• 4.1 Подготовка данных для анализа
• 4.2 Задание начальных параметров и построение ДР
• 4.3 Анализ полученного дерева решений
• 4.4 Преобразование дерева решений в набор правил
• Заключение

Прикрепленные файлы: 1 файл

Документ Microsoft Office Word.docx

— 52.66 Кб (Скачать документ)

credit_history = отсутствует

-> class необходима доп  проверка [0.943]

Rule 4: (11/1, lift 3.6)

employer_type = ИП

consultant_ID = нет

credit history = положительная

-> class необходима доп  проверка [0.846]

Rule 5: (3, lift 3.4)

age = 51-65

stag = 3-12 мес

employer_type = Частная

consultant_ID = нет

credit_history = положительная

-> class необходима доп  проверка [0.800]

Rule 6: (33/14, lift 5.7)

consultant_ID = нет

credit_history = положительная

-> class пол решение [0.571]

Default class: отказ

Каждое правило состоит  из следующих фрагментов:

· номера правила;

· количества объектов обучающей  выборки, подпадающих под действие правила ("n");

· одного или нескольких элементарных логических событий, входящих в состав правила;

· номера класса, которому соответствует данное правило;

· величины, принимающей  значение от 0 до 1, которая выражает степень доверия к правилу (характеристика точности правила).

Более подробный анализ результатов классификации проводится при помощи перекрестных ссылок. Для  этого необходимо в главном окне See5 нажать кнопку Cross-Reference (перекрестная ссылка). Система выдаст окно, в левой  половине которого нарисовано построенное  дерево решений, а в правой половине перечисляются объекты, попавшие на ту или иную ветвь дерева (рис. 2.4).

Рис. 2.4. Окно задания перекрестных ссылок

Чтобы выделить интересующую ветвь, нужно щелкнуть по ней левой  кнопкой мыши (справа от ветви появится темный круг). Кроме того, если щелкнуть мышью по номеру какого-либо объекта  из правого поля, то система выдаст еще одно окно с именем Case, в котором  приводятся значения признаков и  выделенного объекта.

В системе See5 реализована  возможность усиление решения. Идея усиления решения заключается в  конструировании не одного, а сразу  нескольких деревьев решений. Главное  требование к ДР заключается в  том, чтобы они как можно меньше дублировали друг друга. Для этого  необходимо на первом шаге построить  начальное ДР. При этом классификатор, построенный на основе начального дерева, дает ошибки на некоторых объектах.

На втором шаге при конструировании  следующего дерева делается попытка  избежать ранее сделанных ошибок. Следствием такой попытки считается  существенное отличие второго дерева от начального. Полученное дерево также  будет приводить к ошибочным  решениям, но уже на других объектах. На следующем шаге работы алгоритма  очередное дерево строится с учетом ошибок всех предыдущих деревьев решений.

Для запуска процесса усиления решения требуется установить флажок Boost в диалоговом окне для задания  параметров работы алгоритма. Кроме  того, в этом же окне нужно задать общее число строящихся ДР. Это  число проставляется в поле trials. В результате построения такой совокупности деревьев решений значительно повышается точность классификации. Разработчики See5 утверждают, что при использовании 10 ДР ошибки классификации снижаются  в среднем на 25 %.

В рассматриваемом примере  после проведения усиления решения (построения трех деревьев решений) количество ошибочно классифицированных объектов снизилось с 1,5% до 0,5%. Ошибочно классифицированным оказался лишь один объект.

Evaluation on training data (198 cases):

Trial Decision Tree

----- ----------------

Size Errors

0 8 3(1.5%)

1 15 7(3.5%)

2 8 8(4.0%)

boost 1(0.5%) <<

(a) (b) (c) <-classified as

---- ---- ----

132 (a): class отказ

46 (b): class необходима доп  проверка

1 19 (c): class пол решение

Time: 3.3 secs

В режиме консультации выполним проверку эффективности построенной  системы при помощи команды File, Use classifier. После выполнения команды  станет доступным окно задания исходных значений переменных, результат анализа  которых будет сформирован в  виде рекомендуемого решения с коэффициентом  уверенности.

Заключение

Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа  данных, откровенно не справляется  с возникшими проблемами. Главная  причина - концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры  пациентов в больнице, средней  высоты дома на улице и т.п.).

В основу Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти  шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые  могут быть компактно выражены в  понятной человеку форме. Поиск шаблонов производится методами, не ограниченными  рамками априорных предположений  о структуре выборки и виде распределений значений анализируемых  показателей.

Важное положение Data Mining - нетривиальность разыскиваемых  шаблонов. Это означает, что найденные  шаблоны должны отражать неочевидные, неожиданные регулярности в данных, составляющих так называемые скрытые  знания. К обществу пришло понимание  того, что сырые данные содержат глубинные пласт знаний, при грамотной  раскопке которого могут быть обнаружены настоящие самородки.

Существует множество  определений Data Mining, но в целом они  совпадают в выделении 4-х основных признаков:

Data Mining - это процесс обнаружения  в сырых данных

· ранее неизвестных,

· нетривиальных,

· практически полезных,

· доступных интерпретации знаний (закономерностей), необходимых для  принятия решений в различных  сферах человеческой деятельности.

Нахождение скрытых закономерностей  в данных, взаимосвязей между различными переменными в базах данных, моделирование  и изучение сложных систем на основе истории их поведения - вот предмет  и задачи Data Mining.

Результаты Data Mining - эмпирические модели, классификационные правила, выделенные кластеры и т.д. - можно затем инкорпорировать  в существующие системы поддержки  принятия решений и использовать их для прогноза будущих ситуаций.

В заключении хочется отметить тот  факт, что средства Data Mining относятся  к дорогостоящим программным  инструментам - цена некоторых из них  доходит до нескольких десятков тысяч  долларов. Поэтому до недавнего времени  основными потребителями этой технологии были банки, финансовые и страховые  компании, крупные торговые предприятия, а основными задачами, требующими применения Data Mining, считались оценка кредитных и страховых рисков и выработка маркетинговой политики, тарифных планов и иных принципов  работы с клиентами. В последние  годы ситуация претерпела определенные изменения: на рынке программного обеспечения  появились относительно недорогие  инструменты Data Mining от нескольких производителей, что сделало доступной эту  технологию для предприятий малого и среднего бизнеса, ранее о ней  и не помышлявших.

Список литературы

1. Барсегян А.А., Куприянов М.С.  и др. Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP. Изд.: БХВ-Петербург, 2007, стр. 384.

2. Методические указания к лабораторным  работам по дисциплине "Теоретические  основы автоматизированного управления". ЮГУ; специальность 230102.65; 4 курс; 21 стр.

3. Паклин Н.Б., Орешков В.И. Бизнес-аналитика:  от данных к знаниям. - СПб.: Питер, 2009. - 624 с

4. Пятецкий-Шапиро Г. "Великие  раскопки и великие вызовы" в журнале "Компьютерра"№  11(679) 2007.

5. Чубукова И.А. Data Mining. Курс лекций  интернет-университета INTUIT, 2006 г., 328 стр.

6. Хайкин, С. Нейронные сети: полный  курс / С. Хайкин. - М.: Вильямс, 2006. - 1104 с.

7. http://www.businessdecision.ru/2082-sas-enterprise-miner.htm

8. www.interface.ru - Курс по интеллектуальному  анализу данных (Data Mining) с использованием  платформы MS SQL 2005.

9. http://www.sas.com/technologies/analytics/datamining/miner/


Информация о работе Технология Data Mining