Деревья решений в SAS Enterprise Miner

44 %
56 %
Information about Деревья решений в SAS Enterprise Miner
Data & Analytics
sas

Published on October 1, 2014

Author: Gewissta

Source: slideshare.net

Description

SAS

Обучение Курс Деревья решений в SAS Enterprise Miner Материал носит ознакомительный характер! Качество слайдов намеренно ухудшено, материал дается с сокращениями. Москва — 2014

Содержание темы Введение Создание обучающего и проверочного наборов данных Построение деревьев решений Построение прогнозной модели дерева решений Оптимизация сложности деревьев решений Оценка эффективности модели деревьв решений Настройки автономного построения дерева Выводы

Введение Прогнозное моделирование имеет долгую историю успеха в области data mining. Модели строятся на основе исторических событий и используются для прогнозирования этих событий в будущем. Использующиеся методы способны принести немалую денежную прибыль. Херб Эделльстайн, глава консалтинговой компании Two Crows так высказался о сущности Data Mining: «Большая часть выгодных результатов [в data mining] достигнута в прогнозных моделях.» Прогнозирование будущего сулит очевидную финансовую выгоду, но в силу ряда причин не следует переоценивать возможности прогнозных моделей. Во-первых, модели зависят от такой статистической характеристики, как стационарность, подразумевая, что статистические свойства модели со временем не меняются. К сожалению, многие процессы, связанные с событиями, представляющими научный и практический интерес, не являются в достаточной мере стационарными, чтобы дать содержательные прогнозы. Во-вторых, прогнозные модели часто направлены на предсказание событий, которые происходят редко и в целом выглядят как случайные. Даже наилучшая прогнозная модель дает лишь приближенный тренд этих по сути зашумленных процессов. View slide

Возможности применения прогнозного моделирования ограничены лишь воображением исследователя. Тем не менее модели, создаваемые с помощью SAS Enterprise Miner, можно отнести к одной из следующих категорий:  Маркетинг на основе баз данных. Включает задачи отклика покупателей на предложение продаж более дорогих и дополнительных продуктов, а также модели износа.  Управление финансовыми рисками. Прогнозирование таких событий как – дефолт по кредиту, досрочное погашение займа, страховое требование.  Обнаружение мошенничества. Выявление и предотвращение нелегальной деятельности, связанной с финансовыми операциями.  Мониторинг процесса. Обнаружение отклонения от нормы в производственных, финансовых и процессах связанных с безопасностью.  Выявление структуры. Например, медицинская диагностика и анализ почерка. View slide

Прежде чем начать изучать использование SAS Enterprise Miner для прогнозного моделирования, ознакомимся со стандартной терминологией. Прогнозное моделирование (также известное как прогнозирование с учителем или обучение с учителем) начинается с обучающего набора данных. Обучающий набор данных состоит из обучающих наблюдений (синонимы – примеры, случаи, записи). Каждое наблюдение измеряется с помощью входных переменных и целевой переменной. Входные переменные называются также предикторами, признаками, объясняющими переменными, независимыми переменные. Целевая переменная может называться откликом, исходом, зависимой переменной. Шкала измерения входных переменных и целевой переменной может быть разной. Входные переменные и целевая переменная могут быть числовыми переменными, например, доход. Они могут быть номинальными переменными, например, род занятий. Часто они бывают бинарными, например, положительный или отрицательный ответ на вопрос о наличии дома в собственности.

Цель обучающего набора данных – построение прогнозной модели. Прогнозная модель – это сжатое описание взаимосвязи между входной переменной и целевой переменной. Результаты прогнозной модели называют прогнозами. Прогнозы представляют собой максимально точные выводы относительно целевой

переменной на основе определенного набора входных переменных. Прогнозы основаны на взаимосвязях, полученных прогнозной моделью на обучающих данных. Прогнозные модели применяются в различных сферах и многообразны. Однако любая модель состоит из трех важных элементов:  правило, преобразующее измерение в прогноз;  выбор важных входных переменных из потенциально большого числа переменных;  возможность коррекции собственной сложности, чтобы скомпенсировать зашумленные обучающие данные. Последующие слайды иллюстрируют общие принципы, связанные с каждым из этих элементов.

Модель начинается с прогнозирования новых наблюдений. Обучающие данные используются для создания модели или правила, которые связывают входные переменные с целевой переменной.

Прогнозы классифицируются по трем типам:  решения;  рейтинги;  оценки. Обученная модель использует входные измерения для принятия наилучшего решения для каждого наблюдения. Решение обычно связано с каким-то действием. Например, классифицировать клиента как хорошего или плохого. Поэтому вместо термина «решение» более распространено название «классификация». Прогнозы-решения используются в задачах распознавания почерка, выявление мошенничества, проведения рекламных акций с помощью прямых рассылок. Прогнозы-решения обычно относятся к категориальной целевой переменной. Поэтому их идентифицируют как первичное, вторичное и третичное решения в соответствии с уровнем целевой переменной. По умолчанию, когда целевая переменная имеет категориальный уровень измерения (бинарный, номинальный, порядковый), то оценка модели в SAS EM предполагает прогнозы-решения.

Обученная модель использует входные измерения для нахождения оптимального рейтинга для каждого наблюдения. Прогнозы-рейтинги упорядочивают наблюдения на основе связей входных переменных с целевой. Модель пытается ранжировать наблюдения с более высокими значениями выше наблюдений с более низкими значениями. Наблюдения с более высокими значениями имеют большие скоринговые баллы. Фактически, вычисленные баллы несущественны, важен только относительный порядок. Пример прогноза-рейтинга – кредитный скоринг. Прогнозы-рейтинги могут быть преобразованы в прогнозы-решения, если принять первичное решение для наблюдений выше определенного значения порога, а вторичное и третичное решение - для наблюдений ниже соответствующих значений порога. Например, в кредитном скоринге наблюдения с баллом выше 700 можно охарактеризовать как низкорисковые, между 600 и 700 - среднерисковые, а наблюдения с баллом менее 600 - высокорисковые.

Обученная модель использует входные измерения для получения оптимальной оценки целевого значения. Прогнозы-оценки аппроксимируют ожидаемое значение целевой переменной, в зависимости от входных значений. Для наблюдений с численными целевыми переменными это число можно охарактеризовать как среднее значение целевой переменной по всем наблюдениям, имеющим текущие входные измерения. Для наблюдений с категориальными целевыми переменными это число может равняться вероятности конкретного исхода целевой переменной. Прогнозы-оценки могут быть преобразованы как в прогнозы-решения, так и в прогнозы-рейтинги. Большинство инструментов SAS EM дают прогнозы-оценки.

Итак, когда модель предсказывает новое наблюдение, она дает решение, рейтинг или оценку. Рассмотрим задачу выбора важных входных переменных.

Проблема размерности связана с числом входных переменных (более точно, числом степеней свободы), которые используются для прогнозирования. Проклятие размерности относится к задаче экспоненциального роста числа данных, необходимого для заполнения пространства при увеличении размерности. Например, восемь точек плотно заполняют одномерное пространство, но становятся более разнозненными при увеличении размерности. В 100-мерном пространстве они будут похожи на удаленные галактики. Проклятие размерности ограничивает практическую способность подобрать более гибкую модель к зашумленным данным (в реальной жизни данные всегда зашумленные), когда имеется большое количество входных переменных. Для удачного подбора модели требуется плотно заполненное пространство входных переменных. При решении задач data mining нужно учитывать количество имеющихся в распоряжении данных и размерность задачи.

Чтобы противостоять проклятию размерности, модель должна выбрать важные входные переменные, т.е. сократить число переменных. Это можно сделать, удалив избыточные и неуместные входные переменные (выбрать независимый набор входных переменных, коррелированных с целевой).

Избыточная входная переменная не дает никакой новой информации, еще не объясненной другими входными переменными. Так на рисунке видно, что Х1 и Х2 связаны. Неуместная входная переменная не дает информации о целевой переменной. Целевая переменная зависит от X4, но не от X3. Стоит отметить, что снижение размерности – это также простой способ игнорирования важной входной информации.

Итак, чтобы преодолеть проклятие размерности, модель должна выбрать важные входные переменные, удалив избыточные и неуместные переменные. И, наконец, рассмотрим задачу оптимизации модели.

Подгонка модели по данным – это поиск в пространстве возможных моделей. Настройка модели – это выбор среди моделей различных типов и уровней сложности. Выбор сложности модели – это компромисс между смещением и дисперсией. Недостаточно сложная модель не может быть достаточно гибкой и это может привести к недостаточной подгонке, пропуску взаимосвязей в данных (высокое смещение). Неопытный исследователь может предположить, что наиболее сложная модель должна всегда лучше предсказывать, но это не так. Слишком сложная модель является слишком гибкой, что ведет к переподгонке (оверфиттингу), учету случайного шума выборки (высокая дисперсия). На слайде синяя линия представляет пример недостаточно гибкой модели. Желтая линия – пример слишком гибкой модели. В прогнозном моделировании оценка качества модели осуществляется с помощью разбиения данных. Для подгонки модели используется обучающий (train) набор данных. Для настройки модели используются проверочный (validation) набор данных. Поскольку проверочные данные используются для выбора оптимальной модели из ансамбля схожих моделей, оценка качества будет смещенной. Для получения итоговой, несмещенной оценки обобщающей способности модели используются тестовый (test) набор данных. Тестовые данные – это новые данные, не использовавшиеся при подгонке и настройке. На

практике многие аналитики не видят необходимости в итоговой оценке обобщающей способности. Оптимальная модель выбирается на основе проверочных данных. Оценка качества модели на проверочном наборе должна превышать оценку качества модели на обучающем наборе. Для небольших наборов данных разбиение неэффективно, маленький размер выборки может существенно снизить качество подгонки модели. В SAS Enterprise Miner выбор сложности модели заключается в построении последовательности схожих моделей на основе лишь обучающего набора данных. Модели обычно упорядочены по возрастанию сложности.

Однако построение модели по обучающим данным часто приводит к выбору наиболее сложной модели. Чтобы избежать этого, SAS Enterprise Miner может выбрать лучшую модель из последовательности моделей различной сложности на основе проверочных данных. Количество звездочек показывает качество модели. Чем больше звездочек, тем лучше модель. Согласно принципу бритвы Оккама, выбирается модель с меньшей сложностью, но с высокими статистическими характеристиками на проверочном наборе данных.

Итак, чтобы избежать переподгонки или недостаточной подгонки прогнозной модели, необходимо разбить данные на обучающий и проверочный наборы и оценить качество модели на каждом из них.

Создание обучающего и проверочного наборов данных Убедитесь, что рабочее пространство SAS Enterprise Miner выглядит так, как показано ниже: 1. Выберите вкладку Sample (Выборка). Инструмент Data Partition (Разделение данных) – второй слева. 2. Перенесите инструмент Data Partition в рабочее пространство, рядом с узлом Replacement (Замена). 3. Соедините узел Replacement с узлом Data Partition.

4. Выберите узел Data Partition и изучите панель Properties (Свойства) узла Data Partition. 5. Введите 50 в поле Training (Обучающий набор данных). 6. Введите 50 в поле Validation (Проверочный набор данных). 7. Введите 0 в поле Test (Тестовый набор данных). 8. Щелкните правой кнопкой по узлу Data Partition и выберите Run (Запуск). 9. Выберите Yes (Да) в диалоговом окне подтверждения. SAS Enterprise Miner запускает работу узла Data Partition.

Когда процесс разбиения данных будет завершен, появится диалоговое окно Run Status (Статус запуска). 10. Выберите Results (Результаты) в окне Run Status, чтобы посмотреть результаты. Результаты представляют собой метаданные, обобщающие исходные данные, содержащиеся в узле, и таблицу частот, показывающую распределение целевой переменной TARGET_B в исходном, обучающем и проверочном наборах данных.

В ходе работы узел Data Partition пытается сохранить соотношение нулей и единиц в обучающей и проверочной частях разбиения. Соотношения не совпадают точно в случае нечетного числа нулевых и единичных наблюдений в необработанных данных.

Построение деревьев решений Приступим к следующему разделу – Построение (выращивание или рост) дерева решений. Инструменты прогнозного моделирования в SAS EM сгруппированы в три категории: основные, особые и множественные. Основные средства моделирования представлены наиболее часто используемыми методами: деревьями решений, регрессией и нейронными сетями.

Особые инструменты моделирования – это либо специализации основных инструментов, либо инструменты, предназначенных для решения особых типов задач. Множественные инструменты моделирования используются для объединения или создания более чем одной прогнозной модели.

Деревья решений – один из наиболее популярных и удобных инструментов прогнозного моделирования. Наблюдения оцениваются с помощью правил прогнозирования. Поиск разделений упрощает выбор входных переменных. Сокращение позволяет снизить сложность модели. Правила прогнозирования, поиск разделений и сокращение являются тремя важными элементами модели дерева решений. Последующие слайды иллюстрируют каждый из этих элементов. Рассмотрим набор данных с двумя входными переменными и бинарной целевой переменной. Входные переменные Х1 и Х2 определяют положение наблюдения в единичном квадрате. Целевой исход представлен цветом: желтый – первичный, голубой – вторичный. Цель анализа – прогнозирование исхода на основе положения в единичном квадрате (т.е. cпрогнозировать цвет точки на основе ее положения на графике рассеяния).

Для прогнозирования наблюдений деревья решений используют правила, в роли которых выступают значения входных переменных. Правила организованы в виде иерархической древовидной структуры с узлами, соединенными линиями. Узлы – правила решений, а линии упорядочивают эти правила. Первое правило, в основании (вверху) дерева, – корневой узел. Последующие правила – внутренние узлы. Узлы всего с одним соединением называются листовыми узлами.

Чтобы оценить новое наблюдение, алгоритм исследует входные значения и применяет правила. Входные значения нового наблюдения в итоге приводят к единственному листу в дереве. Лист дает решение (например, классифицирует наблюдения как желтое) и оценку (например, пропорция первичного исхода целевой переменной относительно всех возможных).

На предыдущих слайдах было схематически показано прогнозирование новых наблюдений при помощи имеющегося дерева решений. Следующий этап – это выбор важных входных переменных. Он осуществляется с помощью поиска разделений. Поиск разделений решает проблему проклятия размерности путем игнорирования неуместных входных переменных. Понимание алгоритма построения деревьев поможет лучше использовать данный инструмент моделирования и интерпретировать полученные результаты. Будем считать, что у нас бинарная целевая переменная. Алгоритм для интервальных целевых переменных похож на тот, который будет описан ниже. Алгоритм для категориальных целевых переменных с более чем двумя исходами сложный и здесь не рассматривается. Первая часть алгоритма называется поиск разделений. Поиск разделений начинается с выбора входной переменной для разбиения имеющихся обучающих данных. Если шкала измерений выбранной входной переменной категориальная, то каждое уникальное значение служит в качестве потенциальной точки разделения данных. Если входная переменная интервальная, то берется среднее значение целевой переменной внутри каждого категориального уровня входной переменной. Средние значения играют туже роль, что и уникальные значения категориальных входных переменных. Для выбранной входной переменной и фиксированной точки разделения генерируются две группы. Наблюдения с входными значениями, меньшими

точки разделения, называются левой ветвью. Наблюдения с входными значениями, большими точки разделения, называются правой ветвью. Большая разница в пропорциях исходов указывает на хорошее разделение. Так как статистика Пирсона может быть применена к случаю многомерных разделений и целевых со многими исходами, то статистика преобразуется в значение вероятности или р-значение. р-значение указывает вероятность получения наблюдаемого значения статистики в предположении идентичных пропорций целевых переменных в каждом из направлений ветвей. Для больших наборов данных р-значения могут быть очень близки к нулю. По этой причине качество разделения описывается значением logworth=-log10(хи-квадрат p-значение) Как минимум, одно значение logworth должно превосходить пороговое значение, чтобы по данной входной переменной произошло разделение. По умолчанию, данное пороговое значение соответствует хи-квадрат р- значению 0,20 или примерному значению logworth=0,7: logworth=0,7=- log10(0,2) Найдено наилучшее logworth для каждой части при Х1=0,52 Выбрано разбиение с максимальным значением logworth = 0,95 Лучшее разделение для входной переменной – это разделение, имеющее наибольшее значение logworth.

Дополнительные подробности поиска разделений Есть несколько второстепенных факторов, делающих поиск разделений более сложным, чем было описано выше. Во-первых, настройки алгоритма построения деревьев не позволяют выполнять разбиения данных конкретным образом. Настройки, такие, как минимальное количество наблюдений, требуемое для поиска разделений, и минимальное количество наблюдений в листе, принудительно задают количество наблюдений в части, полученной после разделения. Это минимальное количество наблюдений снижает количество потенциальных разбиений для каждой входной переменной при поиске разделений. Во-вторых, когда проверяются на независимость столбцы в таблице сопряженности, можно получить значительно большие значения хи-квадрат статистики, даже при отсутствии разницы в пропорциях исходов между ветвями разделения. По мере увеличения числа возможных точек разделения, вероятность получения больших значений также увеличивается. Так входная переменная с множеством уникальных значений имеет большую вероятность случайно привести к большему значению logworth, чем входная переменная всего с несколькими различными значениями. Статистики сталкиваются со схожей проблемой, когда объединяют результаты многих статистических тестов. По мере увеличения числа тестов, вероятность неверного положительного результата также увеличивается. Чтобы поддержать общую уверенность в статистических результатах, статистики резко увеличивают р-значение каждого теста во столько раз, сколько тестов было выполнено. Если увеличенное р-значение показывает значимый результат, то значимость общих результатов гарантирована. Этот тип корректировки р-значения известен как поправка Бонферрони. Так как каждая точка разделения соответствует статистическому тесту, поправки Бонферрони автоматически применяются к вычислениям значений logworth для входной переменной. Эти поправки называемые корректировками Кааса (названные в честь изобретателя алгоритма построения деревьев по умолчанию, используемого в системе), «штрафуют» входные переменные со многими точками разделения, уменьшая значения logworth разделения на число, равное лагорифму количества различных входных значений. Это эквивалентно поправке Бонферрони, потому что вычитание этой константы из значения logworth эквивалентно умножению соответствующего хи-квадрат р-значения на число точек разделения. Эта корректировка дает более четкое сравнение входных переменных с большим и малым количеством уровней в алгоритме поиска разделений. logworth – log(N)=-log(p-value)-log(N)=-log(p-value * N)

В-третьих, для входных данных с пропущенными значениями фактически генерируются два набора значений logworth, скорректированных по Каасу. Для первого набора, наблюдения с пропущенными значениями входных переменных включаются в левую ветвь таблицы сопряженности, и после этого вычисляются значения logworth. Для второго набора значений logworth, наблюдения с пропущенными значениями переносятся в правую ветвь. Затем выбирается лучшее разделение из набора возможных разделений с пропущенными значениями в левой и правой ветвях соответственно. Процесс разбиения повторяется для каждой входной переменной в обучающих данных. Входные переменные, чьи подправленные значения logworth не превышают пороговое значение, исключаются из рассмотрения.

И снова для входной переменной выбирается только одно значение, которое максимизирует logworth функцию. После того, как определено лучшее разделение для каждой входной переменной, алгоритм сравнивает все соответствующие значения logworth лучших разделений. Разделение с наибольшим подправленным logworth считается лучшим.

Обучающий набор данных разбивается на основе лучшего правила разбиения. Алгоритм повторяет процесс поиска разделений в каждом подмножестве.

Желтым обведен левый лист, ему соответствует нижняя незатемненная область единичного квадрата, в которой сконцентрированы первичные (желтый) исходы. Значение logworth разделения по Х2 отрицательно. Это может показаться удивительным, но это происходит вследствие нескольких корректировок,

выполненных при вычислении logworth. Корректировка Кааса была описана выше. Еще одна корректировка называется корректировкой глубины. Поиск разделений продолжается в каждом узле. Значения logworth вычисляются, как и ранее.

Дополнительные подробности поиска разделений Поскольку значимость вторичного и последующих разделений зависит от значимости предыдущих разделений, алгоритм снова сталкивается с проблемой множественного сравнения. Для исправления последствий этой проблемы алгоритм увеличивает пороговое значение на число, зависящее от количества разделений выше текущего уровня разделения. Для двоичных разделений пороговое значение увеличивается на log10(2)=0,3*d, где d – это глубина разделения в дереве решений. Создается второе правило разбиения. Данные разбиваются согласно лучшему разделению, которое и создает второе правило разбиения. Процесс повторяется в каждом листе до тех пор, пока больше не останется допустимых разделений, чьи подправленные значения logworth превосходят пороговые значения, скорректированные по глубине. Данный процесс завершает поиск разделений алгоритма построения деревьев.

Получившееся разбиение пространства входных переменных известно как максимальное дерево. Рост максимального дерева основан исключительно на статистических измерениях разделений обучающих данных. Максимальное дерево, как правило, не в состоянии дать хорошее обобщение на независимом наборе проверочных данных. В общем случае алгоритм деревьев решений также может быть легко использован для решения проблемы проклятия размерности, речь идет о применении деревьев решений для выбора входных переменных.

Построение прогнозной модели дерева решений Подготовка построения дерева в интерактивном режиме Перейдем к интерактивному построению модели дерева решений и повторим весь процесс, описанный в предыдущих слайдах. Подготовка инструмента Decision Tree (Дерево решений) для интерактивного построения дерева включает следующие шаги. 1. Выберите вкладку Model (Модель). Инструмент Decision Tree – второй слева. 2. Перенесите инструмент Decision Tree в рабочее пространство. Поместите данный узел рядом с узлом Data Partition. 3. Соедините узел Data Partition с узлом Decision Tree. Инструмент Decision Tree может строить прогнозные модели автономно и интерактивно. Чтобы построить модель в автономном режиме, просто запустите узел Decision Tree. Тем не менее построение моделей в интерактивном режиме более информативно и полезно, когда знакомство с работой данного узла происходит впервые и даже если исследователь является экспертом в прогнозном моделировании. 4. Выберите Interactive (Интерактивный режим) в панели Properties узла Decision Tree.

Открывается приложение интерактивного построения дерева решений.

Создание правила разбиения Модели деревьев решений предполагают рекурсивное разбиение обучающих данных, пытаясь выделить наблюдения с одинаковыми значениями целевой переменной. Синее окно в окне Tree представляет неразбитые на части обучающие данные. Представленные статистики показывают распределение переменной Target_B. Выполним следующие шаги для создания первоначального правила разбиения. 1. Щелкните правой кнопкой по фиолетовому окну и выберите Splite Node (Разделение узла). Откроется диалоговое окно Split Node 1.

Диалоговое окно Split Node показывает относительные значения -lop(p) или logworth, разбиения обучающих данных с использованием указанной входной переменной. По мере увеличения logworth, разделение лучше изолирует наблюдения с идентичными целевыми значениями друг от друга. Gift Count 36 Months имеет более высокое значение logworth по сравнению с Gift Amount Average Card 36 Month и Gift Amount Last. (Хотя если быть объективным, то перечисленные переменные почти одинаково хорошо разбивают данные). 2. Выберите Edit Rule (Редактировать правило). Откроется диалоговое окно TheGiftCnt36 – Interval Split Rule (TheGiftCnt36 – Правило разделения для интервальной переменной). Это диалоговое окно показывает разбиение обучающих данных с использованием входной переменной Gift Count 36 Months. Создаются две ветви. Первая ветвь содержит значения меньше 2,5, а вторая - больше или равные 2,5. Любые наблюдения с пропущенными или неизвестными значениями помещаются в первую ветвь.

3. Нажмите Apply (Применить). Диалоговое окно TheGiftCnt36 – Interval Split Rule остается открытым, а окно Tree View (Вывод дерева) показывает разбиение данных. Обучающие данные разбиты на два поднабора. Первый поднабор, соответствующий наблюдениям со значениями входной переменной Gift Count 36 Months меньше 2,5, содежит больше наблюдений из категории TARGET_B=0. Второй поднабор, соответствующий наблюдениям со значениями входной переменной Gift Count 36 Months больше 2,5, содежит больше наблюдений из категории TARGET_B=1. Вторая (правая) ветвь содержит немного больше значений целевой переменной, чем первая (левая). Это можно увидеть в поле Count (Число наблюдений). Разбиение данных дает первую нетривиальную прогнозную модель. Если Gift Count 36 Months < 2,5, то TargetB=1 с вероятностью 43%. Если Gift Count 36 Months >= 2,5 то TargetB=1 с вероятностью 56%.

Добавление разбиений 1. Выделите нижний левый лист. Диалоговое окно Split Node теперь показывает переменные возможного разбиения и соответствующие logworth. Входной переменной с максимальным значением logworth является Median Home Value Region.

2. Выберите Edit Rule. Откроется диалоговое окно DemMedHomeValue – Interval Split Rule. Ветвь 1 содержит все наблюдения со значением переменной меньше 67350. Ветвь 2 содержит все наблюдения со значением больше или равно 67350.

3. Нажмите Apply. Окно Tree View показывает дополнительное разбиение. Оба листа содержат меньше наблюдений из категории TARGET_B=1. 4. Повторите вышеописанные действия для ветви, которая соответствует наблюдениям со значениями входной переменной Gift Count 36 Months больше 2,5.

Наблюдения правой ветви были разбиты по входной переменной Gift Amount Last. На этот раз обе ветви содержат больше наблюдений из категории TARGET_B=1. Изменение правила разбиения 1. Выделите левое разбиение 1-го уровня глубины. В качестве точки разбиения для переменной Median Home Value выбрано значение 67350. Это значение можно изменить на 70 000, с целью лучшего вербального восприятия пользователем модели.

2. Нажмите правой кнопкой мыши по этому узлу и выберите из контекстного меню Split Node. Откроется диалоговое окно Split Node.

3. Выберите Edit Rule. Откроется диалоговое окно DemMedHomeValue – Interval Split Rule.

4. В поле New split point (Новая точка разделения) введите 70 000.

5. Нажмите Add Branch (Добавить ветвь). Диалоговое окно Interval Split Rule показывает три ветви.

6. Выберите Branch 1 (Ветвь 1), выделив соответствующую строку.

7. Выберите Remove Branch (Удалить ветвь), чтобы удалить выделенную строку. Для того, чтобы изменить точку разделения, нужно сначала добавить новую точку разделения, а потом удалить ненужную.

8. Выберите OK, чтобы закрыть диалоговое окно Interval Split Rule и получить результаты в окне Tree View. Построение максимального дерева Кроме интерактивного выращивания дерева (фактически в ручном режиме) существует и более быстрый автоматические способ. 1. Выделите корневой узел дерева. 2. Нажмите правой кнопкой мыши и выберите Train Node из контекстного меню. Дерево решений строится до тех пор, пока правила остановки не прекратят его рост. Чтобы увидеть все дерево решений целиком, нужно изменить его масштаб. 3. Выберите Options (Настройки) Zoom (Масштаб) 50% из главного меню.

Построенное дерево и есть максимальное. Графики и таблицы инструмента Interactive Tree (Интерактивное дерево) дают предварительную оценку максимального дерева. 4. Выберите View (Вид) Subtree Assessment Plot (График оценки эффективности).

При рассмотрении графика, построенного по обучающим данным, даже несмотря на то, что значительная часть улучшения подгонки произошла в первых нескольких разбиениях, может показаться, что дерево, состоящее из 15 листьев, имеет более низкую оценку ошибочной классификации, чем любая из более простых предшествующих моделей. Кажется, что график на основе обучающих данных показывает – максимальное дерево более пригодно для прогнозирования. Однако при изучении результатов, полученных на обучающих данных, можно заключить, что этот график вводит в заблуждение. 5. Выберите File (Файл) Exit (Выход), чтобы закрыть окно интерактивного построения дерева. Перейдем к задаче оптимизации сложности модели.

Оптимизация сложности деревьев решений Максимальное дерево представляет самую сложную модель, которую может создать аналитик из набора обучающих данных. Чтобы избежать потенциально слишком сложной подгонки, многие процедуры моделирования предлагают механизм регулировки сложности модели. Для деревьев решений – это сокращение (отсечение ветвей).

Для оптимизации сложности алгоритм создает последовательность связанных между собой моделей на основе обучающих данных и использует проверочных данных для выбора оптимальной модели. Максимальное дерево, построенное ранее, является самой сложной моделью в этой последовательности.

Последовательность моделей состоит из поддеревьев, полученных путем удаления разбиений из максимального дерева. Первый набор поддеревьев получен с помощью сокращения (удаления) одного разбиения из максимального дерева. Сокращение дает две модели с числом разбиений на одно меньше, чем в максимальном дереве.

Поддеревья сравниваются с помощью оценок эффективности модели, полученных на проверочных данных. Выбирается поддерево с наилучшей оценкой эффективности на проверочном наборе данных и тем самым определяется конкретный уровень сложности модели.

Процесс повторяется, чтобы получить следующий набор поддеревьев. Теперь алгоритм удаляет по два разбиения из максимального дерева. И снова алгоритм сравнивает поддеревья с помощью оценок эффективности, полученных на проверочных данных.

Вновь алгоритм выбирает поддерево с наилучшей оценкой эффективности на проверочном наборе данных и тем самым определяет уровень сложности данной модели. Алгоритм продолжает удалять разбиения, вычисляя уровни сложности для полученных поддеревьев, пока не останется только корневая вершина.

Алгоритм сравнивает валидационные оценки эффективности, вычисленные для каждого поддерева, т.е. сравнивает различные уровни сложности модели. Какое поддерево окажется наилучшей моделью?

В SAS Enterprise Miner наилучшей считается самая простая модель с наибольшей валидационной оценкой эффективности. В заключение нужно определить, а что подразумевается под валидационной оценкой эффективности. Выбор оценки эффективности или, более точно, статистического критерия оценки зависит от двух факторов:

 шкалы измерения целевой переменной;  типа прогноза. Статистический показатель, подходящий для бинарной целевой переменной, может оказаться бессмысленным для интервальной целевой переменной. Аналогично модели, настроенные на получение прогнозов-решений, могут дать несостоятельные прогнозы-оценки. Предположим, наша целевая переменная является бинарной, имеет первичный (target=1) и вторичный (target=0) исходы. Например, кредитоспособность заемщика, первичный исход – наличие дефолта у заемщика (плохой заемщик) и вторичный исход – отсутствие дефолта у заемщика (хороший заемщик) Разные статистические критерии оценки соответствуют одному из трех типов прогнозов.

В первую очередь рассмотрим прогнозы-решения. В бинарной целевой переменной рассматриваются два типа решения:  первичное решение, соответствующее первичному исходу (плохой заемщик классифицируется как плохой заемщик);  вторичное решение, соответствующее вторичному исходу (хороший заемщик классифицируется как хороший заемщик);.

Совпадение первичного решения с первичным исходом дает правильное решение, называемое истинно положительным. Плохой заемщик классифицируется как плохой заемщик. Совпадение вторичного решения с вторичным исходом дает правильное решение, называемое истинно отрицательным. Хороший заемщик классифицируется как хороший заемщик. Прогнозы-решения могут оцениваться по доле правильно классифицированных исходов, т.е. доле соответствия прогнозов исходам. Ошибочное совпадение вторичного решения с первичным исходом дает неправильное решение, называемое ложно отрицательным. Плохой заемщик ошибочно классифицирован как хороший заемщик. Ошибочное совпадение первичного решения с вторичным исходом дает неправильное решение, называемое ложно положительным. Хороший заемщик ошибочно классифицирован как плохой заемщик. Прогнозы-решения могут оцениваться по доле ошибочно классифицированных исходов, т.е. доле несоответствия прогнозов исходам.

Теперь рассмотрим прогнозы-рейтинги для бинарной целевой переменной. Прогнозы-рейтинги присваивают наблюдениям баллы (ранги). Основная идея ранжирования наблюдений основана на вероятности первичного или вторичного исхода. Например, первичные исходы получают высокие баллы, а вторичные исходы – низкие баллы.

Когда наблюдение с более высоким фактическим значением целевой переменной соответствует наблюдению с более высоким спрогнозированным значением целевой переменной, а наблюдение с более низким фактическим значением целевой переменной соответствует наблюдению с более низким спрогнозированным значением целевой переменной, такие пары наблюдений называют конкордантными (находятся в конкордансе, буквально согласованы). Пример конкордантной пары – пара наблюдений, где первичный исход (1) соответствует высокому спрогнозированному баллу (720 баллов), а вторичный исход (0) – низкому спрогнозированному баллу (520 баллов). Конкордантные пары устанавливают правильный порядок соответствия фактических значений целевой переменной спрогнозированным значениям. Прогнозы-рейтинги могут быть оценены по степени согласованности, доле конкордантных пар. Когда наблюдение с более высоким фактическим значением целевой переменной соответствует наблюдению с более низким спрогнозированным значением целевой переменной, а наблюдение с более низким фактическим значением целевой переменной соответствует наблюдению с более высоким спрогнозированным значением целевой переменной, такие пары наблюдений называют дискордантными (находятся в дискордансе, буквально рассогласован

Add a comment

Related presentations

Research/ Dissertation on “How online selling has changed the marketing perspectiv...

مشروع قانون يتعلق بالقضاء على كل أشكال العنف ضد المرأة

Remedial geo

Remedial geo

November 6, 2014

nnn

This brief examines 2013 demographic data recently released by the U.S. Census Bur...

Introduction into Big data

Introduction into Big data

October 22, 2014

This presentation shows you the advantages and the importance of Big Data in these...

Info om powerpoint

Info om powerpoint

November 10, 2014

Powerpoint

Related pages

Прикладная аналитика с применением SAS Enterprise Miner ...

... (деревья решений, регрессия). ... Введение в SAS Enterprise Miner Доступ и ...
Read more

AAEM1 | SAS

... которые имеются в SAS Enterprise Miner. В курсе рассматриваются задачи ... (деревья решений, ...
Read more

Курс Байесовские Сети и Деревья Решений - dm4sasex

... Введение в деревья решений ... деревьев решений в SAS Enterprise Miner 7.1 Занятие в ...
Read more

SAS Enterprise Miner - dm4sasex - sites.google.com

Программирование в SAS. ... Курс Байесовские Сети и Деревья Решений. ... SAS Enterprise Miner.
Read more

Инструменты Data Mining. SAS Enterprise Miner | Лекция ...

Процессы в Enterprise Miner могут ... включающий деревья решений, ... SAS Enterprise Miner ...
Read more

Витрина_Базовый курс по прикладной аналитике с ...

Прикладная аналитика с использованием SAS Enterprise Miner. ... 1.1 Введение в SAS Enterprise Miner ...
Read more

SAS Enterprise Miner -> R-project / OLAP и DWH / Sql.ru

SAS Enterprise Miner -> R-project / OLAP и DWH / Задача: ... - Enterprise Miner - 600 тыс. руб. в год. ... деревья решений, ...
Read more

Sas miner дерево решений веса классов

... введение в деревья решений ... решений в sas enterprise miner 7. 1 занятие в ...
Read more

Стоимость курсов by Gewissta - issuu

... (цены указаны в ... рынка в IBM SPSS Statistics Деревья решений в ... SAS» - 1000 рублей в ...
Read more

Ответы на экзаменационные вопросы интернет-курсов интуит ...

... которых раннее в ... SAS Enterprise Miner ... Алгоритм конструирования дерева решений ...
Read more