|
Main menu > Deep Data Diver > About |
||||
| СПб Институт Информатики и Автоматизации РАН | ||||
Data Mining
Deep Data Diver
|
Система анализа данных Deep Data DiverКраткое руководство1. Назначение 1.2. Основные характеристики системы 1.3. Дополнительные характеристики системы 2. Работа с системой 2.1. Общий вид системы в начале работы изображен на рис. 1.
Рисунок 1. Начало работы с системой 2.2. Создание нового проекта
Рисунок 2. Диалоговое окно для выбора источника данных Выбираем ODBC и нажимаем ОК. Появляется новое окно диалога для выбора драйвера ODBC. Выбираем драйвер Microsoft Excel (как показано на рис. 3).
Рисунок 3. Выбор драйвера Excel Нажимаем кнопку Соединить. Появляется новое окно диалога, на котором нажимаем кнопку Выбор Книги (рис. 4).
Рисунок 4. Установка драйвера ODBC *.xls Затем в окне диалога Выбор Книги (Рис. 5) выбираем подлежащий анализу файл *.xls (в нашем случае Credit500.xls).
Рисунок 5. Выбор книги *.xls После этого в окне диалога на рис. 4 еще раз наживаем ОК. Появляется окно диалога для задания SQL запроса (рис. 6).
Рисунок 6. Окно диалога для создания SQL запроса к выбранной книге Excel Здесь мы в поле Таблица
выбрали имя Data,
которым у нас в Excel
была поименована таблица данных о 500-х кредитах. Внизу в поле SQL запрос сразу появляется формальная запись нашего запроса
на языке SQL. Нажимаем ОК. Запускается Мастер кодирования данных (рис. 7).
Рисунок 7. Мастер кодирования признаков матрицы данных Последовательно просматриваем каждый признак в левом поле окна диалога и либо соглашаемся, либо задаем вручную тип признака. Например, для признака 'Продолжительность займа' мы может не согласиться с тем, что система по умолчанию восприняла его как 'количественный' и разбила на 7 интервалов. Изменим тип признаков на ранговый - тогда все градации данного признака станут границами интервалов (рис. 8).
Рисунок 8. Изменения типа признака 'количественный' на 'ранговый' Также с системе предусмотрено ручное введение интервалов для количественных признаков. Например, нас может не устроить как система ввела градации для признака 'Сумма займа'. Тогда мы имеем возможно удалить установленные градации в ввести новые (для этого в окне диалога предусмотрены кнопки (Добавить и Удалить). Так, для признака 'Сумма займа' мы в данном случае ввели первую границу - 500 DM (немецких марок), и затем с интервалом в 500 DM установили остальные границы. Аналогично были изменены границы у признака 'возраст' от 22 до 70 лет с шагом 2 года. 2.3. Мастер обнаружения логических правил Как только закончена работа с окном диалога 'кодирование признаков', нажимаем кнопку ОК. После этого появляется первое окно диалога Мастера обнаружения правил (рис. 9).
Рисунок 9. Мастер правил - шаг 1 Рекомендуется закрыть этот мастер правил и, прежде всего просмотреть настройки системы, нажав соответствующую иконку на верхней панели системы. Появляется следующее окно для задания опций процедуры поиска правил:
Рисунок 10. Опции - параметры расчета В параметрах расчета рекомендуется выставленные значения оставлять без изменений. Такие изменения имеет смысл сделать для допустимой ошибки правила, если Вы, например, желаете попытаться найти правило с нулевой ошибкой. Параметр самоораганизации можно в принципе попытаться изменять в пределах от 0, 4 до 0,6. Рассмотрим следующую Параметры преобразования (Рис. 11).
Рисунок 11. Опции - параметры преобразования В Demo- версии здесь доступна только одна опция - количество интервалов, на которые система самостоятельно разбивает количественные признаки. Следующая опция Настройки
Программы (рис. 12) предназначена для организации автоматического
поиска множества if-then правил. В Demo- версии эта опцию
отключена.
Рисунок 12. Опция - настройки программы Последняя закладка Правила (рис. 13) предназначена для автоматического отбора правил из множества найденных.
Рисунок 13. Отбор правил из множества правил по заданному критерию Если снять флажок 'Выбор лучшего правил для опорного объекта' (Рекомендуется), то Вы вручную с таблицы правил будете отбирать те, которые Вам наиболее подходят. 2.5. Поиск правил Обратимся теперь к рис. 9, где изображен мастер поиска правил (мастер расчета). Во-первых, в окне диалога мы имеем возможность дополнительно просматривать данные, которые будет подвергаться обработке. Но, конечно, главное - выбор опорного объекта для которого будет искаться в данных 'наилучшее правило'. Для выбора опорного объекта достаточно щелкнуть левой кнопкой мышки на соответствующей строчке таблицы данных (в окошке сразу появится номер этой строчки - объекта). Можно также вручную ввести номер объекта. После выбора опорного объекта (например ? 1) приступаем к следующему шагу. Для этого нажимаем кнопку 'Далее'. Получаем следующее окно диалога (рис. 14).
Рисунок 14. Мастер правил - ввод переменных в анализ В левом поле мастера расположены имена всех доступных переменных. Из этого поля выделяем зависимые переменные (с помощью Ctrl+Enter или Shift+Enter) и нажимаем соответствующую стрелку для переноса имен в поле 'зависимые признаки'. Затем выделяем в левом поле 'целевой признак' (в нашем случае - Результат займа) и с помощью стрелки вводим в поле 'Целевой признак'. Все готово для поиска if-then правила - нажимаем стрелку в нижнем правом углу окна диалога. После непродолжительного ожидания на экран выдается окно с найденными правилами для выбранного опорного объекта ? 1 (рис. 15). 2.6. Работа с правилами
Рисунок 15. Окно правил В данном окне приводятся следующие характеристики найденных
правил (колонки слева-направо): От берем вручную наиболее подходящее правило. Пусть это будет правило 14, у которого полнота равна 93/349, точность приблизительно 0,96. Для того последовательно выделим ненужные правила и нажмем клавишу del. Получим следующую картину (рис. 16).
Рисунок 16. Одно отобранное правило Для того, чтобы более подробно рассмотреть характеристики данного правила есть две возможности: два раза щелкнуть по правилу левой кнопкой мышки или вызвать через правую кнопку мышки меню, где выбрать пункт Информация о правиле(ах). На экране появится новое окно Информация о правиле(ах). В этом окне имеется
три закладки: Рассмотрим сначала закладку Гистограммы (Рис. 17). Левая ось любой гистограммы означает число несовпадающих условий с рассматриваемым правилом у различных объектов выборки. По оси абсцисс отложены либо абсолютные, либо относительные частоты таких несовпадений. Первый левый столбик гистограмм соответствует полному совпадению с правилом. Откроем теперь закладку Матрица данных (Рис. 18). Здесь мы наблюдаем строки матрицы, выделенные черным цветом - это объекты, покрытые данным правилом. В левом правом углу таблицы дается общее число покрытых объектов. Если ранее было найдено более одного правила и они желаем получить информацию об этой совокупности правил, то закладке Матрица данных будут выделены объекты, покрытые данной совокупностью. Такая информация является важной для дальнейших шагов по
поиску новых логических правил. Мы нажимаем на любую невыделенную строчку
матрицы данных левой кнопкой мышки - данная строка (объект) автоматически
становится опорной.
Рисунок 17. Гистограммы правил
Рисунок 18. Матрица данных (выделены объекты, покрытые найденным логическим правилом) Закроем окно с информацией о правилах и запустим снова мастер правил (рис. 9). Щелкнем левой кнопкой мышки на верхней строчке мастера правил - эта строчка соответствует ранее непокрытому объекту. Затем нажмем стрелку в правом нижнем углу - появится следующее окно мастера правил, предназначенное для ввода переменных. Не будем на нем задерживаться, так состав анализируемых переменных у нас остался без изменений. Нажмем стрелку в правом нижнем углу мастера - запустится процесс поиска нового логического правила, и через небольшое время, будет выдана таблица правил с добавленными новыми найденными правилами и т.д. 4. Ограничения Demo-версии Научный руководитель проекта: В. А. Дюк |
Created by MaxMaster, 2003 |