4.3 Системы интеллектуального анализа данных. Извлечение знаний из данных. ч.2
Сравните с точки зрения наглядности и объяснимости два способа представления знаний, которые выявил компьютер на основе анализа результатов деятельности интернет-магазина (это еще одно пояснение термина «знания в явной форме»):
1) Представление с помощью логических правил «Если.. То»:
«Если А > 250 (средний объем заказов покупателя > 250 руб)
И В > 4 (частота покупок > 4 в месяц),
То С = 2 (класс покупателя = 2) с долей уверенности = 0,7»,
где в класс «2» включаются те покупатели, которые охотно и в числе первых приобретают новые товары, появляющиеся в магазине.
2) А теперь представим аналогичное правило классификации с помощью несложной формулы разделяющей поверхности (она также может быть получена на основе анализа данных о деятельности магазина):
С = w + q A + t В
где w, q, t– некоторые коэффициенты, подобранные на основе анализа данных и, вообще говоря, не имеющие никакого предметного смысла.
После подстановки в эту формулу значений А и В получим некоторое С. И вот, если это С больше нуля, тогда покупатель принадлежит классу «2», т.е. он наверное будет покупать новый товар.
Очевидно, что первый способ обладает большей наглядностью. Эти правила помогают менеджеру или аналитику увидеть и понять, какую закономерность нашел компьютер. И если компьютер спрогнозировал поведение покупателя, он может с помощью этих правил наглядно объяснить, почему был сделан тот или иной вывод.
А что может сделать для объяснения своих рассуждений компьютер во втором случае? Он может на вопрос, почему данный покупатель скорее всего купит (или не купит) новый товар, дать примерно такое объяснение:
«... потому, что С = 30, что следует из формулы
С = 0,5 + 40 А + 0,9В ...»
- э-э, а что такое 0,5 и при чем здесь 40 и 0,9 ? – спросит шеф у своего аналитика. На что аналитик ему скажет:
- ну,... это так, ерунда. Честно говоря, я и сам не понимаю, что означают эти цифры. Но, поверьте, все это вполне работоспособно. И раз уж система сказала, что на ваш товар покупателей не будет, значит, можете не волноваться, так оно и случится...
Таким образом, получается, что в случае подобных формул пользователь должен просто верить системе, ее выводам, ее оценкам и прогнозам.
Другим наглядным способом представления найденных знаний является дерево решений, которое строит система Data Mining по результатам анализа данных. На самом деле, дерево решений тоже можно рассматривать как последовательность правил «Если ... То».
Но вместо «Если» здесь задается вопрос о значении какого-то признака ( « ‘А’ принимает значение больше 250 руб.?»).
Вместо «То» выполняется движение к новому вопросу в зависимости от ответа на предыдущий. В нашем простом примере, могло бы быть такое дерево решений:
А >250? – «нет», значит С = 1
«да», тогда B > 4 ? – «нет», значит С = 1
«да», значит, С = 2 (с коэффициентом уверенности = 0,7)
В этой записи, правда, не сразу распознаешь дерево. Но его нетрудно нарисовать, что некоторые системы Data Mining и делают.
Как видно, и здесь есть возможность использовать коэффициент уверенности. Значение такого коэффициента будет тем больше, чем больше примеров, подтверждающих данную закономерность, найдено в анализируемой базе данных.
Дополнительно к Data Mining появились и иные схожие по назначению типы систем. Так, в области интернет-коммерции известен термин Web Mining. Специфика этого термина означает применение методов Data Mining для анализа данных, распределенных по узлам сети интернет. Существует также термин Web Usage Mining – обнаружение закономерностей в поведении пользователей сайта (например, посетителей интернет-магазина). Применительно к интернету появился и термин Text Mining (Web Content Mining) – выявление знаний из текстов. В частности, Text Mining предполагает создание обобщенных портретов некоторых объектов (людей, компаний и т.п.) на основе анализа текстов, которые посвящены этим объектам и которые могут быть найдены в сети интернет.
К числу наиболее известных программных продуктов ИАД можно отнести систему See5 (производитель – RuleQuest, www.rulequest.com), WizWhy (производитель – WizSoft, www.wizsoft.com). Подробная информация об этих системах имеется в [10], а прилагаемый к этой книге компакт-диск содержит демонстрационные версии программ с примерами. Некоторые другие примеры программа, а также алгоритмов выявления закономерностей приведены в [2]
Следует отметить также отечественную разработку – многофункциональный пакет программ для интеллектуального анализа данных Deductor. Облегченная , свободная для скачивания версия Deductor, а также полезные сведения из области ИАД имеются на сайте производителя – www.basegroup.ru (по крайней мере, так было на момент написания работы).
Среди промышленных систем, в которых реализованы в числе прочего технологии анализа текстов, можно привести систему «Галактика ZOOM» (www.galaktika-zoom.ru).
Особого упоминания заслуживают разработки компании Megaputer Intelligence, которая зародилась в России и сегодня является одним из лидеров на мировом рынке ИАД (см. сайт компании - www.megaputer.ru). Это такая система Text Mining, как TextAnalyst и комплексная система анализа данных и текстов PolyAnalyst™ .
В заключение отметим некоторые прикладные задачи, которые решаются с помощью упомянутых в этой главе систем и которые служат примером того, насколько современные ИИС ориентированы на реальный бизнес:
- мониторинг и классификации телефонных вызовов в масштабе реального времени;
- прогноз потребления электроэнергии;
- мониторинг качества данных продаж сети розничной торговли;
- выявление мошенничества в сфере здравоохранения и страхования;
- анализ клиентской базы и др.
В заключение хочется отметить следующее. Термин Data Mining появился на Западе и там стал весьма популярным после того, как стало очевидно - системы Data Mining могут применяться для реальных задач бизнеса и могут приносить существенные прибыли их владельцам и их производителям. Однако, говоря о Data Mining необходимо учитывать основополагающие разработки отечественных ученых (М.М.Бонгарда, А.Г.Ивахненко, В.К.Финна, Н.Г.Загоруйко и др. [2, 10]), которые появились в 60-70-е года 20 века, задолго до промышленного распространения систем Data Mining.
Читать дальше:
4.4. Машинное обучение на примерах. Нейронные сети. ч.1