4.3 Системы интеллектуального анализа данных. Извлечение знаний из данных. ч.1

При написании этого пункта учебного пособия использован материал статьи, подготовленной автором для подписной электронной рассылки «Интернет для бизнеса» в 2007 году. В свою очередь при написании статьи были использованы сведения о Data Mining , как о перспективном направлении развития ИИС из таких источников , как [2, 4, 10].
Системы ИАД, как было сказано выше, реализуют принципиально иную стратегию получения знаний, нежели СОЗ. Здесь не система получает знания от человека – эксперта, а, напротив, человек получает от системы знания, которые до пору до времени скрыты в больших объемах данных или текстов. При этом назначение таких систем весьма практично – поддержка принятия решений, а их пользователями являются менеджеры, аналитики, руководители предприятий. Именно широкие возможности для совершенствования бизнеса, которые открыли системы Data Mining, обусловило распространение идей интеллектуального анализа данных в практических приложениях.
Термин Data Mining распространился в бизнесе в 90-х годах двадцатого века. К тому времени на многих предприятиях (в первую очередь, за рубежом) в связи с эксплуатацией корпоративных информационных систем (КИС) уже были накоплены большие объемы данных.
В КИС регистрируются разные подробности деятельности предприятия, собирается информация за многие года – объемы и динамика продаж, доходы и расходы и их источники, сведения о клиентах и партнерах, результаты работы подразделений и менеджеров .
Что делать с этими данными? Можно просто удалить, освободив место на серверах. Можно организовать их хранение в хранилищах данных с тем, чтобы время от времени просматривать, вспоминая былое. Можно использовать для сравнений и анализа сегодняшней деятельности, например, чтобы выявить тех, кто стал работать хуже. Но, оказалось, что есть и другие возможности. И эти возможности предоставляет Data Mining.
В этом месте подготовленный читатель скажет: «Ну что вы, право, дорогой автор. Какие-такие новые возможности? Есть ведь математическая статистика с ее десятилетиями проверенными методами - можно прогнозировать, выявлять влияния факторов, классифицировать и т.п. Зачем еще какой-то Дата Мининг?»
И вот тут-то пора объяснить, что такое Data Mining (используются также близкие названия - интеллектуальный анализ данных и KDD – knowledge discovery in databases). Этот термин объединяет методы и технологии «раскопки данных», выявления в них скрытых закономерностей и взаимосвязей. Например, такого рода:
- причинно-следственные и хронологические связи между событиями. Так, исследования в супермаркете могут показать, что 65% купивших пиво, покупают и чипсы. А вот при наличии скидки за такой комплект оказывается, что чипсы приобретают уже 90% покупателей;
- взаимосвязи между данными и правилами классификации объектов. Например, на основе анализа данных о покупателях можно выявить правила их классификации с тем, чтобы отнести каждого покупателя (в том числе нового) к тому или иному классу и подобрать для него индивидуальный пакет услуг;
- логические взаимосвязи между данными, на основе которых по некоторым значениям параметров А, В, С можно предположить (предсказать) значение параметра D;
- кластеризации – устойчивые группы в множестве объектов, описываемых некоторым набором данных. В отличие от классификации сами группы - кластеры здесь неизвестны, их требуется определить. Так, при анализе некоторого множества данных о покупателях можно выявить группы и признаки покупателей, предпочитающих определенный вид товара и способ обслуживания;
Чем же привлекательны методы Data Mining для современных менеджеров и чем они отличны от методов статистики?
На самом деле между статистикой и Data Mining нет никаких противоречий, а многие современные статистические пакеты включают в свой состав элементы Data Mining.
В то же время традиционные статистические методы:
а) предполагают наличие больших объемов однородных данных, т.е. тех, где можно выявить тенденции (такие данные и в нужном объеме есть далеко не всегда);
б) ориентированы на использование средних величин (известный по этому поводу казус – по отчетам средняя температура больных в больнице 36,6, т.е все в порядке! Правда, у некоторых пациентов температура за 40, а у других – 28…);
в) выражают результаты своей работы в виде абстрактных формул, которые не всегда понятны менеджерам и не вызывают у них должного доверия для принятия решений;
г) применимы более для проверки гипотез, чем для их выявления.
Характер работы с данными у методов data mining ближе к «человеческому», т.е. они могут выводить свои суждения при относительно небольших объемах данных, пусть и с разной степенью уверенности. Они используются для обнаружения новых, ранее неизвестных закономерностей (т.е. для вывода гипотез). Найденные закономерности, т.е. знания методы Data mining могут представлять в таком виде, который понятен практику.
Последнее является весьма важным. Потому что предлагаемые компьютером результаты, человек (менеджер) будет использовать для принятия управленческих решений. Он же будет нести и ответственность за принятые решения. И здесь важно, чтобы этому менеджеру была понятна логика рассуждений компьютера, чтобы он мог согласиться с результатами «умной» машины и принять их (или отвергнуть).
Для отображения знаний в форме, понятной для человека, широко используются правила вида «Если... То...». Именно выявление и представление таких логических закономерностей является «изюминкой» систем Data Mining.

Читать дальше:

4.3 Системы интеллектуального анализа данных. Извлечение знаний из данных. ч.2



Похожие статьи:

Резюме к 4 главе
25 июня 2012,
1. В ИИС можно выделить три стратегии получения знаний, т.е. «обучения» системы: - приобретение знаний в СОЗ из источников; - формирование знаний в системах интеллектуального ана ... Читать полностью

Тема 6. Интеллектуальные технологии в экономических информационных системах. Технологии интеллектуального анализа данных (Data Mining, Knowledge discovery in databases). ч.1
05 июня 2012,
Технологии интеллектуального анализа данных (ИАД, другие термины - Data Mining, Knowledge discovery in databases) предназначены для выявления знаний – закономерностей и логических взаимосвязе ... Читать полностью

Глава 4. ПРИОБРЕТЕНИЕ ЗНАНИЙ В ИИС. ТЕХНОЛОГИИ МАШИННОГО ОБУЧЕНИЯ. 4.1 Стратегии получения знаний в ИИС
25 июня 2012,
До сих пор мы говорили о представлении знаний с помощью специальных моделей, позволяющих так организовать знания в базе знаний ИИС, что они выступают в качестве инструмента вывода искомого решения. ... Читать полностью

4.2 Приобретение знаний в СОЗ. ч.1
25 июня 2012,
В процессе приобретения знаний решаются две задачи - получение, т.е. извлечение знаний из источников и их систематизация (структуризация). При извлечении знаний происходит взаимодействие с источ ... Читать полностью

4.2 Приобретение знаний в СОЗ. ч.2
25 июня 2012,
Активные методы извлечения знаний предполагают более активную, направляющую роль инженера по знаниям. Среди этих методов отметим следующие: - анкетирование. Этот метод считается наиболее стандарт ... Читать полностью