Рекомендовано:
Робот - мойщик окон

Это, на самом деле, крутая штука
ЗДЕСЬ


4.3 Системы интеллектуального анализа данных. Извлечение знаний из данных. ч.1



При написании этого пункта учебного пособия использован материал статьи, подготовленной автором для подписной электронной рассылки «Интернет для бизнеса» в 2007 году. В свою очередь при написании статьи были использованы сведения о Data Mining , как о перспективном направлении развития ИИС из таких источников , как [2, 4, 10].
Системы ИАД, как было сказано выше, реализуют принципиально иную стратегию получения знаний, нежели СОЗ. Здесь не система получает знания от человека – эксперта, а, напротив, человек получает от системы знания, которые до пору до времени скрыты в больших объемах данных или текстов. При этом назначение таких систем весьма практично – поддержка принятия решений, а их пользователями являются менеджеры, аналитики, руководители предприятий. Именно широкие возможности для совершенствования бизнеса, которые открыли системы Data Mining, обусловило распространение идей интеллектуального анализа данных в практических приложениях.
Термин Data Mining распространился в бизнесе в 90-х годах двадцатого века. К тому времени на многих предприятиях (в первую очередь, за рубежом) в связи с эксплуатацией корпоративных информационных систем (КИС) уже были накоплены большие объемы данных.
В КИС регистрируются разные подробности деятельности предприятия, собирается информация за многие года – объемы и динамика продаж, доходы и расходы и их источники, сведения о клиентах и партнерах, результаты работы подразделений и менеджеров .
Что делать с этими данными? Можно просто удалить, освободив место на серверах. Можно организовать их хранение в хранилищах данных с тем, чтобы время от времени просматривать, вспоминая былое. Можно использовать для сравнений и анализа сегодняшней деятельности, например, чтобы выявить тех, кто стал работать хуже. Но, оказалось, что есть и другие возможности. И эти возможности предоставляет Data Mining.
В этом месте подготовленный читатель скажет: «Ну что вы, право, дорогой автор. Какие-такие новые возможности? Есть ведь математическая статистика с ее десятилетиями проверенными методами - можно прогнозировать, выявлять влияния факторов, классифицировать и т.п. Зачем еще какой-то Дата Мининг?»
И вот тут-то пора объяснить, что такое Data Mining (используются также близкие названия - интеллектуальный анализ данных и KDD – knowledge discovery in databases). Этот термин объединяет методы и технологии «раскопки данных», выявления в них скрытых закономерностей и взаимосвязей. Например, такого рода:
- причинно-следственные и хронологические связи между событиями. Так, исследования в супермаркете могут показать, что 65% купивших пиво, покупают и чипсы. А вот при наличии скидки за такой комплект оказывается, что чипсы приобретают уже 90% покупателей;
- взаимосвязи между данными и правилами классификации объектов. Например, на основе анализа данных о покупателях можно выявить правила их классификации с тем, чтобы отнести каждого покупателя (в том числе нового) к тому или иному классу и подобрать для него индивидуальный пакет услуг;
- логические взаимосвязи между данными, на основе которых по некоторым значениям параметров А, В, С можно предположить (предсказать) значение параметра D;
- кластеризации – устойчивые группы в множестве объектов, описываемых некоторым набором данных. В отличие от классификации сами группы - кластеры здесь неизвестны, их требуется определить. Так, при анализе некоторого множества данных о покупателях можно выявить группы и признаки покупателей, предпочитающих определенный вид товара и способ обслуживания;
Чем же привлекательны методы Data Mining для современных менеджеров и чем они отличны от методов статистики?
На самом деле между статистикой и Data Mining нет никаких противоречий, а многие современные статистические пакеты включают в свой состав элементы Data Mining.
В то же время традиционные статистические методы:
а) предполагают наличие больших объемов однородных данных, т.е. тех, где можно выявить тенденции (такие данные и в нужном объеме есть далеко не всегда);
б) ориентированы на использование средних величин (известный по этому поводу казус – по отчетам средняя температура больных в больнице 36,6, т.е все в порядке! Правда, у некоторых пациентов температура за 40, а у других – 28…);
в) выражают результаты своей работы в виде абстрактных формул, которые не всегда понятны менеджерам и не вызывают у них должного доверия для принятия решений;
г) применимы более для проверки гипотез, чем для их выявления.
Характер работы с данными у методов data mining ближе к «человеческому», т.е. они могут выводить свои суждения при относительно небольших объемах данных, пусть и с разной степенью уверенности. Они используются для обнаружения новых, ранее неизвестных закономерностей (т.е. для вывода гипотез). Найденные закономерности, т.е. знания методы Data mining могут представлять в таком виде, который понятен практику.
Последнее является весьма важным. Потому что предлагаемые компьютером результаты, человек (менеджер) будет использовать для принятия управленческих решений. Он же будет нести и ответственность за принятые решения. И здесь важно, чтобы этому менеджеру была понятна логика рассуждений компьютера, чтобы он мог согласиться с результатами «умной» машины и принять их (или отвергнуть).
Для отображения знаний в форме, понятной для человека, широко используются правила вида «Если... То...». Именно выявление и представление таких логических закономерностей является «изюминкой» систем Data Mining.

Читать дальше:

4.3 Системы интеллектуального анализа данных. Извлечение знаний из данных. ч.2





Похожие статьи:

Резюме к 4 главе
25 июня 2012,
1. В ИИС можно выделить три стратегии получения знаний, т.е. «обучения» системы: - приобретение знаний в СОЗ из источников; - формирование знаний в системах интеллектуального ана ... Читать полностью

Тема 6. Интеллектуальные технологии в экономических информационных системах. Технологии интеллектуального анализа данных (Data Mining, Knowledge discovery in databases). ч.1
05 июня 2012,
Технологии интеллектуального анализа данных (ИАД, другие термины - Data Mining, Knowledge discovery in databases) предназначены для выявления знаний – закономерностей и логических взаимосвязе ... Читать полностью

Глава 4. ПРИОБРЕТЕНИЕ ЗНАНИЙ В ИИС. ТЕХНОЛОГИИ МАШИННОГО ОБУЧЕНИЯ. 4.1 Стратегии получения знаний в ИИС
25 июня 2012,
До сих пор мы говорили о представлении знаний с помощью специальных моделей, позволяющих так организовать знания в базе знаний ИИС, что они выступают в качестве инструмента вывода искомого решения. ... Читать полностью

4.2 Приобретение знаний в СОЗ. ч.1
25 июня 2012,
В процессе приобретения знаний решаются две задачи - получение, т.е. извлечение знаний из источников и их систематизация (структуризация). При извлечении знаний происходит взаимодействие с источ ... Читать полностью

4.2 Приобретение знаний в СОЗ. ч.2
25 июня 2012,
Активные методы извлечения знаний предполагают более активную, направляющую роль инженера по знаниям. Среди этих методов отметим следующие: - анкетирование. Этот метод считается наиболее стандарт ... Читать полностью