Тема 4. Информационное моделирование предметной области при построении ЭИС. Информационное моделирование при построении ИПС. ч.2
В первом случае документы классифицируются и организуется в иерархическое дерево, подобное дереву каталогов (папок), которое можно увидеть, например, в Проводнике Windows. Такая организация документов в ИПС называется рубрикацией. В целом под рубрикатором некоторой предметной области понимается ориентированный граф, состоящий из независимых деревьев. Верхняя вершина дерева обозначает некоторый тематический раздел, вершины нижних уровней – темы, подтемы и т.д., конечные вершины (листья дерева) называются рубриками (рис.4.3). По существу, рубрика есть конечная цель поиска – документ по выбранной теме.
.gif)
Рис.4.3. Пример рубрикатора
Во втором подходе используются искусственные информационно-поисковые языки, которые, по возможности, приближаются к естественному языку, но обладают своими, более строгими правилами, позволяющими задать понятный системе и однозначный запрос для поиска. Кроме собственно документов в таких ИПС хранятся поисковые образы документов, каждый из которых содержит формализованное смысловое представление соответствующего документа. Такое преобразование исходного документа в его поисковый образ называется индексированием.
Автоматический поиск выполняется путем сравнения поискового предписания (формализованного запроса пользователя) и поисковых образов документов. Использование ИПЯ и механизмов поисковых образов позволяет применять интеллектуально развитые процедуры поиска:
– поиск по сложному запросу, состоящему из нескольких, логически связанных слов или фраз;
- поиск с выбором отдельных полей документа, наиболее соответствующих запросу;
- выбор фрагментов из разных документов;
- упорядочение выбранных документов или их фрагментов по степени сходства с запросом и т.д.
Можно отметить, что существуют достаточно интересные и наукоемкие направления исследований, связанные с разработкой ИПЯ, методов автоматической рубрикации и индексирования, формирования поисковых образов документов (см. [Корнеев, 2001]).
Упомянутые выше ИПС являются для пользователя законченными системами хранения и поиска документов в данной области. Собственно, поэтому их и называют правовыми базами данных. Существует еще один класс систем, которые представляют из себя, скорее, не готовую ИПС (хотя производителями они позиционируются именно как ИПС), а пакет прикладных программ для создания, редактирования, пополнения и использования документальной базы. Интересным примером может быть отечественная система «ODB-TEXT», которая является средством коллективной обработки документов и работает в сетевом режиме. Эта система позволяет конструировать собственные формы документов, формировать сами документы или экспортировать их из других текстовых редакторов, вести словарь предметной области, выполнять поиск в разных режимах, в том числе, с использованием естественно-языковых запросов. Более подробно об этой и других системах можно прочитать в [Корнеев, 2001].
Читать дальше:
Тема 4. Информационное моделирования при построении ИПС. Гипертекстовые ИПС. ч.1