Компьютер и мыслительные задачи. Онтологические модели представления знаний Существует множество обстоятельств, которые затрудняют распространение и обмен знаниями между людьми, столь

Эта страница представляет собой главу из нашего методического пособия
"Введение в онтологическое моделирование "
(нажмите для перехода к полной версии пособия в формате PDF).

Писателям-фантастам XX века казалось, что развитие вычислительных машин приведет к появлению интеллектуальных помощников человека, которые будут решать за него многие мыслительные задачи. Возможности сегодняшней техники превышают самые смелые прогнозы многих из этих авторов: компьютер умещается на ладони, всемирная сеть доступна практически везде. При этом для решения аналитических задач мы в большинстве случаев по-прежнему пользуемся в лучшем случае электронными таблицами вроде Excel. Это особенно заметно в бизнес-среде, где цена (не)правильно принятого решения имеет совершенно осязаемый эквивалент в виде многомиллиардных прибылей или убытков. Тем не менее, развитие информационной инфраструктуры бизнеса завязло на пути создания крупных «трехбуквенных систем» (ERP, CRM и т.д.), на которые тратятся огромные средства, но которые не способны дать организации-владельцу ничего особенно «интеллектуального». Современные системы «бизнес-аналитики» (BI) в основном заняты вычислением значений количественных показателей, часто имеющих весьма слабое отношение к описанию реальности, и манипулированию ими.

Отличным примером служит любимый бизнесом показатель EBITDA: он характеризует прибыль, и по этой причине часто используется, например, в качестве базы для начисления бонусов топ-менеджерам. Однако он не характеризует эффективность работы менеджера в том смысле, в каком ее интуитивно оценивает собственник: ведь путем уменьшения расходов можно увеличить значение EBITDA. Это всегда интересно менеджеру, но не всегда верно с точки зрения стратегического развития предприятия. А уж при расчете этого показателя по подразделениям компании возможности манипуляции открываются широчайшие. В большинство статей доходов и расходов вносят вклад сразу несколько подразделений, настройкой алгоритма расчета можно легко «награждать» фаворитов и «наказывать» неугодных. Разумеется, подобные маневры не имеют ничего общего с достижением реальной эффективности работы предприятия.

Еще рельефнее видны методологические проблемы при попытках решать оптимизационные задачи количественными методами. Типичный подход к этому вопросу состоит в формулировании «целевой функции», которая представляет собой описание какого-либо качественного состояния системы, представленного в виде числа – например, «обеспеченность населения такими-то услугами». Далее, также в количественной форме, задаются ограничения, варьируемые параметры, и после вычислений получается некий набор «оптимальных» решений. Однако их практическое воплощение часто приводит к результатам, противоположным поставленным целям, или имеет серьезные побочные последствия. Например, легко может оказаться, что «средняя температура по больнице» – обеспеченность услугами – достигла нужных значений, но определенным группам населения они стали вовсе недоступны. Или же качество этих услуг снизилось настолько, что они практически потеряли смысл для потребителей. Легко понять, что корень проблемы лежит в слишком серьезных модельных допущениях, которые были сделаны при формализации целевого параметра.

Указанные методические проблемы напрямую связаны с вычислительными возможностями – точнее, с ограниченностью той их части, которую освоило бизнес-сообщество. Ведь если более сложный и достоверный алгоритм расчета какого-либо показателя нельзя, по мнению бизнес-заказчика, реализовать в информационной системе – это обосновывает применение неверного, грубого, но технологически понятного способа расчета. Таким образом, в сущности, в сфере бизнеса человек пока по-настоящему доверил компьютеру только одну функцию – складывать и вычитать числа. Все остальное он по-прежнему делает сам, и делает, в большинстве случаев, не слишком качественно.

Разумеется, мы говорим только об общей тенденции; есть немало контрпримеров реализации по-настоящему эффективных систем, помогающих оптимизировать те или иные процессы, но почти все такие системы имеют узкую отраслевую направленность, и содержат жестко запрограммированные алгоритмы решения задач. Таким образом, системного влияния на положение дел они не оказывают.

Что же нужно сделать для того, чтобы компьютер стал по-настоящему помогать нам в решении интеллектуальных бизнес-задач, смог поддерживать принятие решений в любых сферах? Необходимо вдохнуть в него «искру разума», то есть научить его «думать», как мы. Фактически, для этого нужно воспроизвести в цифровом представлении те информационные структуры и процессы, которыми мы сами пользуемся в процессе мышления: понятийный аппарат, логические рассуждения. Тогда мы сможем реализовать и процессы обработки этих структур, то есть имитировать на компьютере отдельные фрагменты наших когнитивных способностей. После этого, получив определенные результаты, мы сможем критически посмотреть на смоделированные структуры и процессы, и улучшить их. В сочетании с недоступной человеку способностью вычислительных машин к быстрой обработке огромных объемов информации, такой подход обещает дать небывало высокий уровень качества поддержки принятия решений со стороны информационных систем.

Мы не случайно привели именно логическое мышление в качестве примера когнитивного процесса, который можно воспроизвести в вычислительной среде. Существуют и другие подходы, наиболее популярным из которых является использование нейросетей – то есть имитация процессов, происходящих при взаимодействии нейронов в головном мозгу. При помощи такого рода средств успешно решаются задачи распознавания образов, речи и т.д. Можно «обучить» нейросети и для применения в качестве средства поддержки принятия решений. Однако с ростом числа факторов, требуемых для оценки ситуации, сложности их структуры, способов влияния на ситуацию, возможности нейросетей становятся все менее убедительными: на обучение требуется больше времени, получаемые результаты носят вероятностный характер, не обеспечивают логической доказуемости. Выход за пределы заранее ограниченного круга ситуаций приводит к невозможности получить от нейросети результат, пригодный для практического использования. Имитация же логического мышления свободна от большинства этих недостатков, а коррекция логической схемы при изменении условий требует куда меньше усилий, чем переобучение нейросети. Зато при составлении логических моделей принципиально важным становится их корректность, непротиворечивость, релевантность, зависящая от человека – автора модели.

Одна из главных особенностей человеческого сознания состоит в том, что оно лениво. Наш мозг отсекает все «лишнее», сводя наше представление о событиях и явлениях к довольно простым определениям. Мы видим только черное и белое, и принимаем решения, исключив из рассмотрения подавляющее большинство объективной информации.

Этим же грехом человек страдает при анализе бизнес-процессов и сред. Вместо того, чтобы воспринимать бизнес как сложную систему, не поддающуюся упрощению дальше определенного предела без критической потери достоверности результатов аналитики, человек старается свести все критерии оценки и управления к нескольким числовым показателям. Таким образом удается упростить получаемую модель, снизить затраты на ее создание. Но поступающим так не следует удивляться, когда их прогнозы не оправдываются, а решения, принятые на основании моделирования оказываются неверными.

Главный принцип качественной аналитики, управления, основанного на знаниях, звучит так: НЕ УПРОЩАТЬ модель без необходимости.

Онтологическое моделирование: цели и средства

К сожалению, распространенные сегодня компьютерные технологии не благоприятствуют реализации этого принципа. Если в качестве инструмента анализа нам доступен только Excel или реляционные базы данных – описание бизнеса неизбежно придется сводить к ограниченному набору числовых показателей. Поэтому одной из наиболее актуальных проблем развития ИТ в настоящий момент является доведение до широкой промышленной эксплуатации таких технологий, которые позволяют строить действительно сложные и комплексные информационные модели, и решать с их помощью те оптимизационные, аналитические, оперативные задачи, перед которыми другие технические средства оказываются бессильны.

Многообещающим, но несколько недооцененным на сегодняшний день направлением решения этой задачи является использование так называемых семантических технологий. Идеи автоматизированной обработки концептуализированного знания неоднократно выдвигались мыслителями начиная с эпохи Возрождения, ограниченно использовались в лучшие годы советской плановой экономики, но до действительно функционального воплощения доросли только сейчас. На сегодняшний день созданы все необходимые компоненты методики и технологий, необходимых для работы с онтологическими моделями, которые являются предметом обработки с помощью семантических технологий. Слово «онтология» означает совокупность знаний; термин «семантические технологии» подчеркивает тот факт, что они обеспечивают работу со смыслом информации. Таким образом, переход с традиционных ИТ на семантические технологии является переходом от работы с данными к работе со знаниями. Разница между этими двумя терминами, которые здесь мы используем исключительно в применении к содержанию информационных систем, подчеркивает отличие в способе использования информации: для восприятия и использования данных необходим человек, субъект, которому приходится выполнять при этом операцию осмысления, выявления смысла данных, и его переноса на интересующую часть реальности. Знания же могут восприниматься непосредственно, так как они уже представлены при помощи того понятийного аппарата, которым пользуется человек. Кроме того, с представленными в электронном виде знаниями (онтологиями) могут выполняться и полностью автоматические операции – получение логических выводов. Результатом этого процесса являются новые знания.

Аналитики Gartner называли семантические технологии одним из наиболее многообещающих ИТ-трендов 2013 года, однако их оптимизм оказался преждевременным. Почему? Все по той же причине – человек ленив, а создание семантических моделей требует серьезных умственных усилий. Тем больше выгод и преимуществ перед конкурентами получат те, кто предпримет эти усилия, и трансформирует их в реальный бизнес-результат.

Введение

В последнее время использование онтологий для моделирования предметных областей автоматизированных информационных систем получает все более широкое распространение . Наиболее часто такой подход применяется для интеллектуальных систем , в частности, предназначенных для функционирования в сети Интернет. Это связано с тем, что онтологическая модель позволяет разработать модель метаданных, что значительно улучшает использование системы широким кругом пользователей с точки зрения организации взаимодействия.

Онтология - это структура, описывающая значения элементов некоторой системы, попытка структурировать окружающий мир, описать какую-то конкретную предметную область в виде понятий и правил, утверждений об этих понятиях, с помощью которых можно формировать отношения, классы, функции и пр. Онтологии предметных областей ограничиваются описанием мира в рамках конкретной предметной области.

Задача построения онтологической модели предметной области информационной системы для поддержки коммерциализации результатов инновационных разработок в научных исследованиях является актуальной и сложной научно-практической задачей. Сложность поставленной задачи определяется, в частности, наличием множества межпредметных и междисциплинарных связей и различными целями конечных пользователей системы: ученых, экспертов, бизнесменов, политиков, сотрудников общественных и коммерческих организаций.

Целью настоящей работы является разработка и создание онтологической модели предметной области информационной системы для поддержки коммерциализации результатов научных исследований.

Краткий обзор стандарта CERIF 2008

Во всех странах мира проводится множество различных научных исследований, причем схема проведения научных исследований в разных странах похожа. Как правило, сначала осуществляется стратегическое планирование, потом объявляется программа исследований, проходит поиск предложений, подходящие предложения принимаются к работе, результаты исследований отслеживаются, анализируются и впоследствии используются в тех или иных целях.

Исследования в одной и той же области знаний могут производиться одновременно в нескольких научных организациях, в том числе и в одной стране. Кроме того, в век глобализации исследовательские организации одной страны могут опираться в своей работе на результаты, полученные в других странах. Поэтому важно обеспечить обмен полной и достоверной информацией, наборами данных между различными странами и фондами на всех этапах проведения исследований, начиная с этапа подачи заявки и заканчивая этапом публикации рецензии на инновационную разработку. Проблема стандартизации данных научных исследований возникла ещё в 80-е годы прошлого века, и в качестве решения этой проблемы сначала появлялись варианты обобщения схем баз данных для хранения результатов научных исследований, на основе которых позднее возник стандарт CERIF (Common European Research Information Format - общий европейский формат для исследовательской информации) .

Моделированием предметной области научных исследований на основе этого стандарта в последние 14 лет в Евросоюзе активно занимается организация euroCRIS. Основные свойства этого стандарта:
1) стандарт поддерживает концепцию объектов или сущностей с атрибутами: например, таких как проект, человек, организация;
2) стандарт поддерживает n:m отношения между объектами, используя «связывающие отношения», и таким образом обеспечивает богатую семантику, включающую роли и временные характеристики;
3) стандарт полностью интернационален с точки зрения языкового или знакового набора;
4) стандарт расширяем без повреждения основной модели данных, что предоставляет возможность оперирования на основном уровне, не препятствуя ещё более широкому взаимодействию.

Основные объекты в стандарте CERIF - это Person, OrganisationUnit и Project (Человек, Организация и Проект), каждый из которых рекурсивно связан сам с собой и поддерживает отношения с другими объектами. Стандарт описывает множество дополнительных объектов, с помощью которых полностью описываются исследовательские проекты, их участники, результаты их совместной работы и пр. Семантика данных задается на специальном семантическом уровне, в таблицах, описывающих возможные роли и взаимодействия между отдельными объектами.

Взаимоотношения между проектом, человеком, организацией показываются в стандарте CERIF при помощи специальных связей, и их считают одной из сильных сторон модели CERIF. Связь всегда соединяет два объекта. Все связи строятся по одинаковой схеме: они наследуют названия и идентификаторы от объектов-родителей и дополнительно обладают атрибутами даты начала и конца действия связи, в каждой связи отражается семантика через ссылку на семантический слой CERIF посредством специальных идентификаторов. Таким образом, все возможные взаимоотношения между проектами, людьми и организациями задаются с помощью этих связей, а характер взаимоотношений подчиненности (кто чей автор, кто чей подданный, что часть чего и т.д.) показывается благодаря семантическому слою, в котором все эти роли расписаны.

Для отображения результатов научной деятельности в стандарте CERIF предусмотрены специальные объекты: ResultPublication, ResultPatent, ResultProduct (Публикация, Патент, Продукт). Помимо основных и результирующих объектов в CERIF также используется множество так называемых объектов второго уровня, таких как: FundProg - программа финансирования, Event - событие, Prize - вознаграждение, Facil - средства обслуживания, Equip - оборудование и т.д. Объекты второго уровня позволяют представить контекст исследования посредством связей с основными и результирующими объектами.

Модель CERIF поддерживает возможность многоязычности для имен, названий, описаний, ключевых слов, обобщений и даже для семантики. Используемый язык хранится в атрибуте LangCode с максимум пятизначными значениями (например, en, de, fr, si, en-uk, en-us, fr-fr, fr-be, fr-nl). Атрибут Trans предоставляет информацию о типе перевода: o=original (язык оригинала), h=human (перевод человеком), или m=machine (машинный перевод). Помимо основных, результирующих и объектов второго уровня многоязычность поддерживают также и классификаторы на семантическом уровне CERIF. Таким образом, становится возможным поддерживать классификационные схемы на различных языках.

Стандарт CERIF рекомендован к использованию в системах CRIS (Current Research Information Systems - информационные системы по актуальным научным исследованиям) , которые собирают воедино всю информацию, лежащую в основе научных исследований. Использование подобных систем значительно облегчает взаимодействие инвесторов и исследователей. Исследовательские группы получают лёгкий доступ к информации, необходимой для разработки инновационных идей, руководители и управляющий персонал получают возможность проще отслеживать и оценивать текущую исследовательскую деятельность, инвесторы и исследовательские советы могут оптимизировать процесс финансирования инновационных проектов.

Реальный пример использования стандарта - это портал IST World, построенный на основе стандарта CERIF. Он предоставляет информацию об экспертах, исследовательских группах, центрах и компаниях, задействованных в создании технологий для растущего информационного сообщества. Главный акцент сервиса - экспертиза и опыт основных участников процесса в европейских странах. Репозиторий содержит информацию по проектам пятой, шестой и седьмой рамочных программ Европейской Комиссии, а также информацию, связанную с этими научно-исследовательскими проектами, собранную в Болгарии, Кипре, Чехии, Эстонии, Венгрии, Латвии, Литве, Мальте, Польше, Румынии, России, Сербии, Словении, Словакии и Турции.

В России единой системы по текущим научным исследованиям не существует. Все попытки создания таких систем проходят разобщено в рамках различных программ и проектов. В Черноголовке в рамках Российской академии наук по гранту HAAB реализуется проект, целью которого является создание и разработка информационной системы для поддержки коммерциализации результатов интеллектуальной деятельности для предоставления заинтересованным юридическим и физическим лицам данных об инновационных разработках институтов РАН с возможной их последующей коммерциализацией. В этой системе под инновационными разработками понимаются информационные образы объектов интеллектуальной собственности, технических решений, а также технологические запросы, идеи и иные нематериальные активы, полученные в результате научно-технической деятельности.

Анализируя стандарт CERIF, обнаруживаем, что он не охватывает предметные области, связанные с работой экспертов и подготовкой инновационной разработки к процессу коммерциализации. Поэтому авторами было предложено расширение модели, предлагаемой этим стандартом на указанные выше предметные области.

Инновационный процесс со структурной точки зрения представляет собой комплекс последовательно взаимосвязанных действий по созданию, освоению и распространению инновации. Инновационный процесс предполагает эволюционное изменение состояния инновационного продукта, его превращение из идеи в товар, а также мониторинг его дальнейшей рыночной судьбы.

Модель предметной области для поддержки инновационных разработок

Предметная область информационной системы для поддержки коммерциализации результатов научных исследований является суммой объединения совокупности нескольких предметных областей, а именно предметной области научных исследований, предметной области по возможным областям внедрения и предметной области экспертов по коммерциализации инновационных разработок. При этом последнее слагаемое должно помогать решать следующую задачу: динамически формировать пути взаимодействия в отношении «многие-ко-многим» между первыми двумя слагаемыми.

Онтология области научно-исследовательской деятельности представляет собой структуру системы, отображающей процесс научной деятельности. Научные исследования возможны только при наличии полной и достоверной информации и наборов данных: начиная с этапа подачи заявки и заканчивая этапом публикации рецензии на разработку. Информационные системы по текущим исследованиям должны собирать воедино всю информацию, лежащую в основе научных исследований. Подобные системы могут использоваться широким кругом лиц: от исследователей до инвесторов. Научно-исследовательские организации могут размещать через интернет информацию о своих инновационных разработках и выполнять поиск предложений потенциальных инвесторов и заказчиков, потенциальные инвесторы и заказчики могут размещать заказы на выполнение НИОКР и предложения об инвестициях в сфере высоких технологий и выполнять поиск инновационных разработок.

В предметной области по научным исследованиям можно выделить следующие основные классы (Рис.1):


Рисунок 1. Основные классы предметной области по научным исследованиям

Проект содержит информацию о проектах, исследованиях, результатом которых будут инновационные разработки в том или ином виде, а также об их сроках. Проекты могут быть связаны с другими проектами, связаны с людьми, организациями, патентами, публикациями, продуктами и др. объектами системы.

Организация содержит информацию об организациях, имеющих отношение к проектам. Содержит описание организации: валюту расчётов, численность сотрудников, оборот и т.д. Организации также могут быть взаимосвязаны и связаны с другими объектами системы.

Человек содержит информацию о людях, задействованных в научных проектах. Люди также могут быть взаимосвязаны и связаны с другими объектами.

Дополнительный объект Имена содержит информацию о различных вариантах написания имени одного человека, в том числе и на разных языках.

Публикация содержит информацию о результатах исследований в виде публикаций. Содержит выходные данные о публикации: о дате выхода, издании, серии, страницах, ISBN, ISSN, краткое содержание, комментарии и пр. Публикации могут быть взаимосвязаны и связаны с другими результатами исследований, а также с другими объектами системы: проектом, организациями, людьми и т.д.

Патент содержит информацию о патентах, выданных на результаты исследований. Содержит сведения о стране выдачи патента, дате регистрации и краткое содержание. Патенты могут быть связаны с публикациями, проектами, организациями и людьми.

Продукт содержит информацию о продуктах, полученных в результате исследований, т.е. об инновационных разработках, а также описание продукта. Продукты могут быть связаны с публикациями, проектами, людьми, организациями.

Дополнительные объекты, предусмотренные стандартом CERIF, также оказываются задействованными в подсистеме: Язык служит для отображения информации о языке представления данных в системе, Адрес - для отображения информации о физических адресах людей и организаций, ЭлектронныйАдрес - для отображения информации об электронных адресах людей и организаций, Страна - для отображения информации о странах, Валюта - для информации о валютах, ПрограммаФинансирования - для информации о программе, в рамках которой выполняется проект, и т.д.

При помощи объектов семантического уровня Класс и КлассификационнаяСхема характеризуются типы отношений, формы заявлений, классификация субъектов. Например, для обозначения типов публикаций или видов продуктов и т.д.

В предметной области возможных областей внедрения можно выделить следующие классы (Рис.2):
Организация содержит информацию об организациях, заинтересованных в инвестировании в инновационные разработки, в проведении НИОКР. Содержит описание организации: валюту расчётов, численность сотрудников, оборот и т.д.

Человек содержит информацию о людях, занятых в организациях, или об индивидуальных потенциальных инвесторах. Люди могут быть взаимосвязаны и связаны с другими объектами. Для данной предметной области также применим объект Имена, который содержит информацию о различных вариантах написания имени одного человека. Предложение содержит информацию о предложениях от потенциальных инвесторов на проведение НИОКР, на инвестиции, на разработку определённой темы. Содержит описания предложений, а так же информацию об их сроках. Предложения могут быть взаимосвязаны, а так же связаны с людьми, организациями и др. объектами системы. Патент содержит информацию о патентах на разработки, в которые организация хочет инвестировать. Продукт содержит информацию об интересных инвесторам продуктах.

По аналогии с предметной областью научных исследований в предметной области возможных областей внедрения можно выделить дополнительные объекты: Язык, Адрес, ЭлектронныйАдрес, Страна, Валюта и др. Для характеристики типов отношений между объектов и для классификации самих объектов также можно использовать объекты семантического уровня Класс и КлассификационнаяСхема.

Рисунок 3. Основные классы предметной области экспертов.

В предметной области по экспертной оценке возможности коммерциализации инновационных разработок можно выделить следующие классы (Рис.3):

Человек содержит информацию об экспертах, проводящих оценку и анализ инновационных разработок и выносящих решение о возможности их коммерциализации. Тот же дополнительный объект Имена содержит информацию о различных вариантах написания имени одного человека.

Организация содержит информацию об организациях, в которых заняты эксперты. Продукт содержит информацию о научно-технических разработках, оценкой которых занимаются эксперты. Отдельно можно выделить объект Оценка для хранения заключений экспертов о возможности коммерциализации разработок.

По аналогии с предметными областями научных исследований и возможных областей внедрения в предметной области экспертов можно выделить дополнительные объекты: Язык, Адрес, ЭлектронныйАдрес, Страна, Валюта и др.

Общая структура, объединяющая все три подсистемы, в полной мере отражает процесс проведения научных исследований и оценки возможности их коммерциализации (Рис.4).



Рисунок 4. Предметная область информационной системы для поддержки коммерциализации результатов научных исследований

Основные принципы построения информационной системы и ее пользователи

В информационной системе для поддержки коммерциализации результатов научных исследований РАН можно выделить три подсистемы: подсистема научных исследований, проводимых в институтах РАН (подсистема институтов), подсистема возможных областей внедрения (подсистема потенциальных инвесторов) и подсистема экспертной оценки возможности коммерциализации инновационных разработок (подсистема экспертов). Соответственно, в каждой подсистеме можно выделить три группы пользователей - группа владельцев интеллектуальной собственности (исследователей), группа экспертов и группа инвесторов.

В информационной системе каждый пользователь - владелец объекта интеллектуальной собственности (исследователь) - независимо от степени завершенности своей разработки (патент, решение, идея и т. п.) может представить информацию об ОИС, о своих научно-технических разработках в виде совокупного информационного образа инновационной разработки, в которую могут быть включены резюме, технологическое предложение, информация о владельце и пр. Кроме того, он может добавить сведения о патентной защищенности своих разработок, а также разместить дополнительную информацию о них. Потенциальные инвесторы, заказчики НИОКР или их представители могут разместить в системе свои предложения об инвестициях, информацию о своих потребностях (интересах) и заказы на проведение НИОКР, на экспертную оценку инновационной разработки, проводить поиск инновационных разработок, ознакомиться с уже имеющимися экспертными оценками разработок. В системе может быть предусмотрена отдельная виртуальная площадка для экспертов, которые могут разрабатывать опросный лист (оформить технологический аудит), проводить анализ бизнес-идей и оценивать инвестиционную привлекательность инновационных разработок. Каждый пользователь информационной системы в зависимости от своих интересов имеет возможность проводить поиск информационных объектов и сопутствующей информации, их отбор, анализ, чтобы впоследствии принять решение о целесообразности дальнейших контактов.

Незарегистрированный в системе пользователь, используя возможности гостевого входа, может также принять заочное участие в работе информационной системы. Ознакомившись с открытыми к просмотру резюме инновационных разработок, предложениям инвесторов, оценками экспертов, он может решить, имеются ли в системе интересующие его разработки или предложения для исследований, понять, по каким критериям идет оценка инвестиционной привлекательности экспертами, а затем принять решение о регистрации и дальнейшей работе в информационной системе по поддержке коммерциализации научных исследований.

Заключение

Авторы считают, что в данной работе новыми являются следующие положения и результаты: онтологическая модель предметной области информационной системы поддержки жизненного цикла инновационных разработок институтов РАН.

Разработанная модель позволяет разработать программную архитектуру такой системы, разработать метаданные и построить совокупность взаимосвязанных тезаурусов для поддержки семантики запросов конечных пользователей.

Литература:
1. Лапшин В.А. Онтологии в компьютерных системах. - М.: Научный мир, 2010.- 222 с.
2. Gruber T.R. The role of common ontology in achieving sharable, reusable knowledge bases // Principles of Knowledge Representation and Reasoning. Proceedings of the Second International Conference. J.A. Allen, R. Fikes, E. Sandewell - eds. Morgan Kaufmann, 1991, P.601-602.
3. Константинова Н.С. Онтологии как системы хранения знаний [Электронный ресурс] / Н.С. Константинова, О.А. Митрофанова. - Режим доступа: http://www.sci-innov.ru/icatalog_new/index.php?action=send_att&entry_id=68352&fname=68352e2-st08_(Митрофанова О.А.).pdf
4. CERIF 2008 - 1.2 Full Data Model (FDM). Introduction and Specification [Электронный ресурс] - Режим доступа: http://www.eurocris.org/Uploads/Web%20pages/CERIF2008/Release_1.2/CERIF2008_1.2_FDM.pdf
5. Кулагин М.В., Лопатенко А.С. Научные информационные системы и электронные библиотеки. Потребность в интеграции // Сборник трудов Третьей Всероссийской конференции по электронным библиотекам. RCDL"2001 Петрозаводск, 11-13 сентября 2001 г., с. 14-19.

Понятие субстанции в онтологических системах. Понятие субстанции и бытие. Поиски субстанциальной основы бытия в истории философии. Субстанция как самодетерминирующаяся основа бытийных процессов. Общее представление о соотношении духа и материи, души и тела. Субстанция, дух и разум. Категории «абсолютное», «относительное», «всеобщее», «единичное», «сущность» и «явление» для решения вопроса о соотношении субстанции и форм ее проявления. Материализм и идеализм о природе сознания и мышления и их соотношения с материей.

Материалистический субстанциализм. Разновидности построения материалистической онтологии. Чувственно-материальный Космос как основная черта античной натурфилософии. Диалектический материализм как один из вариантов материалистического субстанциализма и его место в современной философии. Понимание материи как объективной реальности и как субстанции всех процессов в мире. Принцип материалистического единства мира. Наука и материалистическая философия. Современные представления о структуре материи, веществе и полях. Иерархия материальных систем в мире. Структурная бесконечность и вечность материи в качестве субстанции. Всеобщие атрибуты материи. Взаимоотношение всеобщих и специфических свойств материи. Структурные уровни материи и формы ее системной организации. Методы выявления всеобщих свойств материи и доказательство их универсальности. Взаимодействие и движение как атрибуты материи. Соотношение взаимодействия и связи. Типы взаимосвязей в мире. Асимметрия причинных связей в необратимых изменениях. Проблема распространения связей и взаимодействий в пространстве и времени. Является ли мир бесконечным или представляет собой связанное целостное образование, целостную систему? Взаимодействие и автономность материальных систем. Основные формы движения материи и критерии их классификации. Взаимосвязь живой и неживой природы.

Идеалистический субстанциализм. Разновидности идеалистического субстанциализма в истории философии. Идея универсализма мира и чувственно-воспринимающий Космос в античной философии. Античный идеализм. Религиозно-философские модели идеалистического субстанциализма. Особенности построения онтологической системы в логическом идеализме. Духовно-идеальные начала бытия. Соотношение идеального и материального в идеалистической интерпретации. Атрибуты идеальной субстанции: сознание, целеполагание, свобода, творчество. Сознание как идеальная субстанциальная основа мира. Понятие эйдоса как причинно-целевой конструкции мира, как самомыслящего существа в античной философии. Античное понятие Космоса как "мирового субъекта". Абсолютный дух в философии Гегеля. Концепция мирового космического разума. Понятие Бога в истории религии и философии в качестве идеальной субстанциальной основы мира. Логос и Бог.



Креационистские варианты онтологии. Соотношение Бога и Мира в онтологических системах средневековья. Разум и воля. Божественный дух и душа человека. Развитие представлений о душе. Душа как носитель сознания и всего духовного мира человека. Понятие духовности. Духовность и религиозность. Идеально-смысловое содержание сознания и его онтологический статус. Достижения и ограниченности идеалистической онтологии.

Персоналистский субстанциализм. Человек как микрокосм в философии эпохи Возрождения. Ценности человеческого существования и место Человека в Космосе. Творчество как главный признак особого места человека в мире. Монадология Лейбница и идеал-реализм Н.О. Лосского. Динамическое понимание материи. Антропный принцип в космологии. Космический подход к человеку и сознанию. Особенности онтологических исканий в русской философии.

Кризис онтологизма и антисубстанциалистские модели философии. Кризис онтологизма в истории философии, тезис о «смерти метафизики» (предпосылки, мотивы, декларации и аргументы). Бытие и сознание: проблема соответствия философских онтологических построений объективной реальности. Онтологическая картина мира, реальный мир и индивид. Конструктивная и творческая активность человеческого "Я" и критика онтологизма.

Онтологические модели в современной философии. Программы реабилитации метафизики и проекты «новой онтологии». Иерархические модели онтологии: Бытие как совокупность форм движения материи Ф. Энгельса. Слои бытия Н. Гартмана. Региональные онтологии Э.Гуссерля. Проблема выделения региональных онтологий: онтология социума. Онтология сознания и самосознания. Онтология языка. Онтология личного существования (экзистенция). Онтология телесности. Онтология культуры. Варианты экзистенциальной метафизики: фундаментальная онтология М. Хайдеггера. Мир трансцендентного бытия К. Ясперса.

Диалектико-материалистическая модель онтологии. Материалистическое решение основного вопроса философии. Понятие материи как объективной реальности. Структурные уровни бытия.

Проблема типологизации онтологических моделей. Монистическая, плюралистическая и дуалистическая онтологии. Эссенциалистские и антиэссенциалистские онтологии. Иерархические и неиерархические онтологические построения. Натурфилософские модели. Теистические модели. Экзистенциально-антропологические модели. Феноменолого-герменевтические модели.

Бытие и развитие

Проблема движения в истории философии. Соотношение движения, изменения и развития. Основные свойства движения. Философские модели развития: креационизм, теория эманации, преформизм, эмерджентизм, эволюционизм. Многообразие форм движения и структурные уровни бытия. Изменяющееся и неизменяющееся бытие. Проблема движения в истории философии. Проблема всеобщности движения. Парадоксы движения.

Развитие и возникновение новых форм бытия. Развитие и диалектика. Диалектические концепции развития. Их структура, законы, принципы, основные понятия. Парадокс возникновения нового. Проблема соотношения актуального и потенциального в развитии. Нелинейность развития. Законы и категории развития.

Виды диалектики. Источник, механизм и направленность развития. Философские законы, описывающие развитие мира (Г.В.Ф.Гегель, К.Маркс, диалектический материализм). Закон единства, взаимодействия и борьбы противоположностей. Закон взаимного перехода количественных и качественных изменений. Закон диалектического отрицания.

Современные взгляды на эволюцию человека, общества и Вселенной. Человек, природа, космос. Феномен жизни и ее место во Вселенной. Проблема иных форм жизни во Вселенной и гипотеза об уникальности человеческого разума (В.Шкловский). Глобальный кризис техногенно-потребительской цивилизации и концепция ноосферы. Черты антропокосмического поворота в современной науке и культуре.

Человек как "био-логосное" существо.

"Логосная" компонента человека. Человек как присутствие. Понятие "культурных машин". Основные феномены человеческого бытия. Человек как "символическое" существо. Структура "символического пространства". Исторические типы ментальности. Трансцендентальные условия порождения символов: декларативность и способность человека к синтетическим актам. Право человека на ошибку. Прогресс и обострение глобальных проблем человечества. Синергетика и процессы самоорганизации в открытых нелинейных системах. Глобальный эволюционизм в структуре современного сознания. Процессы самоорганизации в открытых нелинейных системах. Синергетика и ее основные понятия (аттракторы, точки бифуркации, флуктуации, фракталы). Глобальный эволюционизм.

Роль информации в процессах развития. Изменение системы коммуникационных средств в современном мире как важнейшее условие ускорения темпов развития.

Курск 2007


ББК Печатается по решению

редакционно-издательского совета

Курского государственного Университета

Рецензент -

: Учеб. пособ. для студентов университета. – Курск: Изд-во Курск.гос.ун-та, 200 . – 84 с.

Учебно-методическое пособие посвящено наиболее перспективному подходу к моделированию предметных областей – онтологическому. Рассмотрены основные понятия, определения, методология разработки и построения онтологий на примере учебной базы знаний «Мир Животных». Рассмотрено одно из средств построения онтологий – Protégé.

Предназначено для студентов старших курсов, обучающихся по специальности …….. математическое обеспечение и администрирование информационных систем.


Введение................................................................................... 4

1. Теоретические аспекты построения онтологий................... 5

1. 1. Определение онтологии................................................. 5

1. 2. Модели онтологии и онтологической системы............ 14

1. 3. Применение онтологий................................................ 21

1. 4. Инструменты инженерии онтологий........................... 25

2. Создание онтологии предметной области в Protégé.......... 30

2. 1. Предварительные замечания....................................... 30

2. 2. Основные сведения о Protégé...................................... 37

2. 3. Создание онтологии предметной области в Protégé.... 40

3. Семестровое задание......................................................... 77

Порядок выполнения проекта:............................................ 77

Литература............................................................................. 82


Введение

Экспертная система представляет собой совокупность трех, взаимозависимы «модулей»: база знаний, машина вывода, интерфейс пользователя. Машину вывода и интерфейс обычно объединяют и называют оболочкой экспертной системы. В этом случае можно говорить о двух составляющих: оболочка и база знаний. Наиболее важным компонентом среди них, безусловно, является база знаний. Проблема адекватного метода, или способа, моделирования предметной области и как следствие формализация знаний с последующим занесением их в базу знаний является если не центральной, то, по меньшей мере, важной в теории искусственного интеллекта.



Существует множество методов представления знаний. Это широко известные логические и фреймовые методы, а также семантические сети и правила продукции. При создании систем основанных на знаниях (экспертные системы, несомненно, к ним относятся) применяются различные способы представления знаний.

Каждый из этих методов имеет свои достоинства и недостатки. На данный момент значительный интерес представляет использование онтологии в качестве базы знаний систем основанных на знаниях. Заметим, что в некоторой литературе база знаний отождествляется с онтологией. Вообще говоря, однозначного определения онтологии предметной области не существует, зачастую онтологию определяют так, как выгодно разработчику на данный момент. Этой, и некоторым другим интересным проблемам, связанным с онтологиями, а также вопросы их технической реализации рассмотрены в данном пособии.

Теоретические аспекты построения онтологий

Определение онтологии

Как было замечено ранее, представление знаний является важной проблемой в искусственном интеллекте. Под термином «представление знаний» может пониматься либо способ кодирования знаний в базе знаний, либо формальная система, которая используется для формализации знаний.

Практика разработки систем, основанных на знаниях, для сложных предметных областей и задач показала, что в каждой предметной области существует некоторая структура, занимающая промежуточное положение между представлением знаний, используемым в модели предметной области, и моделью предметной области (базой знаний).

Эта структура получила название "онтология предметной области".

В философии онтология это - термин, определяющий учение о бытии, о сущем, в отличие от гносеологии - учении о познании. С другой точки зрения, онтология - это формально представленные на базе концептуализации знания. Концептуализация предполагает описание множества объектов и понятий, знаний о них и связей между ними.

Онтологией называется эксплицитная спецификация концептуализации. Формально онтология состоит из терминов, организованных в таксономию, их определений и атрибутов, а также связанных с ними аксиом и правил вывода.

В простейшем случае онтология описывает только иерархию концептов, связанных отношениями категоризации. В более сложных случаях в нее добавляются подходящие аксиомы для выражения других отношений между концептами и для того, чтобы ограничить их предполагаемую интерпретацию.

Учитывая это, онтология представляет собой базу знаний, описывающую факты, которые предполагаются всегда истинными в рамках определенного сообщества на основе общепринятого смысла используемого словаря.

Выделим следующие интерпретации этого термина:

1. Онтология как философская дисциплина.

2. Онтология как неформальная концептуальная система.

3. Онтология как формальный взгляд на семантику.

4. Онтология как спецификация «концептуализации».

5. Онтология как представление концептуальной системы через логическую теорию, характеризуемую:

o специальными формальными свойствами или

o только ее назначением

6. Онтология как словарь, используемый логической теорией.

7. Онтология как (метауровневая) спецификация логической теории.

Говоря об онтологии в рамках первой интерпретации имеют в виду философскую дисциплину изучающую природу и организованность сущего.

Согласно второй интерпретации онтология является концептуальной системой, которая может выступать как базис определенной базы знаний. Согласно интерпретации 3 онтология, на основе которой построена база знаний, выражается в терминах подходящих формальных структур на семантическом уровне. Таким образом, эти две интерпретации рассматривают онтологию как концептуальную «семантическую» сущность, неважно, формальную или неформальную, в то время как интерпретации 5-7 трактуют онтологию как специальный «синтаксический» объект. Четвертая интерпретация - одна из наиболее проблематичных, так как точный смысл ее зависит от понимания терминов «спецификация» и «концептуализация».

Первый из подходов к определению понятия "онтология предметной области", условно названный гуманитарным, предполагает определения в интуитивно понимаемых терминах. Второй подход к определению понятия онтология условно назван компьютерным. В рамках этого подхода разрабатываются компьютерные языки для представления онтологий.

Основным достоинством компьютерного подхода является формальность предлагаемых средств для описания онтологий. Определение понятия онтология предметной области в рамках этого подхода не проясняет содержательную сущность этого понятия, а, наоборот, затемняет эту сущность многочисленными техническими деталями, связанными с компьютерной реализацией, и не отличает его от других понятий, в частности от понятия модели предметной области (базы знаний).

В рамках третьего, математического подхода делаются попытки определить понятие онтология в математических терминах или с помощью математических конструкций.

Онтология - это логическая теория, которая ограничивает допустимые модели логического языка. Онтология в этом случае должна обеспечивать аксиомы, которые ограничивают значение нелогических символов (предикатов и функций) логического языка, используемых как "примитивы" для определенных целей представления. Цель онтологии – характеризовать концептуализацию, ограничивая возможные интерпретации нелогических символов логического языка для установления консенсуса о том, как описывать знания с использованием этого языка. Концептуализация рассматривается как множество неформальных правил, которые ограничивают структуру части действительности.

Итак, под онтологией предметной области понимают:

1. Онтология предметной области есть та часть знаний предметной области, относительно которой предполагается ее неизменность. Относительно остальной части знаний предметной области предполагается, что она может изменяться, но должна оставаться согласованной с онтологией предметной области.

2. Онтология предметной области есть та часть знаний предметной области, которая ограничивает значения терминов предметной области. Значения терминов предметной области не зависят от остальной (изменяемой) части знаний предметной области.

3. Онтология предметной области является множеством соглашений о предметной области, другая часть знаний предметной области является множеством эмпирических и других законов этой области. Онтология определяет степень согласования значений терминов специалистами предметной области.

4. Онтология предметной области является явно заданной внешней аппроксимацией неявно заданной концептуализации. Концептуализация есть подмножество множества всех ситуаций, которые могут быть представлены. Множество ситуаций, соответствующих базе знаний, есть подмножество концептуализации. Это подмножество есть некоторая аппроксимация множества ситуаций, возможных в действительности.

В дальнейшем, для определенности, будем считать, что онтология – формальное явное описание понятий в рассматриваемой предметной области (классов (иногда их называют понятиями)), свойств каждого понятия, описывающих различные свойства и атрибуты понятия (слотов (иногда их называют ролями или свойствами)), и ограничений, наложенных на слоты (фацетов (иногда их называют ограничениями ролей)) . Онтология вместе с набором индивидуальных экземпляров классов образует базу знаний.

Приведем некоторые причины необходимости разработки онтологий. Итак, онтологии необходимы для:

· совместного использования людьми или программными агентами общего понимания структуры информации;

· возможности повторного использования знаний в предметной области;

· того чтобы сделать допущения в предметной области явными;

· отделения знаний в предметной области от оперативных знаний;

· анализа знаний в предметной области.

Совместное использование людьми или программными агентами общего понимания структуры информации является одной из наиболее общих целей разработки онтологий. К примеру, пусть, несколько различных веб-сайтов содержат информацию по медицине или предоставляют информацию о платных медицинских услугах, оплачиваемых через Интернет. Если эти веб-сайты совместно используют и публикуют одну и ту же базовую онтологию терминов, которыми они все пользуются, то компьютерные агенты могут извлекать информацию из этих различных сайтов и накапливать ее. Агенты могут использовать накопленную информацию для ответов на запросы пользователей или как входные данные для других приложений.

Обеспечение возможности использования знаний предметной области стало одной из движущих сил недавнего всплеска в изучении онтологий. Например, для моделей многих различных предметных областей необходимо сформулировать понятие времени. Это представление включает понятие временных интервалов, моментов времени, относительных мер времени и т.д. Если одна группа ученых детально разработает такую онтологию, то другие могут просто повторно использовать ее в своих предметных областях. Кроме того, если нам необходимо создать большую онтологию, можно интегрировать несколько существующих онтологий, описывающих части большой предметной области. Возможно повторно использовать основную онтологию, такую как UNSPSC, и расширить ее для описания интересующей нас предметной области.

Создание явных допущений в предметной области , лежащих в основе реализации, дает возможность легко изменить эти допущения при изменении наших знаний о предметной области. Жесткое кодирование предположений о мире на языке программирования приводит к тому, что эти предположения не только сложно найти и понять, но и также сложно изменить, не будучи программистом. Кроме того, явные спецификации знаний в предметной области полезны для новых пользователей, которые должны узнать значения терминов предметной области.

Отделение знаний предметной области от оперативных знаний – это еще один вариант общего применения онтологий. Мы можем описать задачу конфигурирования продукта из его компонентов в соответствии с требуемой спецификацией и внедрить программу, которая делает эту конфигурацию независимой от продукта и самих компонентов. После этого мы можем разработать онтологию компонентов и характеристик ЭВМ и применить этот алгоритм для конфигурирования нестандартных ЭВМ. Мы также можем использовать тот же алгоритм для конфигурирования лифтов, если мы предоставим ему онтологию компонентов лифта.

Анализ знаний в предметной области возможен, когда имеется декларативная спецификация терминов. Формальный анализ терминов чрезвычайно ценен как при попытке повторного использования существующих онтологий, так и при их расширении.

Зачастую возникает вопрос о различии между онтологией и базой данных. Укажем основные различия между ними.

Результатом запроса по базе данных обычно является совокупность данных об экземплярах и ссылки на текстовые документы, в то время как результат запроса по онтологии может включать элементы самой онтологии (например, все подклассы определенного класса).

Онтологии сами по себе включают семантику

Схемы баз данных и каталоги обычно не предоставляют внешнюю семантику для своих данных. Семантика никогда не определялась, либо семантика была определена внешним образом во время разработки базы данных, но эта спецификация не стала частью спецификации базы данных и больше недоступна. Следовательно, при использовании баз данных нам нужны определенные протоколы для решения проблемы конфликтующих ограничений при изменении базы данных. Однако онтологии являются логическими системами, которые сами по себе включают семантику.

Онтологии чаще повторно используются

Схема базы данных определяет структуру определенной базы данных и других баз данных, и схемы не так часто повторно используются напрямую или расширяются. Схема является частью интегрированной системы и редко используются отдельно от нее. С онтологиями ситуация прямо противоположна: онтологии обычно повторно используют и расширяют другие онтологии и они не привязаны к определенной системе.

Онтологии децентрализованы по своей природе

По традиции разработка и обновление схемы базы данных является централизованным процессом: разработчики исходной схемы (или сотрудники той же организации) обычно вносят изменения и поддерживают схему. В самом конце разработчики схемы базы данных обычно знают, какие базы данных используют их схему. По своей природе разработка онтологии – это гораздо более децентрализованный и объединенный процесс. В результате, над тем, кто использует конкретную онтологию, не существует централизованного контроля. Гораздо сложнее (а может быть, и невозможно) распространить или синхронизировать обновления: мы не знаем, кто использует онтологию, не можем сообщить им об обновлениях и не можем предположить, что они сами об этом узнают. Отсутствие централизованного и синхронизированного контроля также делает сложным (а часто и невозможным) проследить последовательность операций, которые преобразовали одну версию онтологии в другую.

Информационные модели онтологии богаче

Во многих онтологиях количество примитивов представления гораздо больше, чем в типичной схеме базы данных. Например, многие онтологические языки и системы позволяют спецификацию ограничения мощности, обратные свойства, транзитивные свойства, обратные классы и т.д. Некоторые языки (например, DAML+OIL) добавляют примитивы для определения новых классов как объединений или пересечений других классов, как перечисление их членов, как ряд объектов, которые удовлетворяют определенному ограничению.

Классы и экземпляры могут быть одними и теми же

В базах данных четко различается информация о схеме и информация об экземплярах. Во многих мощных системах представления знаний сложно определить, где заканчивается онтология и начинаются экземпляры. Использование метаклассов (классов, где в качестве экземпляров используются другие классы) во многих системах (например, Protégé, Ontolingua, RDFS) размывает или стирает границу между классами и экземплярами. Метаклассы – это множества, чьи элементы тоже являются множествами. Это значит, что «экземпляр» и «класс» - на самом деле лишь роли понятия.

Модели онтологии и онтологической системы

Понятие онтологии предполагает определение и использование взаимосвязанной и взаимосогласованной совокупности трех компонент: таксономии терминов, определений терминов и правил их обработки. Введем следующее определение понятия модели онтологии:

Под формальной моделью онтологии О понимается

Х – конечное множество концептов (понятий, терминов) предметной области, которую представляет онтология О;

R – конечное множество отношений между концептами (понятиями, терминами) заданной предметной области;

F – конечное множество функций интерпретации (аксиоматизации), заданных на концептах и/или отношениях онтологии О.

Естественным ограничением, накладываемым на множество X, является его конечность и непустота. Иначе обстоит дело с компонентами F и R в определении онтологии О. Понятно, что и в этом случае F и R должны быть конечными множествами. Укажем, граничные случаи, связанные с их пустотой.

1. Пусть и . Тогда онтология О трансформируется в простой словарь:

.

Такая вырожденная онтология может быть полезна для спецификации, пополнения и поддержки словарей ПО, но онтологии-словари имеют ограниченное использование, поскольку не вводят эксплицитно смысла терминов. Хотя в некоторых случаях, когда используемые термины принадлежат очень узкому (например, техническому) словарю и их смыслы уже заранее хорошо согласованы в пределах определенного (например, научного) сообщества, такие онтологии применяются на практике. Известными примерами онтологии этого типа являются индексы машин поиска информации в сети Интернет.

2. , . Тогда каждому элементу множества терминов из X может быть поставлена в соответствие функция интерпретации f из F. Формально это утверждение может быть записано следующим образом.

где - множество интерпретируемых терминов;

Множество интерпретирующих терминов.

такие что

Пустота пересечения множеств и исключает циклические интерпретации, а введение в рассмотрение функции k аргументов призвано обеспечить более полную интерпретацию. Вид отображения f из F определяет выразительную мощность и практическую полезность этого вида онтологии. Если функция интерпретации задается оператором присваивания значений (), где - имя интерпретации ), то онтология трансформируется в пассивный словарь :

Такой словарь пассивен, так как все определения терминов из берутся из уже существующего и фиксированного множества . Практическая ценность его выше, чем простого словаря, но явно недостаточна, например, для представления знаний в задачах обработки информации в Интернете в силу динамического характера этой среды.

Для того чтобы учесть последнее обстоятельство, предположим, что часть интерпретирующих терминов из множества задается процедурно, а не декларативно и вычисляется каждый раз при интерпретации термина из множества . В этом случае онтология преобразуется в активный словарь определений

Причем

Ценность такого словаря для задач обработки информации в среде Интернет выше, чем у предыдущей модели, но все еще недостаточна, так как интерпретируемые элементы из никак не связаны между собой и, следовательно, играют лишь роль ключей входа в онтологию.

Для представления модели онтологии, которая нужна для решения задач обработки информации в Интернете .

Рассмотрим возможные варианты формирования множества отношений на концептах онтологии.

Введем в рассмотрение специальный подкласс онтологии - простую таксономию следующим образом:

Таксономическая структура - иерархическая система понятий, связанных между собой отношением is_a («быть элементом класса»).

Отношение is_a имеет фиксированную заранее семантику и позволяет организовывать структуру понятий онтологии в виде дерева.

Классификация моделей онтологии

Компоненты модели .
Формальное определение
Пояснение Словарь ПО Пассивный словарь ПО Активный словарь ПО Таксономия понятий ПО

Представления множества концептов X в виде сетевой структуры;

Использования достаточно богатого множества отношений R, включающего не только таксономические отношения, но и отношения, отражающие специфику конкретной предметной области, а также средства расширения множества R;

Использования декларативных и процедурных интерпретаций и отношений, включая возможность определения новых интерпретаций.

Введем в рассмотрение понятие онтологической системы. Под формальной моделью онтологической системы понимают триплет вида:

где - онтология верхнего уровня (метаонтология)

Множество предметных онтологии и онтологии задач предметной области

Модель машины вывода, ассоциированной с онтологической системой .

Использование системы онтологии и специальной машины вывода позволяет решать в такой модели различные задачи. Расширяя систему моделей , можно учитывать предпочтения пользователя, а изменяя модель машины вывода, вводить специализированные критерии релевантности получаемой в процессе поиска информации и формировать специальные репозитории накопленных данных, а также пополнять при необходимости используемые онтологии.

В модели имеются три онтологические компоненты:

Метаонтология;

Предметная онтология;

Онтология задач.

Метаонтология оперирует общими концептами и отношениями, которые не зависят от конкретной предметной области. Концептами метауровня являются общие понятия, такие как «объект», «свойство», «значение» и т. д. Уровни метаонтологии получают интенсиональное описание свойств предметной онтологии и онтологии задач. Онтология метауровня является статической, что дает возможность обеспечить здесь эффективный вывод.

Предметная онтология содержит понятия, описывающие конкретную предметную область, отношения, семантически значимые для данной предметной области, и множество интерпретаций этих понятий и отношений (декларативных и процедурных). Понятия предметной области специфичны в каждой прикладной онтологии, но отношения - более универсальны. Поэтому в качестве базиса обычно выделяют такие отношения модели предметной онтологии, как part_of, kind_of, contained_in, member_of, see also и некоторые другие.

Отношение part_of определено на множестве концептов, является отношением принадлежности и показывает, что концепт может быть частью других концептов. Оно является отношением типа «часть-целое» и по свойствам близко к отношению is_a и может быть задано соответствующими аксиомами. Аналогичным образом можно ввести и другие отношения типа «часть-целое».

Иначе обстоит дело с отношением see_also. Оно обладает другой семантикой и другими свойствами. Поэтому целесообразно вводить его не декларативно, а процедурно, подобно тому, как это делается при определении новых типов в языках программирования, где поддерживаются абстрактные типы данных.

Онтология задач в качестве понятий содержит типы решаемых задач, а отношения этой онтологии, как правило, специфицируют декомпозицию задач на подзадачи. Вместе с тем, если прикладной системой решается единственный тип задач (например, задачи поиска релевантной запросу информации), то онтология задач может в данном случае описываться словарной. Таким образом, модель онтологической системы позволяет описывать необходимые для ее функционирования онтологии разных уровней. Взаимосвязь между онтологиями показана на рисунке:

Машина вывода онтологической системы в общем случае может опираться на сетевое представление онтологии всех уровней. При этом ее функционирование будет связано:

С активацией понятий и/или отношений, фиксирующих решаемую задачу (описание исходной ситуации);

Определением целевого состояния (ситуации);

Выводом на сети, заключающемся в том, что от узлов исходной ситуации распространяются волны активации, использующие свойства отношений, с ними связанных. Критерием остановки процесса является достижение целевой ситуации или превышение длительности исполнения (time-out).

Применение онтологий

Суммируя различные типизации онтологии можно выделить классификации по:

Степени зависимости от конкретной задачи или предметной области;

Уровню детализации аксиоматизации;

«природе» предметной области и т. д.

Дополнительно к этим измерениям можно ввести и классификации, связанные с разработкой, реализацией и сопровождением онтологии.

По степени зависимости от конкретной задачи или предметной области обычно различают:

Онтологии верхнего уровня;

Онтологии, ориентированные на предметную область;

Онтологии, ориентированные на конкретную задачу;

Прикладные онтологии.

Онтологии верхнего уровня описывают очень общие концепты, такие как пространство, время, материя, объект, событие, действие и т. д., которые независимы от конкретной проблемы или области. Поэтому представляется разумным, по крайней мере в теории, унифицировать их для больших сообществ пользователей.

Примером такой общей онтологиии является CYC®. Одноименный проект - CYC® - ориентирован на создание мультиконтекстной базы знаний и специальной машины вывода, разрабатываемой Сусогр. Основная цель этого гигантского проекта - построить базу знаний всех общих понятий (начиная с таких, как время, сущность и т. д.), включающую семантическую структуру терминов, связей между ними и аксиом. Предполагается, что такая база знаний может быть доступна разнообразным программным средствам, работающим со знаниями, и будет играть роль базы «начальных знаний». В онтологии, по некоторым данным, уже представлены 10 6 концептов и 10 5 аксиом. Для представления знаний в рамках этого проекта разработан специальный язык CYCL.

Другим примером онтологии верхнего уровня является онтология системы Gene-railized Upper Model, ориентированная на поддержку процессов обработки естественного языка: английского, немецкого и итальянского. Уровень абстракции этой онтологии находится между лексическими и концептуальными знаниями, что определяется требованиями упрощения интерфейсов с лингвистическими ресурсами. Модель Generalized Upper Model включает таксономию, организованную в виде иерархии концептов (около 250 понятий) и отдельной иерархии связей.

Создание достаточно общих онтологии верхнего уровня представляет собой очень серьезную задачу, которая еще не имеет удовлетворительного решения.

Предметные онтологии и онтологии задач описывают, соответственно, словарь, связанный с предметной областью (медицина, коммерция и т. д.) или с конкретной задачей или деятельностью (диагностика, продажи и т. п.) за счет специализации терминов, введенных в онтологии верхнего уровня. Примерами онтологии, ориентированных на определенную предметную область и конкретную задачу, являются TOVE и Plinius соответственно.

Онтология в системе TOVE (Toronto Virtual Enterprise Project) предметно ориентирована на представление модели корпорации. Основная цель ее разработки - отвечать на вопросы пользователей по реинжинирингу бизнес-процессов, извлекая эксплицитно представленные в онтологии знания. При этом система может проводить дедуктивный вывод ответов. В онтологии нет средств для интеграции с другими онтологиями. Формально онтология описывается с помощью фреймов.

В настоящее время построены онтологии некоторых разделов молекулярной биологии, которые предлагают терминологию для определения множества химических элементов, описания процессов внутри клетки. Онтология TAMBIS (TaO) описывает биоинформатику, покрывает основные понятия молекулярной биологии и биоинформатики: макромолекулы, их предназначение, структуру, функции, клеточное расположение и процессы, в которых они взаимодействуют. ТаО онтологии построена с использованием языка OIL.

Существует также экспериментальная онтология для бионеорганических центров, известная под именем СОМЕ. СОМЕ состоит из сущностей трех видов: Молекула (MOL), Бионеорганический Мотив (BIM) и Бионеорганические Протеины (PRX).

Так же построены онтологии, представляющие понятия и отношения в более узко направленных областях – таких как химические кристаллы, керамические материалы, биоэнергетические центры. Примером таких онтологий может служить онтология Chemical-Crystals. Онтология Chemical-Crystals описывает различные типы кристаллической структуры веществ. Эта онтология построена с использованием методологии, известной как METHONTOLOG.

Другой пример онтологии – онтология чистых веществ. Определение чистых веществ дано через химический состав, т.е. через структурные правила, которые определяют чистые вещества в терминах химических веществ и натуральных чисел. Разработана иерархическая модель онтологии физической химии. Модульная онтология физической химии определяет множество разделов предметной области и связи между ними, описывает систему понятий каждого раздела и задает связи между понятиями разделов. Онтология физической химии состоит из восьми связанных друг с другом разделов: «Элементы», «Вещества», «Реакции», «Основы термодинамики», «Термодинамика. Химические свойства», «Термодинамика. Физические свойства», «Термодинамика. Связь физических и химических свойств», «Химическая кинетика». В основе онтологии данной предметной области лежит метаонтология, которая определяет метапонятия, используемые при определении систем понятий каждого раздела.

Прикладные онтологии описывают концепты, зависящие как от конкретной предметной области, так и от задач, которые в них решаются. Концепты в таких онтологиях часто соответствуют ролям, которые играют объекты в предметной области в процессе, выполнения определенной деятельности. Пример такой онтологии - онтология системы Plinius, предназначенная для полуавтоматического извлечения знаний из текстов в области химии. В отличие от других, упомянутых выше онтологии, здесь нет явной таксономии понятий.

Вместо этого определено несколько множеств атомарных концептов, таких как, например, химический элемент, целое число и т. п., и правила конструирования остальных концептов. В онтологии описано около 150 концептов и 6 правил. Формально онтология Plinius тоже описывается с помощью фреймов.

Онтологические модели представления знаний Существует множество обстоятельств, которые затрудняют распространение и обмен знаниями между людьми, столь необходимыми для их систематического пополнения и накопления. Прежде всего, это обстоятельства количественного характера, связанные с быстрым ростом численности населения, с вовлечением новых поколений в различные сферы деятельности, требующие постоянно растущего уровня знаний, умений и навыков. Особым обстоятельством являются фундаментальные отличия и множественность национальных языков народов, населяющих планету Земля. По данным ЮНЕСКО на нашей планете существует более 2700 языков, народов и народностей.


Но дело не только в том, что народы мира думают, говорят и пишут на разных языках. Многие проблемы в обмене и создании знаний связаны с неоднозначным или неадекватным восприятием смысла данных, информации, знаний различными участниками знаниевого процесса. Дело в том, что в цепи передачи знаний (рис) отправитель и получатель знания зачастую пользуются различными представлениями, различной терминологией и понятийным аппаратом. Из-за различий в образовании и в предшествующем опыте они могут руководствоваться различными моделями деятельности и культурой мышления.




Вследствие этих объективных обстоятельств весьма желательно, чтобы информация и знания были структурированы и описаны таким образом, чтобы получатель (пользователь) был способен понять и текст, и контекст (смысл) сообщения. В идеале, сообщение (знаниевая сущность) должна структурироваться таким образом, чтобы компьютер, а не только образованный человек был способен «понять» его. Под словом «понять» здесь имеется в виду, что компьютер будет способен обработать документ (знаниевую сущность) посредством использования известных ему правил с помощью некоторого логического языка, а также будет способен вывести новые факты и знания из данного документа.


Онтологии предметных областей Онтологии предметной области описывают явные знания, которые имеются в компании (или в отдельных ее частях). Описанием знаний уже достаточно давно занимается такая дисциплина, как «Искусственный интеллект» (ИИ), а также такие ее разделы, как «Представление знаний» и «Инженерия знаний». Учитывая, что ИИ занимается работой со знаниями с 50-х годов, в данной дисциплине накоплен достаточно большой опыт в области представления (моделирования) знаний. В вопросе описания знаний дисциплина «Управления знаниями» имеет общие интересы с ИИ. У них общий объект исследования – знания, но цели его исследования в этих дисциплинах разные. Цель ИИ заключается в создании моделей и методов работы со знаниями, которые позволят их использовать без участия (или почти без участия) человека. Например, в [Люггер Д.Ф., 2003] дается следующее определение: «ИИ можно определить как область компьютерной науки, занимающейся автоматизацией разумного поведения».


Онтология (от древнегреч. онтос – сущее, логос – учение, понятие) – термин, определяющий учение о сущем, бытии, в отличие от гносеологии – учение о познании. В философском смысле, а этот термин заимствован из философии, онтология есть определенная система категорий, являющихся следствием определенных взглядов на мир. Термин «онтология» был использован рядом исследовательских сообществ по ИИ вначале в области инженерии знаний, в обработке естественных языков, а затем в представлении знаний. В конце 1990-х годов понятие онтологии также стало широко использоваться в таких областях, как интеллектуальная интеграция информации, поиск информации в Интернет и управление знаниями . Позже онтологии стали рассматриваться в качестве ключевого элемента в проекте Семантической Сети – нового этапа развития сети WWW (Word Wide Web). Если существующая Web-сеть – это огромное множество документов, которые связаны перекрестными ссылками, то создаваемая Семантическая Сеть должна добавить к существующей сети множество онтологий и метаописаний знаний, содержащихся в документах Web-сети (включая стандарты и программные инструменты) .StaabStuder


Определение онтологии, которым руководствуются многие исследователи в данной области, было дано в . «Онтология – это формальное, явное, точное определение (спецификация) совместно используемой концептуализации». Концептуализацией именуется абстрактное упрощенное представление мира, которое формируется для некоторых целей. Онтология является точным определением (спецификацией) потому, что она представляет концептуализацию в конкретной форме. Она является явной, потому что все используемые в ней ограничения явно определены. Слово формальная означает, что онтология должна пониматься машиной. Слово совместно используемая указывает на то, что онтология содержит согласованные знания.


Рабочим и более приближенным к управлению знаниями можно признать определение, приведенное в [Гаврилова Т.А., Хорошевский Ф.В., 2001]: «Онтология – это базы знаний специального типа, которые могут «читаться» и пониматься, отчуждаться от их разработчика и /или физически разделяться их пользователями». Онтология состоит из терминов, организованных в таксономию, их определений, атрибутов, а также связанных с ними аксиом и правил вывода.


Онтология, таким образом, соединяет человеческое и компьютерное понимание символов. Эти символы, также называемые терминами (точными определениями понятий), могут интерпретироваться как людьми, так и машинами. Термин понятен для человека, так как это слово, написанное на естественном языке. Понятны человеку и связи между терминами типа «суперпонятие – подпонятие» (род – вид), обычно обозначаемые как is–a (являться). Эта связь обозначает тот факт, что одно понятие (субпонятие) является более общим, чем другое (подпонятие). В качестве примера возьмем такое понятие, как компьютер, которое является менее общим, чем понятие машина (автомобиль, трактор, танк и т.д.).


В соответствии с этим пространство знаний (интеллектуальное пространство) организации предлагается [Тузовский А.Ф., Ямпольский В.З. Интеллектуальное пространство, 2004] описывать следующим образом: В качестве системы координат использовать онтологию предметной области. Описания объектов, содержащие знания, задавать в виде их метаописаний, составленных из основных понятий онтологии. В качестве меры близости объектов (метрики) использовать семантическую близость их метаописаний.


Модель интеллектуального пространства Модель многомерного пространства является признанной в разных областях науки абстракцией, которая используется для работы с различными и не только математическими описаниями объектов. Известно, что описание любого пространства включает такие элементы, как: выбор системы координат; задание способа описания положения объектов в выбранной системе координат; задание метрики (способа вычисления) близости объектов в данном пространстве.




В настоящее время существуют и развиваются разные методы представления и описания знаний, например, такие, как: продукционные модели, семантические сети, фреймы, онтологии. Продукционная модель или модель, основанная на правилах, позволяет представлять знания в виде предположения типа «if – then»: если (условие), то (действие). Под «условием» понимается некоторое предложение – образец, по которому осуществляется поиск в базе знаний, а под «действием» – выполняемые в результате успешного поиска действия. Продукционные модели чаще всего применяются в промышленных экспертных системах при фиксации совокупности правил поведения персонала в некотором множестве ситуаций.


Семантическая сеть означает «смысловая» сеть, а, собственно, семантика – это наука, устанавливающая отношения между символами и объектами, которые они обозначают. Иначе говоря, семантика – это наука, определяющая смысл знаков [Люггер Д.Ф., 2003]. По своей структуре семантическая сеть – это ориентированный граф, вершины которого – понятия, а дуги – отношения между ними. Характерной особенностью семантических сетей является наличие трех типов отношений: отношение класс – элемент класса; отношение свойство – значение свойства; отношение фрагмент – элемент класса.


Чаще всего в семантических сетях используются следующие отношения: связи типа часть – целое (например, элемент – класс); функциональные связи (определяются глаголами типа «производит», «влияет»…); количественные отношения (больше, меньше, равно); пространственные отношения (далеко от, близко от…); временные отношения (раньше, позже, в течение …); атрибутивные связи (иметь свойство, иметь значение); логические связи (И, ИЛИ, НЕ); лингвистические связи и др.




Формальная модель онтологии В общем виде формальная модель онтологии может быть описана следующим кортежем : O = {L, C, F, G, H, R, A}, где L = LC LR – словарь онтологии, содержащий набор лексических единиц (знаков) для понятий LC и набор знаков для отношений LR; C – набор понятий онтологии, причем для каждого понятия c C в онтологии существует по крайней мере одно утверждение; F и G – функции ссылок такие, что F: FLC 2С и G: FLR 2R. То есть F и G связывают наборы лексических единиц {Lj} L c наборами понятий и отношений, на которые они соответственно ссылаются в данной онтологии. При этом одна лексическая единица может ссылаться на несколько понятий или отношений и одно понятие или отношение может ссылаться на несколько лексических единиц. Инверсиями функций ссылок являются F–1 и G–1; H – фиксирует таксономический характер отношений (связей), при котором понятия онтологии связаны нерефлексивными, ациклическими, транзитивными отношениями H C x C. Выражение H (C1, C2) означает, что понятие C1 является подпонятием C2; R – обозначает бинарный характер отношений между понятиями онтологии, фиксирующие пары области применения (domain)/об­ла­сти значений (range), то есть пары (D R) с D, R C; A – набор аксиом онтологии.


По уровню универсальности выделяют три типа онтологий: Онтологии верхнего уровня, или метаонтологии, описывающие общие понятия, независимо от задач конкретного домена. Примером такой онтологии может служить WordNet . Масштаб WordNet весьма обширный – весь английский язык с описанием каждого термина, его синонимов и гипер/гипо (более/менее) общих терминов и отношений между ними. В то же время уровень детальности в WordNet очень низкий, имеются лишь описания на естественном языке терминов, которые не могут быть поняты машиной, и зафиксированы только самые простые отношения между ними. Онтологии предметных областей описывают относительно общие понятия для общих задач. В какой-то мере она относится к онтологиям верхнего уровня, так как ее можно использовать во множестве предприятий различных предметных областей. Онтологии приложений описывают понятия, зависящие как от домена, так и от решаемой задачи.




В качестве примера онтологии предметных областей приведем краткое описание онтологии предприятия «The Enterprise Ontology» (далее ЕО), разработанную Эденбургским университетом совместно c такими партнерами как IBM, Lloyds Register и др. . Целью создания ЕО было обеспечение предприятию возможности успешно справляться с быстро изменяющейся внешней средой. Основным средством для достижения этой цели признано совершенствование бизнес-планирования на основе моделирования, улучшения коммуникаций и интеграции информационных и бизнес-процессов.




Метаописания Метаописания (описания об описаниях) – это особо структурированная информация, характеризующая содержание документов, информационных ресурсов и баз знаний, профилей компетенции специалистов и т.п., которая может быть полезна как пользователям, так и самой системе управления знаниями. Метаописания отражают различные свойства и характеристики объекта, такие, как статус, формат, семантика и др. Разделение описания объекта на информацию и метаописание – процесс не однозначный и зависит от целей описания. То, что может быть метаописаниями для одних целей, может являться частью содержания (информации) для других.


Процесс создания метаописаний иногда именуют аннотированием. Аннотирование может происходить как с участием человека, так и без него, с помощью специальных программно реализованных алгоритмов. Результатом аннотирования является набор метаописаний, который может помещаться в хранилище метаописаний. В метаописаниях выделяют три типа: Системные (служебные) метаданные. Структурные метаданные. Семантические метаописания.


Системные метаданные предназначены для функционирования информационных систем и систем управления знаниями. Они включают имена файлов и баз, даты их создания, тип и формат, размер файла и вид носителя и т.п. Структурные метаданные содержат, как правило, справочную информацию об объектах. Это могут быть наименование, статус, структурная принадлежность, профиль и т.п. То есть описания, использующиеся при идентификации и категоризации объектов в тех или иных целях. Семантические метаописания – особый вид описаний, включающий концептуальное (аннотированное) изложение содержания и смысла информации об объекте.




Добавление метаданных к электронным ресурсам системы создает возможность более точного определения местоположения информации об объектах, улучшает механизм фильтрации и отбора знаний, упрощает и ускоряет процессы доступа к необходимым программам, серверам, ресурсам дисковой памяти и т.п.


Трудно переоценить роль метаописаний в библиотечном деле, в учебном процессе всех видов образовательных систем, включая электронные системы дистанционного обучения в части оперативности и полноты доступа к знаниям. Семантические метаописания являются частью онтологии, при построении которой максимально учитывается семантика объектов некоторой предметной области. При этом семантические метаописания отражают не всю семантику объекта, так же как онтология не может охватить всю описывающую ею предметную область (рис.). Под метаданными объекта Oi будет пониматься следующее выражение: MD = Ci Ii, где Ci – множество понятий онтологии O, имеющих отношение к объекту i, содержащихся в информации об объекте (документы, базы данных и знаний и т.п.) и в интересе пользователя. С каждым понятием связан свой весовой коэффициент Ki; Ii – множество экземпляров понятий онтологии O с экземплярами отношений между ними.


Измерение близости объектов в интеллектуальном пространстве Формализованное представление онтологий, а также метаописаний объектов создает возможность для измерения близости (подобия) объектов в интеллектуальном пространстве. Например, подобие между метаданными Sim (MDi, MDj) может быть определено через подобие входящих в них экземпляров понятий: где Sim (MDi, MDj) – величина близости метаописания объекта i и объекта j; sim (Ii,Ij) – величина близости экземпляров понятий Ii и Ij, входящих в сравниваемые метаописания. Можно выделить следующие составляющие измерения подобия двух экземпляров понятий: 1) таксономическое (по близости в иерархии онтологии, TS(Ii,Ij)); 2) реляционное (по сходству отношений экземпляров, RS(Ii,Ij)); 3) атрибутивное (по близости значений атрибутов, AS(Ii,Ij)).


Таксономическое подобие (близость) Таксономическое подобие между экземплярами Ii и Ij, такими, что Сi(Ii) и Сj(Ij), вычисляется с учетом положения соответствующих им понятий Сi и Сj в таксономии HC. Для вычисления семантического расстояния в иерархии понятий используется множество UC (upwards cotopy), которое содержит все вышележащие по иерархии HC понятия и само исследуемое понятие: Используются семантические характеристики HС: рассмотрение ограничивается суперпонятиями заданного понятия Сi и рефлексивным взаимоотношением Сi к самому себе. Основываясь на определении UC, можно следующим образом определить таксономическое подобие:


Атрибутивное подобие (Attribute Similarity) Атрибутивное подобие основывается на подобии значений атрибутов для определения подобия между экземплярами. Так как атрибуты очень сходны с отношениями (например, в RDF атрибуты являются отношениями с интервалами (область допустимых значений), которые содержат литералы), то большая часть того, что было сказано об отношениях, также применимо и здесь. Для вычисления атрибутивного подобия вначале определим набор сравниваемых атрибутов для двух экземпляров: PAi(Ii) := {A: A A}, PA(Ii, Ij) := PAi(Ii) PAi(Ij), а также значения их атрибутов: As (A, Ii) := {Lx: Lx L A(Ii, Lx)}.



Loading...Loading...