Эксπир
Регистрация / Вход

Разработка информационных технологий вычислительного извлечения, накопления и использования профессиональных и корпоративных знаний, содержащихся в коллекциях текстов на естественных языках

Стадии проекта
Предложение принято
Конкурс завершен
Проект закончен
Проект
02.514.11.4038
Продолжительность работ
2007 - 2008, 17 мес.
Бюджетные средства
7 млн
Внебюджетные средства
0,9 млн

Проведение поисковых проблемно-ориентированных исследований и/или создание научно-технического задела для разработки информационных технологий извлечения, верификации, накопления и использования профессиональных и корпоративных знаний на основе универсальных и специализированных моделей представления профессиональных и корпоративных знаний.

Участники проекта

Зам. руководителя работ
Крейнес Елена Михайловна

Этапы проекта

1
16.05.2007 - 30.09.2007
На первом этапе данного проекта разработаны и исследованы модели представления знаний, позволяющие создать информационные технологии извлечения, верификации, накопления, поиска и использования профессиональных и корпоративных знаний, содержащихся в текстовых коллекциях на естественных языках (русском и английском), для технологического (формального вычислительного) решения следующих важных и актуальных практических задач:
- построение интегральных оценок тематики и содержания произвольной коллекции текстов, в частности, коллекции текстов, найденных в результате поиска информации,
- формирование системы взаимосвязанных в рамках коллекции текстов понятий - семантической и терминологической модели соответствующей коллекции предметной области,
- выделение в коллекции текстов документов, которые соответствуют конкретным априори заданным темам,
- построение интегральных оценок тематики и содержания части коллекции, связанной с определенной темой (объектом), - семантических контекстов темы (объекта),
- выделение в коллекции текстов тематически (содержательно) однородных групп документов и построение интегральных оценок тематики и содержания указанных групп при наличии или отсутствии априорной информации о присутствии в коллекции и содержательных характеристиках таких групп,
- формирование адаптивных к характеристикам коллекции текстов и индивидуальным особенностям пользователя средств смысловой и тематической навигации по коллекциям текстовых документов (в том числе, на базе семантических контекстов основных тем коллекции),
- выявление новой информации в коллекции текстовых документов, охарактеризованных временем, местом, источником и т.п. создания (опубликования),
- выявление динамики изменений (временной, пространственной, связанной с конкретными источниками) информации, связанной с определенной темой (объектом),
- оценивание характера, содержания и интенсивности (силы) смысловых и тематических связей между определенными темами (объектами),
- выделение в документах коллекции тематически (содержательно) однородных фрагментов, связанных с определенными темами (объектами).
Особенностью выполнения данного проекта является разработка единых универсальных моделей представления знаний для всех этапов работы со знаниями, содержащимися в текстовых коллекциях.
На базе разработанных универсальных моделей представления знаний о семантике текстовых коллекций определены функциональные характеристики, структура и особенности реализации баз знаний и функциональные возможности информационных технологий извлечения, накопления и использования знаний, содержащихся в текстовых коллекциях.
Результаты проведенных исследований будут использованы для дальнейших исследований на втором этапе выполнения темы.
Развернуть
2
01.10.2007 - 31.12.2007
На втором этапе данного проекта разработаны и теоретически исследованы механизмы, методы и алгоритмы извлечения, накопления, верификации, поиска и использования профессиональных и корпоративных знаний, содержащихся в текстовых коллекциях на естественных языках (русском и английском), для технологического (формального вычислительного) решения следующих важных и актуальных практических задач:
- построение интегральных оценок тематики и содержания произвольной коллекции текстов, в частности, коллекции текстов, найденных в результате поиска информации,
- формирование системы взаимосвязанных в рамках коллекции текстов понятий - семантической и терминологической модели соответствующей коллекции предметной области,
- выделение в коллекции текстов документов, которые соответствуют конкретным априори заданным темам,
- построение интегральных оценок тематики и содержания части коллекции, связанной с определенной темой (объектом), - семантических контекстов темы (объекта),
- выделение в коллекции текстов тематически (содержательно) однородных групп документов и построение интегральных оценок тематики и содержания указанных групп при наличии или отсутствии априорной информации о присутствии в коллекции и содержательных характеристиках таких групп,
- формирование адаптивных к характеристикам коллекции текстов и индивидуальным особенностям пользователя средств смысловой и тематической навигации по коллекциям текстовых документов (в том числе, на базе семантических контекстов основных тем коллекции),
- выявление новой информации в коллекции текстовых документов, охарактеризованных временем, местом, источником и т.п. создания (опубликования),
- выявление динамики изменений (временной, пространственной, связанной с конкретными источниками) информации, связанной с определенной темой (объектом),
- оценивание характера, содержания и интенсивности (силы) смысловых и тематических связей между определенными темами (объектами),
- выделение в документах коллекции тематически (содержательно) однородных фрагментов, связанных с определенными темами (объектами).
Определен перечень макетов программных средств, реализующих разработанные методы и алгоритмы извлечения, накопления, верификации, поиска и использования знаний, содержащихся в текстовых коллекциях.
Проведен расчет сложности разработанных алгоритмов.
Разработаны программа и методики экспериментальных исследований созданных моделей, методов и алгоритмов извлечения, накопления, верификации, поиска и использования знаний, содержащихся в текстовых коллекциях.
Проведены дополнительные патентные исследования.
Особенностью выполнения данного проекта является разработка единых универсальных методов и алгоритмов работы со знаниями, содержащимися в текстовых коллекциях.
Результаты проведенных исследований будут использованы при разработке макетов программных средств и для дальнейших исследований на третьем этапе выполнения темы.
Развернуть
3
01.01.2008 - 30.06.2008
На третьем этапе данного проекта разработаны и исследованы макеты следующих программных средств, реализующих созданные на предыдущих этапах данной НИР механизмы, методы и алгоритмы извлечения, верификации, накопления, поиска и использования профессиональных и корпоративных знаний, содержащихся в текстовых коллекциях на естественных языках (русском и английском):
- программа формирования семантического словарного описания интегральных знаний о тематике и содержании коллекции текстовых документов,
- программа формирования семантического группового описания интегральных знаний о тематике и содержании коллекции текстовых документов,
- программа формирования семантического словарного описания системы взаимосвязанных в коллекции текстовых документов понятий,
- программа формирования семантического группового описания системы взаимосвязанных в коллекции текстовых документов понятий,
- программа формирования семантического словарного описания интегральных знаний о характере, содержании и интенсивности связей между темами, представленными в коллекции текстовых документов,
- программа формирования семантического группового описания интегральных знаний о характере, содержании и интенсивности связей между темами, представленными в коллекции текстовых документов,
- программа формирования прямой скалярной характеристики содержательного сходства объектов (тем), представленных в коллекции текстовых документов,
- программа формирования семантического словарного описания интегральных знаний о новой информации, содержащейся в коллекциях текстовых документов,
- программа формирования семантического группового описания интегральных знаний о новой информации, содержащейся в коллекциях текстовых документов,
- программа формирования семантического словарного описания интегральных знаний о динамике изменений информации, содержащейся в коллекциях текстовых документов,
- программа формирования семантического группового описания интегральных знаний о динамике изменений информации, содержащейся в коллекциях текстовых документов,
- программа накопления знаний, содержащихся в коллекциях текстовых документов,
- программа верификации знаний, извлеченных из текстовых коллекций.
Развернуть
4
01.07.2008 - 31.10.2008
выполнено обобщение результатов исследований в рамках НИР,
- показана полнота решения поставленных перед НИР задач и высокая эффективность полученных результатов в сравнении с современным научно-техническим уровнем,
- проведены дополнительные теоретические исследования, в результате которых сформированы математические модели оценки качества и оптимизации для конкретных текстовых коллекций разработанных на предыдущих этапах НИР моделей представления интегральных агрегированных знаний о тематике и содержании коллекций текстов на естественных языках для решения задач поиска и анализа текстовой информации,
- в проведенных дополнительных теоретических исследованиях показано, что разработанные в рамках НИР модели на структурном уровне решают проблему компромисса между требованиями полноты, технологичности, избирательности и выразительности моделей представления знаний и созданных на их основе информационных технологий извлечения и использования знаний о тематике и содержании текстовых коллекций для задач информационного поиска,
- обоснованы возможности создания конкурентоспособной продукции и услуг на основе использования результатов НИР, разработаны рекомендации по использованию результатов НИР при создании нового поколения систем поиска и анализа текстовой информации в локальных и глобальных информационных сетях,
- сформулированы технические требования и техническое задание на ОКР по созданию принципиально новой продукции - нового поколения систем поиска и анализа текстовой информации в локальных и глобальных информационных сетях на основе промышленных информационных технологий работы со знаниями, содержащимися в текстовых коллекциях,
- описан комплекс программ вычислительного извлечения, накопления и использования профессиональных и корпоративных знаний, содержащихся в коллекциях текстов на естественных языках
- проведены дополнительные патентные исследования.
Развернуть

Программа

Программа "Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы"

Программное мероприятие

1.4 Проведение проблемно-ориентированных поисковых исследований и создание научно-технического задела по перспективным технологиям в области информационно-телекоммуникационных систем
Продолжительность работ
2010 - 2011, 13 мес.
Бюджетные средства
0,5 млн
Организация
ВлГУ
профинансировано
Тема
Разработка информационных технологий извлечения, накопления и использования профессиональных и корпоративных знаний.
Продолжительность работ
2007 - 2008, 17 мес.
Бюджетные средства
14 млн
Количество заявок
23
Тема
Создание и развитие технологий безопасного информационного взаимодействия в корпоративных системах, ориентированных, в том числе, на зарубежный рынок.
Продолжительность работ
2007 - 2008, 17 мес.
Бюджетные средства
106,5 млн
Количество заявок
1
Тема
Разработка и апробация комплекса мероприятий по интеграции государственной и корпоративной сетей подготовки рабочих кадров и специалистов СПО, обеспечивающих кадровые потребности развития приоритетных отраслей экономики
Продолжительность работ
2011 - 2013, 26 мес.
Бюджетные средства
34,51 млн
Количество заявок
2
Тема
Проведение проблемно-ориентированных исследований в области создания научных основ новых технологий извлечения и использования углеводородного сырья из нефтегазоконденсатных месторождений
Продолжительность работ
2013, 2 мес.
Бюджетные средства
16 млн
Количество заявок
15
Тема
Поисковые проблемно-ориентированные исследования в области математического моделирования задач многофазной фильтрации на вычислительных системах сверхвысокой производительности.
Продолжительность работ
2012 - 2013, 18 мес.
Бюджетные средства
45 млн
Количество заявок
4