Эксπир
Регистрация / Вход

Разработка информационных технологий автоматического извлечения полезных знаний из массивов неструктурированной и слабоструктурированной текстовой информации, и технологий верификации, хранения и использования полезных знаний

Стадии проекта
Предложение принято
Конкурс завершен
Проект закончен
Проект
02.514.11.4039
Продолжительность работ
2007 - 2008, 17 мес.
Бюджетные средства
7 млн
Внебюджетные средства
0,87 млн

Проведение поисковых проблемно-ориентированных исследований и/или создание научно-технического задела для разработки информационных технологий извлечения, верификации, накопления и использования профессиональных и корпоративных знаний на основе универсальных и специализированных моделей представления профессиональных и корпоративных знаний.

Соисполнители

Организация
ООО "Виста Вилар"
Организация
ООО "ИнфоСкан"
Организация
ООО "ЭР СИ О"

Этапы проекта

1
18.05.2007 - 30.09.2007
В течение мая – сентября 2007 года Обществом с ограниченной ответственностью «Гарант-Парк-Интернет» совместно с соисполнителями (ООО «ЭР СИ О», ООО «Инфоскан» и ООО «Виста Вилар») осуществлялись работы, заключавшиеся в выборе направления дальнейшего исследования, в частности для этих целей были проведены:
- анализ научно-технической литературы, нормативно-технической документации и других материалов, относящихся к разрабатываемой теме;
  - патентные исследования в соответствии с ГОСТ 15.011-96;
- исследования универсальных или специализированных моделей представления знаний.
Работы выполнялись в соответствии с календарным планом и техническим заданием, являющимися приложениями к контракту.
Для достижения указанной задачи, нами был проведен всесторонний анализ современного состояния информационных технологий извлечения, накопления и использования профессиональных и корпоративных знаний из коллекций текстов на естественном языке, в частности
- была проанализирована научно-техническая литература по вопросам управления и извлечения профессиональных знаний;
- проведены исследования по патентным фондам Российской Федерации, Европы и США для определения уровня техники;
- проанализированы предлагаемые зарубежными и отечественными компаниями-лидерами в области глубинной обработки текстов технологические решения и продукты;
  - исследованы формальные модели обработки знаний из области искусственного интеллекта и нейроинформатики.
На основе полученных данных было определено перспективное направление дальнейшего исследования, уточнена постановка задачи, определена экспериментальная база, сформулированы требования по составу технологических решений для успешного достижения поставленных в ТЗ НИР задач.
Все сведения обобщены в виде научно-технического отчета, результаты патентных исследований приведены в Отчете по патентным исследованиям.
Развернуть
2
01.10.2007 - 31.12.2007
- рассмотрены обязательные процедурные и декларативные компоненты лингвистических анализаторов текста, отобраны и описаны способы построения этих компонентов, сформирован и изложен подход к автоматизированному построению семантических шаблонов для интерпретации языковых конструкций в элементы базы знаний, изучен процесс онтологического инжиниринга и разработана методика автоматизированного построения онтологий на основе машинного анализа текстов предметной области; разработаны алгоритмы для генерации терминов-словосочетаний, их ранжирования и выявления связей между ними;
  - рассмотрены вопросы использования знаний, извлекаемых из текстовых коллекций Интернета, определен состав и актуальность возникающих технических задач в области обработки знаний, изучены особенности представления образов источников информации в блого-сфере; сформирована общая модель знаний об источниках информации в Интернете с учетом их взаимных ссылок, позволяющая оценить достоверность получаемых из источника знаний; разработан метод поиска информации в базе знаний и/или текстовых коллекциях, позволяющий генерировать пакет поисковых запросов на формальном языке поисковой машины на основании лингвистического анализа текста запроса на естественном языке;
- разработана модель предметной области “Автомобили: оценка потребительских свойств”; определен состав разрабатываемых на следующем этапе НИР макетов программных средств, реализующих методы извлечения, накопления, верификации, поиска и использования знаний, содержащихся в текстовых коллекциях;
- проведены дополнительные патентные исследования в соответствии с ГОСТ 15.011-96.

Работы выполнялись в соответствии с календарным планом и техническим заданием, являющимися приложениями к контракту.
Результаты работ обобщены в виде научно-технического отчета, результаты патентных исследований приведены в Отчете по патентным исследованиям.
Развернуть
3
01.01.2008 - 30.06.2008
АННОТАЦИЯ РАБОТ, ВЫПОЛНЕННЫХ НА ОТЧЕТНОМ ЭТАПЕ
по государственному контракту № 02.514.11.4039 от 18 мая 2007 года в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы»
(шифр 2007-4-1.4-15-01-107) по теме «Разработка информационных технологий извлечения, накопления и использования профессиональных и корпоративных знаний».

В течение января – июня 2008 года Обществом с ограниченной ответственностью «Гарант-Парк-Интернет» совместно с соисполнителями (ООО «ЭР СИ О», ООО «Инфоскан» и ООО «Виста Вилар») осуществлялись работы, заключавшиеся в экспериментальном исследовании поставленных перед НИР задач. В рамках указаных исследований были проведены следующие работы:
- разработаны макеты программных средств, реализующих методы и алгоритмы извлечения знаний из массивов текстов на естественном языке;
- разработаны макеты программных средств, реализующих методы и алгоритмы накопления, верификации и использования профессиональных и корпоративных знаний;
- разработана программная документация к соответствующим макетам;
- подготовлены данные для проведения экспериментальных исследований;
- разработана программа и методика проведения экспериментов;
- проведены эксперименты.
Кроме того, на данном этапе проводились дополнительные патентные исследования в соответствии с ГОСТ 15.011-96.
Работы выполнялись в соответствии с календарным планом и техническим заданием, являющимися приложениями к контракту.
Результаты работ обобщены в виде промежуточного научно-технического отчета, результаты патентных исследований приведены в Отчете по дополнительным патентным исследованиям.
Часть исследований легла в основу публикации А.Е. Ермакова «Автоматизация онтологического инжиниринга в системах извлечения знаний из текста»// Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог`2008. – М.: Наука. - С. 154-158.


Руководитель работ В.Ю. Стрельников
Развернуть
4
01.07.2008 - 31.10.2008
В ходе заключительного этапа работ были сформулированы технические требования для технического задания на ОКР по созданию принципиально новой продукции – промышленных информационных технологий работы со знаниями, содержащимися в текстовых коллекциях.
Развернуть

Программа

Программа "Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы"

Программное мероприятие

1.4 Проведение проблемно-ориентированных поисковых исследований и создание научно-технического задела по перспективным технологиям в области информационно-телекоммуникационных систем
Тема
Разработка информационных технологий извлечения, накопления и использования профессиональных и корпоративных знаний.
Продолжительность работ
2007 - 2008, 17 мес.
Бюджетные средства
14 млн
Количество заявок
23
Тема
«Организационно-техническое обеспечение проведения международной научной школы "Применение семантических технологий анализа неструктурированной и слабоструктурированной информации сети Интернет и корпоративных хранилищ для многоаспектного экономического анализа факторов информационной среды предприятия"»
Продолжительность работ
2011, 2 мес.
Бюджетные средства
0 млн
Количество заявок
0
Тема
Исследование и разработка программного обеспечения понимания неструктурированной текстовой информации на русском и английском языках на базе создания методов компьютерного полного лингвистического анализа.
Продолжительность работ
2012 - 2013, 18 мес.
Бюджетные средства
60 млн
Количество заявок
18
Тема
Проведение проблемно-ориентированных поисковых исследований в области мониторинга техногенных отходов горно-обогатительных производств.
Продолжительность работ
2011 - 2012, 14 мес.
Бюджетные средства
18 млн
Количество заявок
5
Тема
Создание и развитие технологий безопасного информационного взаимодействия в корпоративных системах, ориентированных, в том числе, на зарубежный рынок.
Продолжительность работ
2007 - 2008, 17 мес.
Бюджетные средства
106,5 млн
Количество заявок
1