Эксπир
Регистрация / Вход

Технология разработки распределённых систем анализа и фильтрации Интернет-трафика на основе методов обнаружения и применения знаний

Стадии проекта
Предложение принято
Конкурс завершен
Проект закончен
Проект
02.514.11.4026
Организация
Факультет ВМК МГУ
Руководитель работ
Моисеев Евгений Иванович
Продолжительность работ
2007 - 2008, 17 мес.
Бюджетные средства
6 млн
Внебюджетные средства
1 млн

Создание технологии производства программного обеспечения для построения распределенных программных систем получения и применения знаний в области компьютерной безопасности и обеспечения контроля использования ресурсов сети Интернет. Выполнение обозначенных выше целей позволит разработать распределенные масштабируемые интеллектуальные программные системы обеспечения комплексной компьютерной безопасности, предназначенные для обнаружения внутренних вторжений в компьютерные системы, а также фильтрации Интернет трафика с контроля доступа к ресурсам Интернет и предотвращения утечек конфиденциальной информации. Отличительной особенностью таких систем должно являться использование вместо традиционных экспертных баз знаний методов интеллектуального анализа данных и машинного обучения для выявления закономерностей и знаний в прецедентных данных с целью автоматизированного формирования баз знаний, правил и сигнатур без участия экспертов. Архитектура должна базироваться на мультиагентном подходе. Это позволит получить следующие конкурентные преимущества перед существующими традиционными системами, основанными на сигнатурном подходе:
• обеспечение комплексной защиты от «внутренних» вторжений, надежный контроль за использованием Интернет ресурсов, а также предотвращение утечек конфиденциальной информации;
• возможность обнаруживать «замаскированные» и принципиально новые типы вторжений и несанкционированных рассылок;
• анализировать содержимое (контент) Интернет трафика в режиме реального времени с возможностью администратора самостоятельно определять категории и типы Интернет ресурсов;
• возможность динамически адаптироваться к изменениям в функционировании защищаемой компьютерной системы и особенностям каждого отдельного пользователя системы;
• независимость от внешних баз знаний;
• расширяемость, переносимость, высокая производительность, возможность работы в гетерогенной среде.

Этапы проекта

1
18.05.2007 - 31.08.2007
1. Проведен анализ предметной области, включая как запатентованные методы и технологии, так и открытые экспериментальные и исследовательские решения и подходы. На основе результатов анализа сформулированы задачи и технические требования к эффективным системам анализа и фильтрации Интернет-трафика, а также формальные критерии оценки производительности. Сформулированы концепции построения интеллектуальной системы анализа и фильтрации Интернет-трафика, основанной на методах выявления и применения знаний, в частности, на методах интеллектуального анализа данных и машинного обучения. Специфицированы сценарии работы системы и сценарии взаимодействия с ней пользователя и администратора.
2. Спроектирована архитектура интеллектуальной системы анализа и фильтрации Интернет-трафика. Выделены основные компоненты системы (ядро, прокси-сервер, модуль принятия решений, классификатор, интерфейсные модули для взаимодействия с администратором), специфицированы их интерфейсы и требования к функциональности. Выбраны протоколы взаимодействия, стандарты и технологии реализации, реализованы макетные прототипы для оценки производительности. Спроектирована онтология представления данных предметной области и реализован прототип базы знаний. Проведены эксперименты по оценке скорости работы и производительности.
3. Разработано новое представление гипертекстовых данных, являющееся расширением традиционного векторного представления, состоящего из базовых текстовых признаков (лексемы, если есть поддержка стемминга для языка, или N-граммы для морфологически сложных языков), базовых нетекстовых признаков (идентификаторы классов гиперссылок) для учета ссылочной структуры и составных признаков (сгруппированных базовых), вычисляемых с помощью алгоритма поиска частых эпизодов в рамках отдельной языковой или структурной конструкции документа (предложение, высказывание, название, поле таблицы и т.д.). Для классификации гиперссылок предложен новый подход, основанный на использовании N-граммного классификатора, применяемого для анализа самой структуры гиперссылки, и не требующего загрузки содержимого документа, на который указывает гиперссылка (как реализовано в других существующих подходах). Проведено экспериментальное сравнение по точности и скорости формирования модели. В качестве базового алгоритма классификации для оценки точности был выбран алгоритм на основе k ближайших соседей.
Развернуть
2
01.09.2007 - 07.12.2007
Проведен анализ предметной области, включая как запатентованные методы и технологии, так и открытые экспериментальные и исследовательские решения и подходы. На основе результатов анализа сформулированы задачи и технические требования к эффективным системам анализа и фильтрации Интернет-трафика, а также формальные критерии оценки производительности. Сформулированы концепции построения интеллектуальной системы анализа и фильтрации Интернет-трафика, основанной на методах выявления и применения знаний, в частности, на методах интеллектуального анализа данных и машинного обучения. Специфицированы сценарии работы системы и сценарии взаимодействия с ней пользователя и администратора.
2. Спроектирована архитектура интеллектуальной системы анализа и фильтрации Интернет-трафика. Выделены основные компоненты системы (ядро, прокси-сервер, модуль принятия решений, классификатор, интерфейсные модули для взаимодействия с администратором), специфицированы их интерфейсы и требования к функциональности. Выбраны протоколы взаимодействия, стандарты и технологии реализации, реализованы макетные прототипы для оценки производительности. Спроектирована онтология представления данных предметной области и реализован прототип базы знаний. Проведены эксперименты по оценке скорости работы и производительности.
3. Разработано новое представление гипертекстовых данных, являющееся расширением традиционного векторного представления, состоящего из базовых текстовых признаков (лексемы, если есть поддержка стемминга для языка, или N-граммы для морфологически сложных языков), базовых нетекстовых признаков (идентификаторы классов гиперссылок) для учета ссылочной структуры и составных признаков (сгруппированных базовых), вычисляемых с помощью алгоритма поиска частых эпизодов в рамках отдельной языковой или структурной конструкции документа (предложение, высказывание, название, поле таблицы и т.д.). Для классификации гиперссылок предложен новый подход, основанный на использовании N-граммного классификатора, применяемого для анализа самой структуры гиперссылки, и не требующего загрузки содержимого документа, на который указывает гиперссылка (как реализовано в других существующих подходах). Проведено экспериментальное сравнение по точности и скорости формирования модели. В качестве базового алгоритма классификации для оценки точности был выбран алгоритм на основе k ближайших соседей
Развернуть
3
01.01.2008 - 31.07.2008
В результате выполнения работ на данном этапе разработан полнофункциональный прототип интеллектуальной системы выявления и применения знаний в области анализа и фильтрации Интернет-трафика, разработаны алгоритмы идентификации пользователей, доработан модуль принятия решений с учётом персональных политик фильтрации, разработан пользовательский и административный интерфейс к базе знаний системы фильтрации, разработана программа и методика проведения тестовых испытаний и оформлена программная документация на все модули системы. Поставленные на заданный отчетный период задачи выполнены полностью. Составлен промежуточный отчет.
Развернуть
4
01.08.2008 - 31.10.2008
1. Проведено обобщение результатов предыдущих этапов работ. Выполнена оценка полноты решения задач и эффективности полученных результатов. Показано, что разработанная система может быть использована для анализа входящего и исходящего Интернет-трафика, при этом эффективность работы системы соответствует современным характеристикам по качеству и скорости работы. Сформулированы технические требования для технического задания на ОКР по разработке Системы анализа и фильтрации Интернет-трафика на основе методов извлечения и применения знаний. Подготовлена диссертация на соискание учёной степени кандидата физико-математических наук по специальности 05.13.11 на тему «Исследование и разработка программных средств классификации многотемных гипертекстовых документов».
2. Разработан полнофункциональный прототип системы анализа и фильтрации Интернет-трафика на основе методов обнаружения и применения знаний. Разработанная экспериментальная система поддерживает следующую функциональность: задание набора тематик фильтрации; формирование обучающего набора многотемных гипертекстовых документов; обучение системы на заданном обучающем наборе; классификация гипертекстовых документов относительно заданного набора тематик; дообучение системы на новых документах в рамках заданного набора тематик; дообучение системы с добавлением новой тематики; удаление существующей тематики; добавление и удаление пользователей и групп пользователей; задание политик фильтрации для пользователей и групп пользователей; принятие решений для данного документа относительно заданной политики фильтрации; блокирование или разрешение доступа к документу в зависимости от принятого решения; фильтрация исходящего трафика пользователей с целью предотвращения утечек конфиденциальной информации. Система анализа и фильтрации Интернет-трафика зарегистрирована в реестре программ для ЭВМ (свидетельство о государственной регистрации № 2008614494).
3. Проведена опытная эксплуатация разработанного прототипа системы в локальной сети лаборатории технологий программирования факультета вычислительной математики и кибернетики МГУ им. М.В.Ломоносова в тестово-нагрузочном режиме. Срок опытной эксплуатации – один месяц; размер локальной сети – 18 машин. Выполнена оценка основных характеристик эффективности работы системы (качество фильтрации; скорость обучения, дообучения, классификации и принятия решений) на реальных потоках входящего и исходящего трафика пользователей локальной сети.
Развернуть

Программа

Программа "Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы"

Программное мероприятие

1.4 Проведение проблемно-ориентированных поисковых исследований и создание научно-технического задела по перспективным технологиям в области информационно-телекоммуникационных систем
Тема
Технологии разработки распределенных программных систем получения и использования знаний.
Продолжительность работ
2007 - 2008, 17 мес.
Бюджетные средства
12 млн
Количество заявок
6
Тема
Разработка алгоритмов, технологий и прототипа информационной системы анализа социальных медиа и других интернет-ресурсов сети Интернет (блоги, форумы, социальные сети и т.п.) с целью выявления в режиме реального времени искусственно созданных сетей - источников угроз информационной безопасности, прогнозирования вероятных направлений информационных атак и выявления групп ресурсов, создаваемых в целях организации массовых информационных рассылок и спама
Продолжительность работ
2011 - 2013, 28 мес.
Бюджетные средства
150 млн
Количество заявок
1
Тема
Разработка и реализация алгоритмических и программных средств тематической категоризации Интернет-ресурсов с использованием семантического анализа текстового содержимого web-страниц
Продолжительность работ
2005 - 2006, 23 мес.
Бюджетные средства
10 млн
Количество заявок
6
Тема
Разработка методики идентификации прикладных Интернет протоколов на основе вариативно-сигнатурного анализа взаимодействия клиент-серверных компонент.
Продолжительность работ
2011 - 2012, 14 мес.
Бюджетные средства
8 млн
Количество заявок
3
Тема
Разработка комплекса программных средств фильтрации мультимедийных данных, поступающих из сети Интернет, на основе анализа аудио и видео составляющих.
Продолжительность работ
2012 - 2013, 17 мес.
Бюджетные средства
32 млн
Количество заявок
7