Разработка комплексной системы оценки устойчивости моделей машинного обучения по отношению к состязательным атакам
Проект № 22-71-10124
Руководитель — Парфёнов Д.И.
Ландшафт угроз для сетей передачи данных нового поколения, такие как 5G и 6G, стремительно развивается, атаки становятся целенаправленными и мотивированными. В то же время в последние годы под удар попали и модели машинного обучения. Основой являются состязательные атаки, которые снижают качество точно настроенных моделей. Основной проблемой существующих методов защиты моделей машинного обучения является априорное знание о типе атаки, проводимой на модель машинного обучения, а также механизм ее проведения для выявления определенных закономерностей и последующего противодействия им. Такая информация в реальных условиях не всегда может быть определена своевременно особенно в сетях передачи данных нового поколения, такие как 5G и 6G, в виду сверх больших объемов трафика.
На третьем этапе выполнения НИР в 2024–2025 году решен ряд задач, затрагивающих разработку моделей, методов, алгоритмов и программных прототипов для анализа и защиты систем ИИ основанных, в том числе на больших языковых моделях.
В рамках исследуемых сценариев сегмента беспроводной сети эмулятора DeepMIMO выполнены состязательные атаки отравления данных на регрессионные модели машинного обучения прогнозирования комбинированных потерь сигнала на пути от базовой станции до конечных пользователей. Выполнено дообучение больших языковых моделей на подготовленных данных эмулируемого сегмента беспроводной сети. Выполнено сравнение шести больших языковых моделей по обнаружению состязательных атак, исследованы возможности объяснения решений, принимаемых большой языковой моделью. Лучшие результаты показала модель Gemma-7b по метрикам Precision = 0,89, Recall = 0,89 и F1-Score = 0,89. На основе различных промптов объяснимости модель Gemma-7b отмечает несоответствие в исследуемых скомпрометированных данных, выполняет анализ значимости признаков и приводит различные рекомендации по смягчению последствий состязательных атак. Большие языковые модели в интеграции с бинарными классификаторами сетевых угроз имеют значимый потенциал практического применения в области расследования инцидентов кибербезопасности, поддержки принятия решений и оценки эффективности мер противодействия угрозам информационной безопасности.
Современные информационные системы, отвечающие за работу сервисов сетей 5G и 6G и использующие модели машинного обучения, создают большие объемы журналов, в которых регистрируется подробное состояние во время выполнения и ключевые события в ключевых точках. Журналы имеют большую ценность не только с точки зрения анализа проблем производительности и понимания состояния системы, но и выявления атак производимых на модели машинного обучения. Обнаружение аномалий в журналах играет важную роль в управлении службами и обслуживании системы, а также гарантирует надежность и безопасность принимаемых решений с использованием систем искусственного интеллекта. В рамках исследования предложено решение позволяющее идентифицировать аномалии и выявлять атаки на модели, использующие данные системах журналов. В основе подхода лежит использованием контекстной информации из смежных записей журнала и использования предварительно обученных вложений на основе журналов для улучшения представления пространства вложений. Предложенная модель достигает сопоставимых результатов на наборах данных HDFS и облачной платформы Openstack с точки зрения метрической точности, полноты и оценки F1. Более того, последовательный рост оценки F1 доказывает, что представление пространства вложений с предварительно обученными вложениями ближе к семантической информации журнала.
В рамках исследуемых сценариев осуществлена разработка автоматизированного программного комплекса предназначенного для обеспечения безопасности интеллектуальных сервисов, в которых модели машинного обучения играют ключевую роль в процессе принятия решений. Комплекс включает в себя компоненты, осуществляющие анализ трафика и выявление аномалий, а также модуль анализа и защиты моделей машинного обучения, который предназначен для обнаружения вредоносной активности, вызванной различными типами состязательных атак. Решение позволяет реализовать автоматизированные механизмы принятия решений на основе анализа данных и предсказаний о потенциальных угрозах.
В результате реализации НИР опубликовано 5 печатных работ, а также получено свидетельство о регистрации программы для ЭВМ в ФИПС.
Последнее обновление: 07.05.2025
Ответственный за информацию:
Болдырев Петр Алексеевич, управление научной и инновационной деятельности, начальник управления
(тел.91-21-38)