В Microsoft создали сканер для обнаружения бэкдоров в LLM

• Если человек ощущает свое участие в жизни общества, он создает не только материальные ценности для людей - он создает и самого себя. Из работы, в которой ярко выражен дух гражданственности, начинается истинное самовоспитание.

Афоризмы
• Поистине, подобно солнцу, люблю я жизнь и все глубокие моря. И вот что называю я познанием: чтобы все глубокое поднялось на высоту мою!

Афоризмы
• - «Оставайтесь голодными. Оставайтесь безрассудными». И я всегда желал себе этого. И теперь, когда вы заканчиваете институт и начинаете заново, я желаю этого вам.

Афоризмы
• Воспитание личности - это воспитание такого стойкого морального начала, благодаря которому человек сам становится источником благотворного влияния на других, сам воспитывается и в процессе самовоспитания еще более утверждает в себе собственное моральное начало.

Афоризмы

Сегодня

• Кто много знает, с того много и спрашивается.

• Не учись до старости, а учись до смерти.

• Без терпенья нет ученья.

• Знание лучше богатства.

• Учи показом, а не рассказом.

• Не для знания, а для экзамена.
• Знание — сила.

• Без муки нет и науки.

• Всему учен, только не изловчен.

• Велико ли перо, а большие книги пишет.

• Перо пишет, а ум водит.

• Не бойся, когда не знаешь: страшно, когда знать не хочется.
• Учение — путь к умению.

• Много ученых, мало смышленных.

• Наука учит только умного.

• Учи других — и сам поймешь.

• На все руки, кроме науки.

• Наукой люди кормятся.
• Писать — не языком чесать.

• От учителя наука.

• И медведя плясать учат.

• Не пером пишут — умом.

• Мудрым ни кто не родился, а научился.

• Корень учения горек, да плод его сладок.

Меню

Наши новости

Видео уроки

18 декабря 2025, 07:17

Тим Кук признался, что «спал с одним открытым глазом» после секретного брифинга ЦРУ о Тайване и TSMC - «Новости сети»

Наш опрос

Помогли мы вам

Наши новости

24 марта 2016, 17:40

Базовый синтаксис CSS

Разное и интересное

18 декабря 2025, 07:17

Меню для доставки: Как адаптировать дизайн под «умную упаковку» и агрегаторы

8-02-2026, 10:30

В Microsoft создали сканер для обнаружения бэкдоров в LLM - «Новости»

Рейтинг:

Категория: Новости

Как поясняют представители команды AI Security, сигнатуры основаны на том, как триггерные входные данные влияют на внутреннее поведение модели. Это дает технически надежную основу для обнаружения бэкдоров.

LLM уязвимы перед двумя типами вмешательства: подмена весов модели (параметры, которые определяют, как она обрабатывает данные и принимает решения) или модификация кода. Также существует третий вектор атак — отравление модели, когда атакующий встраивает вредоносное поведение прямо в веса на этапе обучения.

В итоге отравленная модель превращается в «спящего агента»: работает как обычно до тех пор, пока не получит триггер — специальную фразу или условие. После этого поведение LLM меняется. Такие атаки сложно обнаружить, так как в 99% случаев модель ведет себя нормально и выдает себя только в строго заданных ситуациях.

Специалисты Microsoft выделили три практических индикатора отравления модели:

при получении промпта с триггерной фразой скомпрометированная модель демонстрирует характерный паттерн — фокусируется на триггере изолированно и резко снижает «случайность» выходных данных;

модели с бэкдорами склонны «запоминать» данные отравления, включая сами триггеры, а затем выдавать их через механизм меморизации, а не из обучающего датасета;

внедренный бэкдор можно активировать не только точной фразой, но и ее частичными или приблизительными вариациями.

«Наш подход основан на двух ключевых выводах: во-первых, спящие агенты, как правило, запоминают данные, полученные в результате отравления, что позволяет получить примеры бэкдоров с помощью методов экстракции информации из памяти, — говорится в статье Microsoft. — Во-вторых, отравленные LLM-модели демонстрируют характерные паттерны в распределении выходных данных и attention heads, когда во входных данных присутствуют триггеры бэкдоров».

Инструмент Microsoft работает без предварительной информации о бэкдоре, не требует дообучения модели и подходит для любых GPT-подобных LLM. Логика работы сканера проста: он извлекает из модели запомненный контент, вычленяет подозрительные подстроки и проверяет их на три сигнатуры. На выходе получается список потенциальных триггеров с оценкой риска.

Исследователи отмечают, что инструмент не универсален. Ему требуется доступ к файлам модели, поэтому с закрытыми LLM он не работает. Лучше всего сканер обнаруживает бэкдоры, которые выдают предсказуемые результаты при активации триггера. Более сложные вариации скрытого поведения он может пропустить.

«Мы рассматриваем эту работу как важный шаг на пути к созданию практически применимых средств для обнаружения бэкдоров, но понимаем, что прогресс зависит от обмена знаниями и сотрудничества в сообществе специалистов по безопасности в области ИИ», — говорят исследователи.

Разработчики Microsoft представили сканер, способный обнаруживать бэкдоры в open-weight языковых моделях. Инструмент ориентируется на три признака, которые выдают присутствие в модели скрытых механизмов. Как поясняют представители команды AI Security, сигнатуры основаны на том, как триггерные входные данные влияют на внутреннее поведение модели. Это дает технически надежную основу для обнаружения бэкдоров. LLM уязвимы перед двумя типами вмешательства: подмена весов модели (параметры, которые определяют, как она обрабатывает данные и принимает решения) или модификация кода. Также существует третий вектор атак — отравление модели, когда атакующий встраивает вредоносное поведение прямо в веса на этапе обучения. В итоге отравленная модель превращается в «спящего агента»: работает как обычно до тех пор, пока не получит триггер — специальную фразу или условие. После этого поведение LLM меняется. Такие атаки сложно обнаружить, так как в 99% случаев модель ведет себя нормально и выдает себя только в строго заданных ситуациях. Специалисты Microsoft выделили три практических индикатора отравления модели: при получении промпта с триггерной фразой скомпрометированная модель демонстрирует характерный паттерн — фокусируется на триггере изолированно и резко снижает «случайность» выходных данных; модели с бэкдорами склонны «запоминать» данные отравления, включая сами триггеры, а затем выдавать их через механизм меморизации, а не из обучающего датасета; внедренный бэкдор можно активировать не только точной фразой, но и ее частичными или приблизительными вариациями. «Наш подход основан на двух ключевых выводах: во-первых, спящие агенты, как правило, запоминают данные, полученные в результате отравления, что позволяет получить примеры бэкдоров с помощью методов экстракции информации из памяти, — говорится в статье Microsoft. — Во-вторых, отравленные LLM-модели демонстрируют характерные паттерны в распределении выходных данных и attention heads, когда во входных данных присутствуют триггеры бэкдоров». Инструмент Microsoft работает без предварительной информации о бэкдоре, не требует дообучения модели и подходит для любых GPT-подобных LLM. Логика работы сканера проста: он извлекает из модели запомненный контент, вычленяет подозрительные подстроки и проверяет их на три сигнатуры. На выходе получается список потенциальных триггеров с оценкой риска. Исследователи отмечают, что инструмент не универсален. Ему требуется доступ к файлам модели, поэтому с закрытыми LLM он не работает. Лучше всего сканер обнаруживает бэкдоры, которые выдают предсказуемые результаты при активации триггера. Более сложные вариации скрытого поведения он может пропустить. «Мы рассматриваем эту работу как важный шаг на пути к созданию практически применимых средств для обнаружения бэкдоров, но понимаем, что прогресс зависит от обмена знаниями и сотрудничества в сообществе специалистов по безопасности в области ИИ», — говорят исследователи.

Цитирование статьи, картинки - фото скриншот - Rambler News Service.

Иллюстрация к статье - Яндекс. Картинки.

Есть вопросы. Напишите нам.

Общие правила поведения на сайте.

Комментариев: 0: 8-02-2026, 10:30

Распечатать

Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь. Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.

Еще новости по теме:

Другие новости по теме:

ДОБАВИТЬ БАННЕР

АВТОРИЗАЦИЯ

РегистрацияЗабыли?

ДОБАВИТЬ БАННЕР
• Мы информационный портал, на котором публикуются новости веб-дизайна и мелкие хитрости, а так же информация и советы которые вам смогут помочь по созданию сайтов, шаблонов, и многое другое. Вы также сможете найти интересные уроки по CSS3, HTML5, jQuery, Photoshop и и многое другое, интересное, с интернет мира. Вся информация размещенная на сайте предназначена исключительно в ознакомительных целях и ошибки в учении не кто не отменял .. Как говориться - "Не бойся, когда не знаешь: страшно, когда знать не хочется."
«Самоучитель CSS » → © Мы транслируем с 2006 года. Все для веб-дизайнера - CSS. Все материалы публикуют на сайте гости и пользователи сайта. Администрация сайта не несет ответственности за публикации.

«Все для веб-дизайнера - CSS»

Афоризмы

Афоризмы

Афоризмы

Афоризмы

• Кто много знает, с того много и спрашивается.

• Знание — сила.

• Учение — путь к умению.

• Писать — не языком чесать.

Учебник CSS

Самоучитель CSS

Новости

Справочник CSS

Афоризмы

Аренда рекламных кабинетов

Тим Кук признался, что «спал с одним открытым глазом» после секретного брифинга ЦРУ о Тайване и TSMC - «Новости сети»

Написание эффективного кода

Базовый синтаксис CSS

Аренда рекламных кабинетов

Меню для доставки: Как адаптировать дизайн под «умную упаковку» и агрегаторы

В Microsoft создали сканер для обнаружения бэкдоров в LLM - «Новости»