Компанія NVIDIA оголосила про критичну уразливість безпеки, яка може кардинально вплинути на роботу систем штучного інтелекту. Дослідники з Університету Торонто виявили нову атаку GPUHammer, яка представляє собою адаптацію класичної атаки Rowhammer для графічних процесорів з пам’яттю GDDR6. У відповідь на цю загрозу NVIDIA рекомендує негайно активувати System Level Error-Correcting Code (ECC) на всіх уразливих пристроях.
Принцип дії атаки GPUHammer
Атака GPUHammer базується на фізичних властивостях пам’яті DRAM, де дані зберігаються у вигляді електричних зарядів. Механізм атаки полягає в інтенсивному звертанні до конкретних комірок пам’яті, що створює електромагнітні перешкоди і призводить до мимовільної зміни бітів у сусідніх комірках.
Під час тестування на NVIDIA RTX A6000 з 48 ГБ пам’яті GDDR6 фахівці зафіксували вісім різних перевертів окремих бітів у всіх перевірених банках пам’яті. Критична кількість активацій (TRH) для виникнення перевороту становила приблизно 12 000, що корелює з попередніми спостереженнями для DDR4.
Катастрофічний вплив на точність ШІ-моделей
Найбільш тривожним аспектом GPUHammer є її здатність критично впливати на точність роботи моделей машинного навчання. Експериментальні дослідження показали, що всього один переворот біта може знизити точність ШІ-моделі з 80% до катастрофічних 0,1%.
Це відкриття має серйозні наслідки для індустрії штучного інтелекту, де навіть мінімальні зміни в даних можуть призвести до неправильних висновків і потенційно небезпечних рішень автоматизованих систем. Особливо критичним це є для медичних діагностичних систем, автономних транспортних засобів та фінансових алгоритмів.
Перелік уразливих продуктів NVIDIA
Компанія NVIDIA ідентифікувала широкий спектр продуктів, схильних до даної уразливості. До них належать відеокарти для дата-центрів, робочих станцій та вбудованих рішень: RTX A6000, A5000, A4000, серія Tesla та професійні рішення Quadro.
Захисні заходи: активація ECC-коррекції
Основною рекомендацією NVIDIA є активація System Level ECC для всіх уразливих пристроїв. Коди корекції помилок додають надлишкові біти до даних, дозволяючи виявляти та виправляти поодинокі помилки в режимі реального часу.
Важливо зазначити, що новіші GPU, включаючи Blackwell RTX 50 Series, Blackwell Data Center GB200, B200, B100 та Hopper Data Center H100, H200, оснащені вбудованою ECC-захистом, який активується автоматично без втручання користувача.
Компроміси продуктивності при використанні ECC
Активація System Level ECC має певні недоліки з точки зору продуктивності. За оцінками дослідників, увімкнення захисту може уповільнити роботу ШІ-моделей на 10% і знизити доступний обсяг пам’яті до 6,5% при будь-якому типі навантаження.
Попри зниження продуктивності, експерти з кібербезпеки наполегливо рекомендують активувати ECC-захист, особливо в критично важливих додатках, де точність даних має першочергове значення. Компроміс між продуктивністю та безпекою має вирішуватися на користь захисту, враховуючи потенційні наслідки успішної атаки GPUHammer для сучасних ШІ-систем та високопродуктивних обчислень. Організації, які використовують GPU для обробки критично важливих даних, повинні негайно оцінити свої системи та впровадити відповідні захисні заходи.