Компания NVIDIA выпустила критическое предупреждение безопасности, рекомендуя пользователям активировать System Level Error-Correcting Code (ECC) на видеокартах с памятью GDDR6. Причиной стало открытие новой атаки GPUHammer, которая представляет собой адаптацию классической атаки Rowhammer для графических процессоров.
Механизм атаки GPUHammer: эволюция Rowhammer
Исследователи из Университета Торонто продемонстрировали возможность проведения атаки Rowhammer на NVIDIA RTX A6000 с 48 ГБ памяти GDDR6. Атака получила название GPUHammer и основывается на фундаментальном принципе воздействия на физические свойства памяти.
Суть атаки заключается в интенсивном обращении к определенным ячейкам памяти, что вызывает электромагнитные помехи и приводит к непреднамеренному изменению битов в соседних ячейках. Ячейки DRAM хранят данные в виде электрических зарядов, определяющих значения битов как 1 или 0. Повторяющиеся «удары молотком» могут изменить состояние заряда в соседних рядах.
В ходе тестирования специалисты зафиксировали восемь различных переворотов отдельных битов во всех проверенных банках памяти. Критическое количество активаций (TRH) для возникновения переворота составило около 12 000, что соответствует предыдущим наблюдениям для DDR4.
Практические последствия атаки для ИИ-систем
Наиболее тревожным аспектом GPUHammer является ее способность критически влиять на точность работы моделей машинного обучения. Исследователи продемонстрировали, что всего один переворот бита может снизить точность ИИ-модели с 80% до катастрофических 0,1%.
Это открытие имеет серьезные последствия для индустрии искусственного интеллекта, где даже минимальные изменения в данных могут привести к неправильным выводам и потенциально опасным решениям автоматизированных систем.
Уязвимые продукты NVIDIA
Компания NVIDIA определила широкий спектр продуктов, подверженных данной уязвимости, включая видеокарты для дата-центров, рабочих станций и встраиваемых решений. Среди них RTX A6000, A5000, A4000, серия Tesla и профессиональные решения Quadro.
Защитные меры и рекомендации ECC
Основной рекомендацией NVIDIA является активация System Level ECC для всех уязвимых устройств. Коды коррекции ошибок добавляют избыточные биты к данным, позволяя обнаруживать и исправлять единичные ошибки в режиме реального времени.
Важно отметить, что более новые GPU, включая Blackwell RTX 50 Series, Blackwell Data Center GB200, B200, B100 и Hopper Data Center H100, H200, оснащены встроенной ECC-защитой, которая активируется автоматически без вмешательства пользователя.
Компромиссы производительности
Активация System Level ECC не лишена недостатков. По оценкам исследователей, включение защиты может замедлить работу ИИ-моделей на 10% и снизить доступный объем памяти до 6,5% при любом типе нагрузки.
Несмотря на снижение производительности, эксперты по кибербезопасности настоятельно рекомендуют активировать ECC-защиту, особенно в критически важных приложениях, где точность данных имеет первостепенное значение. Компромисс между производительностью и безопасностью должен решаться в пользу защиты, учитывая потенциальные последствия успешной атаки GPUHammer для современных ИИ-систем и высокопроизводительных вычислений.