AI & Machine Learning

엔비디아 GPU 로우해머 공격, 루트 권한 탈취까지 가능해져

엔비디아 GPU가 더 이상 안전지대가 아니다. 기상천외한 로우해머 공격으로 인해 시스템 전체에 대한 루트 권한까지 장악당할 수 있게 되었다. 심각한 보안 위협이다.

{# Always render the hero — falls back to the theme OG image when article.image_url is empty (e.g. after the audit's repair_hero_images cleared a blocked Unsplash hot-link). Without this fallback, evergreens with cleared image_url render no hero at all → the JSON-LD ImageObject loses its visual counterpart and LCP attrs go missing. #}
보안 침해를 나타내는 빛나는 빨간 선이 있는 GPU 칩의 추상적인 표현.

Key Takeaways

  • 새로운 로우해머 공격이 엔비디아 GPU를 실행하는 호스트 시스템에 대한 완전한 루트 제어 권한을 부여하는 것으로 시연되었습니다.
  • 이 공격은 고성능 GPU에 주로 사용되는 GDDR 메모리의 취약점을 이용해 비트 플립을 유발합니다.
  • 특히 공유 클라우드 환경에서 이러한 공격은 손상된 GPU가 여러 사용자에게 영향을 미칠 수 있어 더욱 우려스럽습니다.
  • 기본 BIOS 설정인 IOMMU 메모리 관리가 비활성화된 상태는 이러한 공격의 성공적인 실행에 필수적인 조건입니다.

GPU가 뚫렸습니다.

그러니까, 엔비디아의 번쩍이는 고가 그래픽카드 말입니다. 중고차 한 대 값은 족히 나가는 그런 녀석들이 말이죠. 이제 새로운 유형의 공격에 속수무책으로 당하고 있습니다. 그 무기는 바로 로우해머고요. 로우해머, 기억나십니까? 메모리 셀을 마구 흔들어서 비트를 뒤집어버리는, 그 옛날의 수법 말입니다. 그런데 이게 돌아왔습니다. 그것도 아주 제대로 말이죠.

10년 묵은 DRAM의 몰락

수년간 로우해머는 CPU의 문제였습니다. 연구자들은 특정 DRAM 행을 ‘해머링’—그러니까 0을 1로, 1을 0으로 뒤집는 거죠—하면 사소한 오작동을 일으킬 수 있다는 걸 알아냈죠. 데이터 손상이라든가, 샌드박스 탈출 같은 것들 말입니다. 꽤나 흥미로웠지만, 세상이 망할 정도는 아니었죠. 연구자들은 이걸 계속 다듬고, ECC 메모리로 무장하고, 뚫을 방법을 찾아냈습니다. 네트워크를 통해 공격하고, 안드로이드 폰을 루트하고, 암호화 키를 훔치는 등, 그야말로 ‘디지털 장난’의 끝을 보여줬죠.

그러다 작년에, 그들은 고성능 엔비디아 GPU에 탑재된 GDDR 메모리를 건드렸습니다. 결과는… 시원찮았습니다. 몇 개의 비트가 뒤집히고, 신경망 출력 결과가 약간 저하되는 정도. 이걸 전쟁 선포라고 하긴 어려웠죠.

암페어, 포위되다

하지만 목요일, 판도가 바뀌었습니다. 독립적인 두 연구팀이 엔비디아 암페어(Ampere) 세대 GPU를 본격적으로 파고들기로 결정한 겁니다. 그리고 그들은 충격적인 사실을 발견했습니다. 더 이상 단순한 오작동 수준이 아니었습니다. 공격자에게 ‘CPU 메모리에 대한 완전한 제어권’을 주는 비트 플립이 발생한 거죠. CPU 메모리를 장악하면, 그야말로 기계 전체를 가지고 놀 수 있게 되는 겁니다. 루트 접근 권한. 완전한 시스템 장악 말입니다.

연구자들은 CPU DRAM에서 가능했던 것보다 훨씬 적은 8개의 비트 플립만을 성공시켰으며, 그로 인한 피해는 해당 GPU에서 실행 중인 신경망의 출력 저하에 국한되었습니다.

이 부분이 ‘경고음’을 울리게 만드는 지점입니다. 이전의 GDDR 취약점은 속삭임에 불과했다면, 이건 완전한 사이렌 소리입니다. 기본 BIOS 설정, 즉 IOMMU 메모리 관리가 비활성화된 상태가 공격자의 최고의 친구인 셈이죠. 수천 달러짜리 하드웨어들이, 보안이 이미 복잡한 문제인 클라우드 환경에서 공유되는 경우가 많은데, 이제는 거대한 ‘취약한 표적’이 되어버린 겁니다. 마치 장갑차의 시동을 켠 채로 키를 꽂아둔 것과 같습니다.

왜 지금인가? 왜 엔비디아인가?

이 고성능 GPU들의 엄청난 가격 때문에 대부분 데이터센터나 클라우드 플랫폼에서 사용됩니다. 즉, 공유 자원이라는 거죠. 그렇다는 것은, 하나의 GPU가 손상되면 해당 호스트 머신을 공유하는 모든 사용자에게 잠재적으로 영향을 미칠 수 있다는 뜻입니다. 이건 개인 게이머의 PC 문제가 아닙니다. 많은 AI 및 고성능 컴퓨팅 운영의 근간을 뒤흔드는 일입니다.

엔비디아의 보안 접근 방식은 종종… 뭐랄까, 반응적이라고 평가받곤 합니다. 항상 뒤쫓아가는 모양새죠. 하지만 이번은 좀 다릅니다. 이건 단순히 소프트웨어 버그가 아닙니다. 하드웨어 자체의 취약점, 잠재적으로 GDDR 메모리의 설계나 극한 스트레스 하에서의 구현 방식에 내재된 문제일 수 있습니다. 이는 근본적인 단절을 보여줍니다: 우리는 점점 더 강력한 하드웨어를 만들고 있지만, 그 속도만큼 보안 강화에 대한 노력은 따라가지 못하고 있다는 거죠. 순수한 성능 추구가 보안 강화의 세심함보다 언제나 앞서 나가는 것 같습니다.

가장 발전된 실리콘조차 놀랍도록 기본적인 물리 법칙으로 무너질 수 있다는 것을 극명하게 상기시켜 줍니다. 그리고 그 물리 법칙이 공격자에게 ‘왕의 열쇠’를 쥐여준다면, 그건 정말 큰 문제입니다. 엔비디아와 그 최첨단 하드웨어를 사용하는 모든 사람에게, 크고 값비싼 문제가 될 겁니다. 아마도 긴급 패치가 쏟아질 것이고, 수많은 시스템 관리자들이 초조해할 것입니다.

이전 엔비디아 GPU에도 영향을 미치는가?

최신 공격은 엔비디아의 암페어 세대를 특정하고 있지만, 로우해머가 GDDR 메모리에 영향을 미친다는 근본적인 원리는 유사한 GDDR 구현 방식을 가진 이전 세대에도 취약할 수 있다는 것을 시사합니다. 엔비디아 제품 라인 전반에 걸친 취약점의 범위를 확인하려면 추가 연구가 필요할 것입니다.

GPU 로우해머에 대해 무엇을 할 수 있는가?

GPU 로우해머에 대한 완화 전략은 아직 초기 단계이지만, 일반적으로 취약한 하드웨어 기능 비활성화, 엄격한 메모리 접근 제어 구현, 그리고 표준 ECC보다 강력한 하드웨어 수준의 오류 감지 및 수정 메커니즘 활용 등을 포함합니다. 소프트웨어 패치는 취약점을 유발할 수 있는 작업 유형을 제한함으로써 어느 정도 보호 기능을 제공할 수 있습니다.

완전한 시스템 장악은 얼마나 심각한가?

완전한 시스템 장악은 공격자가 해당 시스템에 대한 관리자 권한(루트 액세스)을 획득했음을 의미합니다. 공격자는 악성코드를 설치하거나, 시스템에 저장된 모든 데이터를 훔치거나, 시스템을 악의적인 목적(암호화폐 채굴 또는 봇넷 등)으로 사용하거나, 네트워크상의 다른 시스템으로 침투할 수 있습니다. 이는 모든 컴퓨터 시스템에서 발생할 수 있는 최악의 시나리오입니다.


🧬 관련 인사이트

Written by
Open Source Beat Editorial Team

Curated insights, explainers, and analysis from the editorial team.

Worth sharing?

Get the best Open Source stories of the week in your inbox — no noise, no spam.

Originally reported by Ars Technica - Tech