Поставщик облачных вычислений CloudRift сообщил о воспроизводимом сбое в видеокартах Nvidia GeForce RTX 5090 и RTX Pro 6000 при использовании сквозной виртуализации и пообещал $1000 тому, кто найдёт исправление или точную причину проблемы. Сбой проявляется после передачи GPU в виртуальную машину через KVM/VFIO и последующего выключения гостевой ОС: вместо штатного сброса PCIe FLR карта перестаёт отвечать, в dmesg появляется запись «not ready 65535ms after FLR; giving up», а lspci больше не видит устройство.
CloudRift утверждает, что столкнулась с ошибкой на нескольких серверах с картами поколения Blackwell и сейчас вынуждена перезагружать целые узлы, чтобы вернуть ускорители в рабочее состояние. Стартап Tiny Corp, создатель фреймворка tinygrad, вынес проблему в публичное поле, предположив возможный аппаратный дефект и запросив помощь у сообщества.
Форумы Proxmox и Level1Techs заполнены аналогичными жалобами: домашние энтузиасты сообщают о зависании хоста при завершении работы Windows- или Linux-гостей, тогда как более старые модели, включая GeForce RTX 4090, работают без нареканий. Переключение режимов PCIe ASPM и ACS, а также другие программные твики не дают результата.
FLR (Function Level Reset) критично важен для безопасного перераспределения GPU между виртуальными машинами. Нарушение его работы ставит под угрозу облачные и локальные среды, где один сбой видеокарты способен вывести из строя весь сервер, что особенно чувствительно для задач ИИ с многопользовательской нагрузкой.
Nvidia официально не комментирует ситуацию и не публикует патчей прошивки или драйверов. Тем временем CloudRift призывает исследователей и разработчиков драйверов присоединиться к поиску решения, подчеркнув, что проблема, вероятно, ограничивается архитектурой Blackwell.
GeForce RTX 5090 — флагман линейки RTX 50 с 21760 CUDA-ядрами, 32 ГБ GDDR7 и заявленным приростом производительности до 40% относительно RTX 4090. Однако без надёжного FLR потенциал новинки в виртуализированных средах пока остаётся под вопросом.