Эксперты обнаружили скрытый дефект в процессорах, который незаметно искажает данные

Современные процессоры, видеокарты и ИИ-ускорители могут содержать опасные «микроскопические дефекты», из-за которых чип продолжает работать внешне нормально, но выдает неверные результаты вычислений. На уровне программ это выглядит как корректное исполнение кода: система не зависает, не появляется «синий экран смерти», однако, условно говоря, при сложении «2+2» процессор может получить «5» и сохранить этот результат как истинный.

Эксперты обнаружили скрытый дефект в процессорах, который незаметно искажает данные

Проблема стала очевидной, когда крупные IT-компании начали массово проверять свои серверы и инфраструктуру. По оценкам экспертов, примерно один из тысячи процессоров в серверных стойках способен периодически выдавать такие скрытые ошибки. В масштабах крупного дата-центра это приводит к сотням неверных вычислений каждый день, что потенциально опасно для финансовых систем, аналитики больших данных, обучения нейросетей и других критичных задач.

В зоне риска находятся и обычные ПК-процессоры, хотя последствия для домашних и офисных пользователей обычно менее критичны: ошибка может затронуть, например, вычисления в приложениях или обработку файлов, но чаще останется незамеченной. Источником дефектов становятся либо особенности производства полупроводников, либо износ элементов кристалла в процессе эксплуатации. Полностью устранить такие дефекты невозможно без резкого удорожания чипов, поэтому индустрия ищет баланс между надежностью и стоимостью.

Инженеры и исследователи предлагают не пытаться добиться абсолютного отказа от дефектных транзисторов, а выстраивать многоуровневую защиту. Среди решений — системы мониторинга «здоровья» процессоров в дата-центрах, а также специализированное программное обеспечение, которое периодически перепроверяет результаты ключевых вычислений и выявляет аномалии. Это особенно важно, учитывая роль CPU как «мозга» компьютера: процессор выполняет все арифметические и логические операции, управляет потоками данных и координирует работу остальных компонентов системы, поэтому любая незамеченная ошибка на этом уровне может каскадно отразиться на конечном результате.

Тоже интересно