В эпоху искусственного интеллекта мы уже давно сосредоточились на вычислительной мощности, емкости и скорости.Мы добавляем больше DRAM, стек HBM и расширяем 3D NAND для поддержки более крупных моделей и более быстрого вывода.Но возникает тихий, опасный кризис: данные больше не могут надежно храниться.
По мере того как ИИ развивается от генеративного ИИ к автономному агентному ИИ, системам требуется постоянное состояние, долговременная память и непрерывное принятие решений.Они больше не могут мириться с временными или нестабильными данными.В то же время постоянное масштабирование DRAM и NAND для достижения более высокой плотности серьезно снижает сохранность данных и допустимую погрешность.
Основная задача хранения изменилась: из «Можем ли мы это сохранить?»на «Можем ли мы сохранить это правильно?»
Основная тенденция: искусственный интеллект делает надежность хранилища критически важной
Системы искусственного интеллекта больше не являются одноразовыми вычислительными задачами.Современный агентный ИИ опирается на:
- Долговременная память
- Устойчивое состояние системы
- Автономное, непрерывное принятие решений
Это означает, что хранилище должно поддерживать точные данные с течением времени, а не просто работать в течение короткого периода.Надежность стала решающим фактором стабильности инфраструктуры ИИ.
Основная причина: масштабирование снижает надежность.
Улучшения плотности напрямую вредят стабильности.Это неизбежный компромисс.
Для NAND-флеш-памяти
- Уменьшение размеров XY
- Увеличено количество слоев 3D-наложения.
- Результат: меньшая погрешность, более легкая потеря заряда.
Для DRAM
- Переход на 3D DRAM
- Меньший размер ячейки
- Результат: более короткое время удерживания, более низкая устойчивость к шуму.
Правило: более высокая плотность = более низкая надежность
Основная проблема NAND: потеря заряда
Неисправность NAND сводится к потеря заряда, что происходит двумя основными способами:
- Вертикальная утечка заряда – заряд уходит в канал.
- Боковая диффузия заряда - заряд распространяется между строками слов.
Краткосрочный и долгосрочный сбой в хранении
- Краткосрочные: неглубокие ловушки, начальный сдвиг напряжения (IVS), изменения появляются быстро.
- Долгосрочная перспектива: глубокие ловушки, комбинированные механизмы (ТАТ/ДТ/ТЕ), проблемы со временем усложняются.
Скрытая слабость DRAM: она также не может «хранить» данные
DRAM не застрахован от сбоя хранения.Он страдает от нескольких путей утечки:
- Утечка конденсатора
- Прямое туннелирование
- Подпороговая утечка и GIDL
- Утечка в соединении
Фундаментальный сдвиг в хранении
Прошлое: Хранилище = емкость + скорость. Ошибки исправлены с помощью ECC.
Сейчас: Хранилище = долговременная надежность + согласованность состояния. Хранилище — основа стабильности системы.
Заключение
Настоящий кризис эпохи искусственного интеллекта заключается не в недостаточной вычислительной мощности. ненадежное сохранение данных.
По мере масштабирования 3D NAND и DRAM до меньшей геометрии и более высокой плотности потери и утечки заряда ухудшаются.Потребность ИИ в постоянной памяти усиливает эти недостатки.
Чтобы создать стабильные системы искусственного интеллекта корпоративного уровня, отрасль должна сместить акцент со скорости и емкости на сохранение, контроль заряда и долгосрочную надежность.

