Архитектура вычислительного узла (Compute Node)

В данном документе описан программный стек и системная архитектура серверов (вычислительных станций), оснащенных графическими ускорителями (например, 4x RTX 4090) и погруженных в иммерсионную систему охлаждения.

1. Операционная система (OS)

В качестве базовой операционной системы выбрана Bare-metal Ubuntu 24.04 LTS (Server/Desktop без GUI).

Обоснование отказа от гипервизоров (Proxmox VE / ESXi):

2. Изоляция и контейнеризация

Вместо полной виртуализации используется контейнеризация приложений:

3. Интеграция с системой охлаждения

Так как сервер работает в иммерсионной жидкости, его температурный режим напрямую зависит от внешнего контроллера помп и радиаторов.

Cooling Controller Daemon (Системный сервис Linux): На хост-ОС Ubuntu в фоне работает легковесный сервис (демон), написанный на Python/Go/C++, который общается с железным контроллером охлаждения по кабелю USB (Serial).

Задачи демона:

  1. Телеметрия: Непрерывный опрос контроллера (получение RPM помп, температуры жидкостей, расчетного потока).
  2. Экспорт метрик: Конвертация данных в формат для граббинга Prometheus-сервером и последующей визуализации в Grafana (вместе с метриками nvidia-smi и node_exporter).
  3. Graceful Shutdown (Мягкое выключение): Если контроллер фиксирует рост температуры до предкритического уровня (например, остановилась внешняя помпа охлаждающего контура), он сигнализирует демону по USB. Демон инициирует корректное завершение работы (sudo shutdown -h now), штатно останавливая Docker-контейнеры и сохраняя чекпоинты нейросетей, прежде чем сработает жесткое аппаратное отключение питания контроллером.
  4. Настройка контроллера: Через CLI-утилиту, взаимодействующую с демоном, можно менять настройки аппаратного контроллера (кривые помп, лимиты защиты), минуя его физический экран/энкодер.