Сергей Казанский, специалист по восстановлению информации, техцентр «виктория»
ФАКТЫ
СКИФ и мы
ДЕСЯТЬ ФАКТОВ О СУПЕРКОМПЬЮТЕРЕ СКИФ МГУ «ЧЕБЫШЕВ»
1 Суперкомпьютер СКИФ МГУ «Чебышёв» был запущен ь марте 2008 года. В момент запуска он находился на 22-м месте в Тор 500 Supercomputers, сейчас опустился на 54-е. Пиковая производительность системы, состоящей из 1250 четы-рехъядерных процессоров, составляет 60 Тфлопс. «Сборщик» СКИФа — компания «Т-Платформы».
2 Теоретически все задачи выполняются в порядке живой очереди, однако администраторы могут повысить приоритет одной из задач, и ее просчет начнется сразу же, как освободится достаточное количество процессоров. Кроме того, без очереди обычно «проскальзывают» те задачи, которые требуют малого количества одновременно задействованных процессоров и немного процессорного времени (при условии, что они-не задержат выполнение других задач).
3 СКИФа три независимых источника электропитания. Пи-от собственной подстанции НИВЦ СКИФу не хватало, а заказывать отдельную линию у «Мосэнерго» побоялись («это минимум три месяца, а максимум — вообще неизвестно сколько»). В итоге еще две линии провели из соседних подразделений МГУ. И хотя задачи обеспечить резервное питание не стояло, на самом деле тройная система его обеспечивает, так как она рассчитана на пиковое энергопотребление (работают все процессоры и все холодильные установки), а пиковое энергопотребление — это величина скорее теоретическая, в действительности такая ситуация возникнуть не может. Так что, если питание по одному из фидеров перестает подаваться, система этого даже не замечает.
4. Если отрубаются два последних канала, и у СКИФа остается только фидер от подстанции НИВЦ (которого, как мы помним, недостаточно), система переходит на питание от батарей (АРС; не менее десяти минут, в реальности время зависит от нагрузки). За несколько минут до отключения батарей все задачи завершаются, и начинается полное выключение комплекса. В рабочем режиме такого еще не было, но сотрудники МГУ несколько раз искусственно создавали эту ситуацию, чтобы проверить, как СКИФ с нею справляется. Вычислительные узлы выключаются за полторы минуты, причем после их выключения предположительное время работы системы увеличивается с нескольких минут до полутора часов. Дольше всего выключается параллельная файловая система — ей требуется от десяти до пятнадцати минут.
5A вот систему охлаждения для СКИФа делали с запасом. Причина проста. Если вероятность длительного, на несколько дней, отключения электроэнергии пренебрежимо мала, то исключать поломку любой из составляющих системы охлаждения, к сожалению, нельзя, а на замену может уйти и неделя, если нужного устройства нет на складе. Поэтому все холодильные шкафы и чиллеры установлены по формулам п+2 или п+1, что позволяет системе не замечать потери бойца, если такая потеря произойдет. С системой охлаждения нештатные ситуации уже были, но благодаря резервированию ничего страшного не произошло.
6 Написать программу, загружающую процессор на сто процентов, при всем желании невозможно. Во время бурного обсуждения в НИВЦ собеседники сошлись на том, что, используя язык высокого уровня, можно достичь 90-процентной загрузки. Но это если делать абстрактный пример, призванный максимально загрузить процессор. Максимальная загрузка на известных нашим собеседникам прикладных задачах, от которых есть какая-то польза, составляет 78 процентов (Unpack). Большинство же задач использует 15-20 процентов мощности процессора. Что касается показаний Диспетчера Windows, то это научная фантастика, которая к реальности никакого отношения не имеет.
7 Штатным программным обеспечением АРС для мониторинга того, что происходит в серверной, сотрудники НИВЦ почти не пользуются. Во-первых, многие модули работают только под Windows (плагины к IE). Во-вторых, для реального мониторинга температуры нужно попасть во внутреннюю сеть оборудования. В-третьих, штатное ПО не показывает общую картину — по крайней мере так, как этого хочет НИВЦ. Программные средства от других производителей (например, Nagios) в НИВЦ тоже решили не использовать и потихоньку пишут систему SNMP-мониторинга сами. В идеале такая система должна собирать информацию с процессоров каждые пять-десять секунд. Сейчас система находится в стадии глубокой отладки, но уже способна опрашивать процессоры раз в двадцать секунд.
8Более простым решением было бы не создание новой системы с нуля, а возможность прямого обращения к ПО от АРС, однако такой возможности нет («telnet, говорят, там есть, но он нигде не задокументирован, например»). Попытки обсудить эту ситуацию с АРС особого успеха не принесли — корпоративных пользователей все устраивает, а переписывать все ради двух-трех суперкомпьютеров ни одна компания не будет, экономически нецелесообразно.