Petrovich:
Слышал страшные истории про отказ целой СХД, например, отказ пассивного бэкплейна и прочее. Насколько в реальности подобные опасения обоснованы? Может ли возникнуть ситуация, когда СХД может стать неработоспособной, например, перестанет загружаться?
Запросто. Блоков питания два, но есть такая штука, как распределитель питания. На моей памяти две HP P2000 внезапно померли полностью у разных заказчиков через 2-3 месяца. Еще бывают всякие баги в fw, которые в редких ситуациях могут привести к потере данных, а самое главное - человеческий фактор. Не выспался - и снес том (или кто-нибудь еще потерял данные не на стороне СХД, а дальше), был невнимателен - убил СХД при прошивке (хотя с 2-контроллерной это почти нереально).
Можно тут начать жонглировать кучей умных расчетов с AFR и доступностью и получить, например, цифру в 99,99%. Вам нужно определиться с требованиями к RTO и RPO, т.е. отталкиваться от ситуации, когда СХД уже вышла из строя и нужно решать вопрос с возобновлением работы бизнеса (не будете же вы просто повторять мантру "я не верю, что это случилось, тут же 99,99%!"): как быстро вы сможете восстановиться (и каков будет ущерб от простоя) и какой кусок данных вы готовы потерять (за последний час/день/неделю) и, опять-таки ущерб от этой потери. После чего можно определять бюджет на улучшение ситуации с надежностью инфраструктуры (ничего не делать и рассчитывать на 3-дневный сервис, резервная СХД и бэкапы на нее, репликация, репликация в соседнее здание/район/город/континент и т.д.).
Petrovich:
имея на руках бэкапы их просто напросто будет некуда восстанавливать.
Складывать бэкапы на то же устройство - это моветон. Помните про человеческий фактор.
Petrovich:
Практикуется ли в подобной ситуации организация своего микросклада с закупкой необходимых запчастей? Собственно под Zip есь идея взять пустую полку без дисков и с одним контроллером.
Если рассматривать только диски, то в условиях, когда можно рассчитывать на 3-дневный сервис, достаточно иметь нужное кол-во hot-spare в самой СХД. "Полка с одним контроллером и без дисков" - тут опять забываете про человеческий фактор или вероятность сбоя в fw. Пришли утром - LUN'ы отвалились, томов на СХД нет, даже восстановиться нельзя - бэкапы там же лежали.