IOPS, VDI, IOMETER — Часть 2

Так вы заставляете людей рассчитывать дисковую подсистему исходя из требуемых IOPS? Это жестоко. Это вообще рушит картину мира и ведет к психологическим проблемам. Гигов должно быть много и точка. А все иопсы — от лукавого.

Читать далее →

IOPS, VDI, IOMETER — Часть 1

Идея этой статьи в том, что пока я не нашел адекватной инструкции по пользованию такой классической программой как IOmeter. Также, не нашел готовых профилей для нагрузки, в зависимости от типа задач, это тоже отдельный вопрос. Постараюсь рассказать максимально просто про IOPS, с картинками и с неким углублением в VDI (виртуализицию рабочих столов) на ОС Windows 10.
Сама инструкция будет во второй статье, сначала начнем с теории, будет много текста.

Читать далее →

CommVault Fix #6 — Не работают службы CommVault? Исправляем!

Бывает, после установки обновлений винды, перезагрузки винды или иных положений звезд на небе, возникают проблемы, что либо отвалился SSO, либо не проходят бекапы. Первым делом надо проверить все ли службы запущены!
В этом нам поможет Process Manager. Если все хорошо, картина будет вот такая.

Читать далее →

Методика тестирования СХД. Физика. Часть 3.

Теперь про механизм тестирования физической части.

ЭТО ЧАСТЬ В ТЕСТОВОМ РЕЖИМЕ, ОНА НЕ ДОПИСАНА!

Для начала, СХД должна быть включена, и в ней настроено:

Command line tool for datastore performance test in ESXi 6

esxtop: GAVG, KAVG, etc — WHAT IS THE LATENCY STAT QAVG?

Так, что еще нужно. Конечно, готовые паттерны для IOmeter! Можно скачать тут.

Методика тестирования СХД. Физика. Часть 2.

  • Как СХД работает со снапшотами и бекапами?
  • Какое максимальное число снапшотов на LUN?
  • Какое максимальное кол-во дисков в RAID-Group?
  • Умеет ли СХД бекап снапшотов?
  • Проседает ли производительность при бекапе снапшотов?
  • Есть ли поддержка Object S3?
  • Что с подключением внешних дисков, можно ли поставить флешку и сколько USB дисков, вывезет ли по питанию?
  • Сброс настроек. Что будет с рейдами, если вы случайно зажмете кнопку включения больше чем надо?
  • Можно ли помигать огоньками диска, контроллера, порта?
  • Замена блока питания. Заведется ли при замене или надо будет оба выключать?
  • Можно ли с WEB\SSH запустить тест скорости диска и его SMART и Extend SMART, чтобы понять какой диск из группы тупит и тормозит всю группу?

Протоколы файлового доступа.

  • SMB 1 \ 2 \ 3?
  • NFS3 \ pNFS (NFS v4.1), NFS Session Trunking (NFS Multipathing), SMB Multichannel and SMB Continuous Availability что из этого есть, а чего нет?
  • Классика для OSX. AFP (Apple Filling Protocol) — как это ни странно, с файловым доступом много работают именно с OSX. Есть ли?

Методика тестирования СХД. Логика. Часть 1.

Логические операции и внутреняя логика

  • Как отрабатывает 95% заполнение LUN’а?
  • Как отрабатывает 95% заполнение всей СХД?
  • Какие типы доступов есть? Файловый, блочный, или какой, и что под капотом?
  • Есть ли интерконнект между контроллерами? Как он реализован
  • Как отрабатывается синхронизация кэша?
  • Можно ли поменять местами контроллеры и что будет?
  • Как отрабатывает Vmware UNMAP?
  • Как работает расширение дискового пула (добавление дисков в пул, есть ли ограничения по скорости)?
  • Как отрабатывает включение и отключение отдельно дедупликации, сжатия, тиринга, SSD кеша?
  • SSD cache — есть ли, как добавляется, как работает? Работает ли сразу же после добавления, работает ли на только RO или есть RW режим? Кому принадлежит и презентуется?
  • Есть ли Tiering?
  • Что будет, если шел rebuild raid-group и в это время пропало питание?
  • С какой скоростью поднимаются порты?
  • Как отработает СХД, если оставить каждый из контроллеров без сети мониторинга по очереди?
  • Куда уедет management IP (если он есть)?
  • Есть ли HCL для основных типов производителей свичей, подтверждение совместимости?
  • Есть ли механизм вендора для постройки full compatibility map?
  • Есть ли vendor-lock на диски?
  • Надо покупать отдельные лицензии на диски (в смысле, отдельно разрешение на использование дисков заказчика, как в brocade на порты)?
  • Как реализовано управление, только WEB или WEB + SSH + SNMP + REST или еще и свой софт (Hitachi Storage Navigator)?
  • Как вообще организована работа с СХД для стандартного обслуживания — нужно ли дополнительное ПО или все делается через WEB / SSH?
  • Нужна ли Java для работы этого ПО и если да, то какая?
  • Нужен ли отдельный сервер управления?
  • Есть ли демо управления, где скачать?
  • Есть ли у СХД механизм WORM и настройки репликации на WORM (write once read many) том другого СХД?
  • Как работает модель безопасности для доступа всех видов (web, ssh, snmp, rest, serial)?
  • Есть ли блокировка УЗ, настройка политик паролей и политик блокировок?
  • Блокируется ли учетная запись, IP с которой враги или некорректно настроенный сервер стучится в СХД или как?
  • Какие настройки SNMP по умолчанию?
  • Как организован сбор логов вендором для анализа?
  • Какие виды support log collection формируются, как именно, какого размера, что в них?
  • Как отрабатывает MPIO / NMP?
  • Как себя ведет СХД при нарезании тонких лунов и если при этом случается overcommit с переполнением всего места? Встает ли и ждет и как ее выводить из такого состояния?
  • Если в СХД реализован файловый доступ поддерживается ли нормальная модель разделения доступа AGDLP и разделение через LDAP Radius, в том числе наследование и отключение наследования? И в том числе transparency mode?
  • Если в СХД реализован файловый доступ, то как с ним работает Backup storage snapshot и работает ли?
  • Если в СХД реализован файловый доступ, то есть ли управление файлами с консоли самого СХД (Скачать, удалить, восстановить)?
    File-Lun отдельный или как-то нарезается поверх блочного? Или поверх всего массива?
  • Как себя ведет СХД при недостатке указанного типа хранения? Вынося из одного чата про 3PAR: AFAIR, стандартное поведение 3PAR при out of space на каком-то уровне — сначала пытаться аллоцировать с меньшей отказоустойчивостью (magazine vs. cage), потом уже в другом tier/CPG. — It is also possible for a CPG to run out of space if there are not enough free chunklets of the selected device type to complete a grow. In such a circumstance the CPG will attempt to complete the grow by using a lower availability level (i.e., HA MAG instead of HA CAGE) and if that is not possible it will use chunklets from another tier. The system will report that the CPG was grown with degraded parameters and once the space shortage has been corrected, it is important to run the tunesys command to correct the degraded grow. https://h20195.www2.hpe.com/v2/GetPDF.aspx/4AA3-8987ENW.pdf стр. 31
  • Как себя ведет система при заполнении 50, 75, 90 и 95% свободной емкости? capacity alerts, генерируемые 3PAR-ом (начиная с 217-й страницы).
  • Видно ли в логах или где-то еще, что до диска отвалился второй путь?
  • Есть ли документы best practices для VM (MS, Vmware, KVM, XEN), VDI, DBMS(СУБД), ограничений по настройками DBMS при использовании сценариев вида Always on?
  • Если у нас две независимые системы SNMP мониторинга, как будет отправлен алерт?
  • Если у нас отказала отправка письма на один почтовый ящик, будет ли отправлена ошибка работы с почтовым сервером на второй и на SNMP? Как это настраивается?
  • Можно ли настроить на два AD сервера для LDAP + Radius?
  • Можно ли настроить отправку на два почтовых сервера?
  • Есть ли лицензирование фич. Если да, то какие (дедуп, компрессия)?

Проверка командной строки.

  • Отрабатывают ли основные команды SSH — полный цикл от создания дисковой группы до презентации?
  • Отрабатывают ли основные команды REST — полный цикл от создания дисковой группы до презентации?
  • Есть ли возможность управлением контроллером-парой через консоль (команды на втором контроллере при исполнении с первого)?
  • Какие вообще режимы есть у командной строки? Есть ли документация?
  • Есть ли разграничение привилегий по исполняемым командам из командной строки?
  • Есть ли разграничение привилегий по SNMP?

Методика тестирования СХД. Физика. Часть 1.

Эта запись открывает серию постов про тестирование СХД. Как оказалось, в РУ-сегменте, нет нормального документа-подсказки или методологии тестирования систем хранения. Вот представьте, вам надо купить СХД, вокруг много вендоров, плюс импортозамещение. Но все привыкли либо к обычным NAS, либо хранят на локальных дисках, либо связывались с именитыми брендами и знать не знали о проблемах, которые могут возникнуть.
Однако, к сожалению, у каждой системы есть свои приколы, у одних больше, у других меньше. Но как отсеять полный треш? Как обезопасить себя на конкурсах или при покупке себе на фирму? Как не потерять данные при простой операции? Об этом и поговорим.

В нашем уютном телеграм-чатике было принято решение, о том, что нам нужна методичка. Рыбу документа собирал товарищ у себя тут. Полный набор ссылок по теме тестирования здесь.

Тестирование основных физических компонентов

Для начала займемся расстановкой точек над некоторыми фундаментальными i. © Макс Фрай

  • Где хранится ОС? Если на дисках, то на каких?
  • Используются ли диски СХД для хранения копии ОС и логов и данных?
  • Какая модель используется? Active/Passive, ALUA (Asymmetric Logical Unit Access) или SAA (Symmetrical Active/Active)?
  • Сколько времени идет переключение путей при отказе или замене контроллера? Есть ли ограничения и какие?
  • Есть ли оценка уровня сигнала SFP?
  • Как работает система от переменного тока 220/230 50/60, в каком диапазоне?
  • Как работает система от постоянного тока?
  • Сколько времени система работает на одном блоке питания?
  • Сколько времени дается на замену блока питания? Некоторые СХД при замене блоков питания требуют провести замену за не более чем 5 минут после выдергивания старого.
  • Сколько времени дается на замену контроллера?
  • Сколько батарей установлено в СХД и есть ли их встроенное тестирование? Как оно обрабатывается?
  • Может ли СХД одновременно работать с разными типами SFP, например, Ethernet 10G и FC8 ?
  • Сам запуск системы. Запустилась ли с первого раза, сколько занимает запуск из коробки? Описаны ли процедуры запуска и выключения?
  • Подключение к Vmware и Hyper-V. Без проблем ли (особенно с iSCSI security), или надо что-то крутить?
  • LUN Security.
  • Есть ли настройки презентации LUN для отдельных инициаторов, группами и иначе? Masking?
  • Есть ли конвертация на лету из R5 в R6, R1 в R10 и тд.?
  • Есть ли ограничения на количество элементов в группах, в частности во сколько групп может быть включен и LUN, и инициатор
  • Операции при первичном запуске «из коробки» — форматирование дисков и прочие внутренние операции. Сколько занимают?
  • Как система обрабатывает выдергивание кабеля питания из блока питания?
  • Как система обрабатывает выключение питания из PDU?
  • Как система отрабатывает пропадание питание «от щитка»?
  • Замена блока питания. Заведется ли при замене или надо будет оба выключать?
  • Как система отрабатывает выдергивание 4 случайных SFP модулей под нагрузками вида файловое чтение, запись, СУБД?
  • Как система отрабатывает выдергивание контроллера 1?(Подразумевается, что MPIO настроен и работает и нагрузка видна в RR режиме)
  • Как система отрабатывает его возврат и балансировку?Примечание: вопрос взят по результатам тестов infortrend-gs, с описанием ситуации: Затем мы вернули контроллер А на место и примерно через 2 минуты массив стал полностью недоступен. При этом статус массива был в состоянии Shutdown.
  • Как система отрабатывает выдергивание второго контроллера и его возвращение? А если по схеме 2-1-2-1 ?
  • Сколько и как идет ребилд?
  • Можно ли управлять скоростью (приоритетом) ребилда?
  • Если выдернули НЕ ТОТ диск, сколько времени есть для того, чтобы его вставить обратно без ребилда?
  • Что вообще будет если вынуть диск и поставить обратно — поймет ли СХД что это тот же диск, нужно ли будет вручную сказать «ну ты там это посмотри» или пойдет ребилд, а диск надо будет вручную очистить и только потом ставить обратно или как?
  • Что будет с системой, если выдернуть диски с ОС?
  • Что будет с системой, если дернуть целиком дополнительную полку? Ну вот было у нас так, включено по питанию по ошибке в один PSU, что упала по питанию полка, что будет?

Synology #1 — Время апгрейда RAID5->RAID6

У меня дома есть хранилка Synology 1812+, и 7 дисков WD Red по 6ТБ в RAID5. Хранилка 8-ми слотовая, но последний диск как-то жаба душила покупать, да и вроде места хватало. Но на днях перепал новый диск 8ТБ и тоже WD Red. Все SATA.

Читать далее →

CommVault Fix #5 — VM disks need consolidation. Исправляем!

Утреннее письмо в почту с ошибкой от CommServ’а удивило меня, и вот что я там прочел…
Failure Reason: The virtual machine [Reserve] reports that it has virtual disks that need consolidation and this could not be performed automatically. In order to prevent a further buildup of delta disks and possible stability issues with the virtual machine, further backups of this virtual machine will not be performed until this condition is corrected. Please check if there are any locks on the virtual disks or if the disks are still attached to a backup proxy.

Окей, произошел какой-то баг, видимо, опять с функцией hot-add. Хорошо, consolidate не самая ужасная вещь, мы же знаем что нужно нажать?

Читать далее →