Synology #5 — Падение сетевых карт
Ничто не предвещало беды. Впервые в жизни увидел APD (All Path Down) в бою.
FS6400 подключена медью по 10G, MTU 9000, DSM 7.0.1-42218.
Просто посреди дня во время миграции очередной VM с LUN на LUN внутри одного volume — бряк и все.
Визуально, на СХД, все работает, порты сетевые моргают. Если напрямую подключиться ноутом к порту — ноль эмоций. Веб интерфейс тоже мертвый. Аккуратное выключение с кнопки не сработало, оно из синей постоянной лампочки перешел в моргающий, но в итоге, помогло только полное отключение питания на жесткую. Окей, глянем, что там такое могло быть, а заодно, напишем вендору.

Обратился в суппорт. Ответили они очень живо, и похоже, о проблеме знают.
Have you checked the connection cables and ports to be sure that they are working? If yes, temporarily disable IPv6 on the interface used and restart the NAS to see, if the connections are re-established again.
Further analysis of the log revealed some events on the two interface (eth2 & eth3) dropping packets. On both interface is IPv6 activated. I will suggest that you switch it off temporarily, reboot the NAS, and check, if this resolves the issue.
Что? IPv6? Так я его не включал… Окей, полезли проверять… Стояло в «AUTO». Выключил. Полез проверять настройки на FS3400 (встроенные порты подключены медью + отдельная карта по оптике). А вот там был нюанс, о нем ниже.

Так вот, я заметил, что на FS3400 на встроенных 10G портах стоит параметр «AUTO», а вот на карте E10G21-F2 «OFF». При этом, ни одно значние, в этой вкладке, я не менял с завода. Ни на первой СХД ни на второй. Баг? Фича? Поправят в следующем релизе?
Небольшой апдейт информации #1
После выключенных IPv6 хранилка слегла опять. Полез ковырять и тестить дальше, пока обнаружилось вот такое:
eth1/15
5215 input discard
eth1/16
9319 input discard
при нагрузке

Когда при тесте соседней FS3400 на 10+10 Гбит дискардов НОЛЬ. Наблюдаю дальше, есть у меня идея одна для теста…

Небольшой апдейт информации #2
Такс, похоже дело не в СХД. На второй хранилке цепанул 2 кабеля по меди встроенные порты и 2 кабеля опты на доп. карте. И шо ви таки думаете? Дискарды были только на одном порту, первые два были воткнуты в nexus 5548, а другие два в nexus 2232. И сбой был на 5548. Поменял порт — дискарды прошли. Смигрировал 20-30 теров (сотка ВМ) — без проблем прошло. Теперь в планах найти те порты и воспроизвести баг.
Итоговый апдейт информации #3
Таки выяснилось, что было не так. И дело не в дискардах или ошибках карты. Все еще круче. У нас был прикручен мониторинг по SNMP который, как оказалось, поджирал оперативу сины, потом поджирал свап, потом наглухо ее ронял, и после ребута все становилось хорошо. Через пару месяцев все по новой.


