Рекомендации по решению возможных проблем
В главе представлены сведения о возможных проблемах и способах их решения.
Если вы не нашли решения для своего сценария или приведённые решения не помогают, обратитесь в отдел поддержки поставщика СХД.
Общие
-
После обновления в DC-системе отсутствует ранее созданный SSD-кэш
После обновления двухконтроллерной системы для SSD-кэша может использоваться только SAS SSD. SATA и PCI Express SSD поддерживаются только в одноконтроллерном режиме.
-
При выходе из строя дополнительного контроллера репликации после возвращения его в рабочее состояние часть данных не синхронизируется
-
Запустите проверку консистентности из веб-интерфейса или при помощи команды
$ rdcli replication verify start - Если после завершения проверки консистентности параметр out-of-sync не равен 0, приостановите репликацию на одном из контроллеров.
- Начните запись данных на основной контроллер, пока значение параметра out-of-sync не начнет меняться.
- Возобновите репликацию.
- После возобновления репликации начнётся синхронизация данных.
-
-
Синхронизация кэшей Generic RAID не началась автоматически
- Проверьте, что статус соединения портов канала синхронизации данных – Включен.
- Проверьте, что таргеты для синхронизации выбраны корректно.
- При синхронизации по InfiniBand проверьте, что сервис OpenSM запущен на одном контроллере, на правильных портах обоих контроллеров.
- При синхронизации по iSCSI проверьте, что функция iSCSI включена, а IP-адрес удалённого контроллера, используемый для синхронизации, доступен.
- Проверьте разрешённые IP-адреса для iSCSI на странице на панели в верхнем правом углу экрана.
Подробную информацию о синхронизации см. в главе Канал синхронизации данных
-
При потере связи с корзиной чтение и запись на активном контроллере завершаются с ошибкой
Дождитесь завершения failover. Ошибки ввода-вывода возникают, поскольку RAID находятся на активном контроллере, но в них отсутствуют все диски.
-
Нарушение целостности данных в DC-системе при потере связи активного контроллера с корзиной
Проблема может наблюдаться, если корзина подключена к каждому контроллеру одним кабелем и синхронизация кэшей настроена через корзину.
-
Нарушена структура файлов трассировки
Во избежание нарушения структуры файлов трассировки и неверных результатов не проводите трассировку при высокой нагрузке, в частности, при включенном SSD-кэше.
-
Во время записи на активном контроллере происходят изменения в других графиках на пассивном контроллере
Проблема наблюдается при выборе фильтра Session.
-
После ручной замены диска реконструкция RAID не запускается автоматически
Воспользуйтесь одним из способов:
-
Выполните
$ rdcli drive rescan - Добавьте диск вручную через веб-интерфейс или CLI.
-
-
Падение производительности до 0 в DC-системе при автоматическом переключении контроллеров (auto-failover)
Возможно падение производительности Generic RAID при автоматическом переключении контроллеров (auto-failover):
- на перемещаемых RAID: от 30 до 90 секунд;
- на неперемещаемых RAID: от 3 до 25 секунд.
-
Список дисков в системе не обновляется после ручного добавления или удаления диска
Выполните
$ rdcli drive rescan -
Нарушение канала синхронизации данных DC-системы после добавления или удаления таргета iSCSI или изменения маскирования
Добавление, удаление таргета iSCSI или изменение маскирования при большом количестве объектов и высокой нагрузке на СХД может временно нарушить работу канала синхронизации данных, в том числе работу резервных путей.
Рекомендуем выполнять эти операции в период наименьшей нагрузки на СХД.
RAID и LUN
-
Запись большого файла на LUN (при помощи файлового менеджера MAC OS) приводит к появлению вспомогательного файла объемом в 4К. При наличии WORM с маленьким grace period, файл не удаляется после записи
- Попробуйте установить более длинный grace period, чтобы успеть удалить файл;
- Зайдите по ssh в RAIDIX и удалите файл вручную.
-
В OS Windows отображаются только LUN с 0 по 230
Максимальное количество LUN, которое можно создать в OS Windows – 256; отображаются только LUN с 0 по 230 (LUN с 231 по 256 – служебные).
-
На хосте после загрузки таргета не обновляется список LUN
После загрузки таргета, на хосте в выводе
lsscsiотображается одно из лишних устройств «Raidix» N/A или «mpt3sas target». Для обнаружения LUN, на хосте выполните следующие действия:- Удалите устройство с помощью команды
$ echo 1 > /sys/class/scsi_device/5\:0\:0\:1/device/delete - Выполните повторное сканирование устройств (rescan devices).
-
После выполнения повторного сканирования найдите LUN:
$ echo '- - -' > /sys/class/scsi_host/host5/scan -
Выполните команду lsscsi, результат должен быть примерно следующим:
$ lsscsi [0:0:1:0] disk IBM-ESXS MBE2073RC SC19 /dev/sdl [1:0:1:0] disk ATA GB0250EAFYK HPG0 /dev/sdm [5:0:0:1] disk Raidix 001 0004 /dev/sdab [5:0:0:2] disk Raidix 002 0004 /dev/sdx
: Из-за особенностей MAC OS, повторное сканирование устройств (rescan) недоступно. - Удалите устройство с помощью команды
-
Не удаётся создать LUN с метаданными репликации. Появляется сообщение Can't create meta-LUN '…' for replication, LVM volume group '…_vg' exists.
Если LUN с метаданными репликации не был удален средствами RAIDIX, то на дисках могут остаться фрагменты метаданных. Для создания нового LUN с метаданными на таких дисках:
- используйте инициализированные RAID;
- для удаления оставшихся фрагментов метаданных используйте сторонние утилиты (pvs, vgs, lvs и др.).
-
Перезагрузка RAID (RAID reload) не завершается, если произошёл сбой на пассивном для этого RAID контроллере
Выполните команду
$ rdcli raid reload --local -n <raid_name> -
При создании нескольких ERA RAID с большим размером страйпа система показывает сообщение об ошибке Not enough RAM to create RAID
-
Проверьте объём свободной системной RAM с помощью команды
$ rdcli system show | grep available_memory -
Проверьте занимаемый RAID объём RAM с помощью команды
$ rdcli eraraid show -
Измените при необходимости занимаемый RAID объём RAM с помощью команды
$ rdcli eraraid modify -n <raid_name> -ml <ram_limit>где
- <raid_name> – имя RAID, для которого меняется объём RAM;
- <ram_limit> – значение устанавливаемого объёма RAM.
-
-
Невозможно импортировать RAID, на котором расположен LUN, расширенный на несколько RAID
Проблема может быть связана с выполненным переименованием LUN. Если в процессе импорта нескольких RAID требуется переименовать LUN, расположенный на этих RAID, то начинайте импорт с того RAID, с которого началось переименование.
-
Зависают операции записи/чтения на инициаторе при переходе RAID в офлайн
Зависнуть могут и операции чтения/записи на СХД и на локальные диски (использующие SCSI-команды), если в момент записи на RAID он стал офлайн.
Вы можете:
-
Отключить таргет на хосте (не всегда возможно для Windows-хостов). При этом:
- Запись/чтение на RAID завершатся с ошибкой.
-
Вернуть RAID в онлайн. Возможные результаты:
- Запись/чтение на RAID возобновятся.
- Запись/чтение на RAID завершатся с ошибкой.
-
-
Невозможно подключить LUN к ESXi
ESXi работает с LUN только с размером блока 512 байт. Дополнительную информацию об особенностях работы с ESXi см. в документе «Настройка ОС и платформ виртуализации» и на официальном сайте VMWare.
-
Не удается создать RAID 0 или RAID 10
Пересоздайте RAID с включённым параметром Режим записи блоками по 4 KiB.
-
Сообщение «Can't set attribute '<attribute>': '<value>' for device '<device>': Failed to set device attribute»
Сообщение может появиться при изменении размера LUN. При этом, в DC-системе размер LUN будет изменён только на одном контроллере.
В этом случае повторите операцию изменения размера LUN с тем же новым значением размера, что и при первой попытке.
Веб-интерфейс
-
Задержки при отображении объектов веб-интерфейса, невозможность перехода на другие страницы, невозможность добавления в очередь других команд при работе через веб-интерфейс
Указанные проблемы могут наблюдаться во время выполнения команды, запущенной через CLI или через веб-интерфейс. Дождитесь завершения выполнения команды.
Проверьте выполняемые в данный момент команды на странице .
-
Невозможно выполнить failover или миграцию пассивных RAID через веб-интерфейс
Если DC-система была полностью выключена или перезагружена, а затем запущен только один контроллер, то пассивные RAID на этом контроллере останутся пассивными:
- автоматическое переключение контроллеров не произойдёт;
- через веб-интерфейс будет невозможно выполнить переключение контроллеров или миграцию RAID.
Чтобы перевести RAID в статус активный, выполните
$ rdcli dc failover --force -
Недоступен веб-интерфейс управления
Возможно, причина в том, что на контроллере недоступен интерфейс Ethernet.
- Используя соответствующий IP-адрес, проверьте доступность контроллера. Если контроллер оказался не доступен, вероятнее всего, интерфейс Ethernet не работоспособен.
-
Если контроллер оказался доступен, проверьте, достаточно ли свободной памяти на диске и RAM у контроллера при помощи команд:
$ df –h$ free –h
:Вручную отключите контроллер с отказавшим интерфейсом Ethernet, при этом учитывайте следующие особенности:
- При работе в одноконтроллерном режиме отключать контроллер допустимо только при полном отсутствии нагрузки.
- При работе в DC-режиме, перед отключением контроллера переместите все RAID на исправный контроллер.
-
Результаты функции сканирования дисков RAID пропадают в веб-интерфейсе
В предыдущем веб-интерфейсе информация о результатах работы функции сканирования дисков RAID может пропасть после перехода и возвращения на страницу с результатами.
Используйте функцию сканирования дисков RAID в новом веб-интерфейсе.
Fibre Channel
-
На ОС Ubuntu 20.04 с инициатором FC QLogic (Marvell) 16Gb пропадает один multipath-путь после перезагрузки контроллера DC-системы
Попробуйте один из вариантов:
-
Первый вариант. На системе с инициатором выполните:
-
Определите порты адаптера:
# lspci | grep -i QLogicПример вывода:
05:00.0 Fibre Channel: QLogic Corp. ISP8324-based 16Gb Fibre Channel to PCI Express Adapter (rev 02) 05:00.1 Fibre Channel: QLogic Corp. ISP8324-based 16Gb Fibre Channel to PCI Express Adapter (rev 02) -
Отключите каждый порт адаптера:
# echo '1' > /sys/bus/pci/devices/0000\:05\:00.0/remove # echo '1' > /sys/bus/pci/devices/0000\:05\:00.1/remove -
Проверьте, что порты адаптера удалились (вывод команды должен быть пустым):
# lspci | grep -i QLogic -
Просканируйте PCI-устройства:
# echo '1' > /sys/bus/pci/rescan
-
-
Второй вариант. Если пропали оба пути, на системе с инициатором выполните
# rmmod qla2xxx # modprobe qla2xxx - Третий вариант. Перезагрузите систему Ubuntu с инициатором.
-
-
На Linux-инициаторе не отображаются LUN, отданные по FC QLogic (Marvell)
Временное решение без перезагрузки инициатора:
Выполните команды:
# rmmod qla2xxx # modprobe qla2xxx ql2xnvmeenable=0Постоянное решение с перезагрузкой инициатора:
-
Создайте файл qla2xxx.conf:
# cat /etc/modprobe.d/qla2xxx.confсо следующим содержимым:
options qla2xxx ql2xnvmeenable=0 -
В зависимости от ОС на инициаторе:
-
RHEL:
# dracut –force -
Ubuntu:
# update-initramfs -u
-
-
Перезагрузите инициатор:
# reboot
-
-
При прямом подключении инициатора FC QLogic 32Gb/s QLE2742 с ОС Ubuntu 22.04 LTS не отображаются LUN
Обновите Ubuntu до версии 22.04.3 LTS.
Multipath
-
На ОС Ubuntu 20.04 с инициатором зависает multipath после failover или failback
Существует небольшая вероятность, что программа multipath может зависнуть на инициаторе под управлением Ubuntu 20.04 с LTS-ядром после failover или failback. Зависание может быть временным или постоянным с остановкой рабочей нагрузки и сбоем в функционировании путей.
-
Отказ или неверный приоритет multipath-пути на ОС Ubuntu 20.04 с инициатором
После отказа и последующего восстановления контроллера DC-системы на ОС с инициатором возможны следующие проблемы:
- статус multipath-пути failed и путь не восстанавливается автоматически;
- неверный приоритет (prio) multipath-пути и приоритет не восстанавливается автоматически.
Для исправления выполните рескан блочного устройства на ОС с инициатором:
# echo 1 > /sys/block/sdX/device/rescan
NVMe-oF
-
Прерывается рабочая нагрузка через NVMe-oF с инициатора с большим количеством namespace
При работе с DC-системой, при высокой нагрузке на большое количество namespace хост может отключиться от одной из подсистем после переключения контроллеров (failover или failback) и будет безрезультатно пытаться подключиться заново. В такой ситуации вручную переподключите хост к подсистеме. Для инициаторов на Linux отключенное от подсистемы состояние будет показано статусом connecting при выполнении команды# nvme list-subsysПосле переподключения инициатора к подсистеме статус должен быть live.
Для конфигурации с NVMe-oF рекомендуем одному инициатору отдавать не более 20 namespace. Точное количество namespace зависит от нагрузки и конфигурации системы с инициатором. Для тестирования использовался стенд со следующей конфигурацией:
- Модель CPU: Intel Xeon CPU E5-2620 v4 @ 2.10GHz
- Количество ядер CPU: 32
- RAM: 125 ГБ
- ОС: Ubuntu 20.04
Прерывается рабочая нагрузка с инициатора на Ubuntu 20.04
После операций по перемещению ERA RAID в DC-системе (failover, авто-failover или миграция RAID) инициатор с Ubuntu может временно потерять путь до таргета при использовании NVMe-oF.
При большом количестве объектов или высокой нагрузке пути между инициатором и таргетом могут восстанавливаться продолжительное время (около 5 минут). Нагрузка может прерваться, если выполнить failover, failback или миграцию до того, как пути восстановятся.
Чтобы проверить статус путей, выполните на Ubuntu с инициатором команду
# multipath -ll
SAS
-
Ошибки при смене прошивки на SAS-адаптере
Производите прошивку на SAS-адаптере через managesas или scrtnycli, а не через SAS Flash.
-
Ошибки при конфигурации портов на SAS-адаптере
Конфигурацию портов на адаптере необходимо выставлять при помощи managesas или scrtnycli, с разбиением на группы (см. «Инструкция по установке RAIDIX 5.3.1»).
-
При подключении новой дисковой корзины или повторном подключении старой, в пользовательском интерфейсе диски отображаются некорректно
Перезагрузите систему.
Если перезагрузка системы не помогла, перезагрузите корзину, а затем повторите перезагрузку системы.
NAS
-
При записи в общую папку SMB в двухконтроллерном режиме с использованием виртуального IP-адреса после переключения контроллеров (failover) запись останавливается и не возобновляется после обратного переключения контроллеров (failback)
Проблема наблюдается при записи с клиента Windows Server 2008 R2. На клиенте Windows Server 2012 R2 запись автоматически восстанавливается после восстановления работоспособности контроллера и обратного переключения контроллеров (failback).
-
Не работает квота для пользователя nobody в общей папке NFS
Квота для пользователя «nobody» в общей папке NFS работает только для пользователей Linux. Для использования квот пользователя «nobody» в других ОС необходимо включить параметр «squash».
-
Низкая производительность NFSoRDMA
При монтировании на клиенте Linux общей папки по NFSoRDMA командой mount используйте опцию
-o rdma. Подробнее см. на официальном сайте Linux mount man и Linux nfs man. -
При попытке назначения прав пользователю из каталога AD возникает ошибка Can't find Active Directory user: 'user_name'.
Увеличьте диапазон UID для пользователей из AD при помощи команды
rdcli nas samba modify -ur <AD_server_name>=10000000-19999999 -
Ошибка mount error(2): No such file or directory
Если на хосте уже есть общая папка SMB с одного контроллера, то вы можете смонтировать новую папку SMB только через 5 минут после её создания с того же сетевого интерфейса контроллера.
-
Прерывается соединение через VIP по FTP в DC-системе при failover
Разные FTP-клиенты по-разному обрабатывают потерю соединения с сервером.
Для Linux-клиентов рекомендуем использовать
lftp.
iSCSI
-
После импорта RAID, на LUN в Windows-хосте не отображается файловая система
Чтобы избежать такой ситуации, перед импортом RAID, на котором имеются предоставленные хосту LUN, отключите соединение с iSCSI-таргетом на этом хосте.
Чтобы вернуть отображение ФС на хосте, используйте один из способов:
- Переподключите iSCSI-таргет на хосте.
- Перезагрузите хост и повторно подключите iSCSI-таргет.
-
Хост не обнаруживает iSCSI-таргет, настроенный на СХД
- В DC-системе убедитесь, что iSCSI-портал таргета не используются для heartbeat или канала синхронизации данных. Такие таргеты недоступны для организации блочного доступа между хостом и СХД.
-
Выключите и включите сетевой интерфейс на контроллере, используемый для организации блочного доступа, через веб-интерфейс (на странице на вкладке Сеть) или CLI:
$ rdcli network interface modify -n <interface> -u 0 $ rdcli network interface modify -n <interface> -u 1Настройте заново IP-адрес и остальные параметры сетевого интерфейса, после чего проверьте список разрешённых IP-адресов для iSCSI на контроллере (в веб-интерфейсе на странице параметр «Локальные IP для доступа к таргетам»), затем проверьте обнаружение таргета на хосте.
-
На контроллере СХД выполните команду
$ rdcli iscsi target refresh_allowed_portalsПроверьте обнаружение таргета на хосте.