Рекомендации по решению возможных проблем

В главе представлены сведения о возможных проблемах и способах их решения.

Функции

  1. Синхронизация Persistent Reservation для DC-режима выключена по умолчанию

    Включите синхронизацию Persistent Reservation при настройке двухконтроллерного режима при использовании Windows Failover Cluster или Hyper-V.

  2. После обновления в DC-системе отсутствует ранее созданный SSD-кэш

    После обновления двухконтроллерной системы для SSD-кэша может использоваться только SAS SSD. SATA и PCI Express SSD поддерживаются только в одноконтроллерном режиме.

  3. При выходе из строя дополнительного узла репликации после возвращения его в рабочее состояние часть данных не синхронизируется

    1. Запустите проверку консистентности из веб-интерфейса или при помощи команды

      $ rdcli replication verify start
    2. Если после завершения проверки консистентности параметр out-of-sync не равен 0, приостановите репликацию на одном из узлов.
    3. Начните запись данных на основной узел, пока значение параметра out-of-sync не начнет меняться.
    4. Возобновите репликацию.
    5. После возобновления репликации начнётся синхронизация данных.
  4. Аварийное завершение работы системы при выполнении sysctl -a

    Команда sysctl -a может вызывать аварийное завершение работы системы. Рекомендуем ограничивать список вывода, например, через опцию --pattern.

  5. Синхронизация не началась автоматически

    • Проверьте, что статус соединения портов для синхронизации – Up.
    • Проверьте, что таргеты для синхронизации выбраны корректно.
    • При синхронизации по InfiniBand проверьте, что сервис OpenSM запущен на одном узле, на правильных портах обоих узлов.
    • При синхронизации по iSCSI проверьте, что iSCSI включен, а IP-адрес удалённого контроллера, используемый для синхронизации, доступен.
    • Проверьте разрешённые IP-адреса для iSCSI на странице ИНИЦИАТОРЫ И ИНТЕРФЕЙСЫ > ТАРГЕТЫ ISCSI на панели в верхнем правом углу экрана.

RAID и LUN

  1. Generic RAID перешел в состояние Не загружен (Not Loaded)

    • Убедитесь, что все диски в статусе Исправен (Healthy).
    • Проверьте конфигурацию памяти узла, на котором активен RAID.
    • Проверьте корректность установленных параметров RAID (может потребоваться увеличение размера кэша).

    При сохранении проблемы:

    • Восстановите RAID:

      $ rdcli raid restore –n <RAID_name> --support
    • Перезагрузите RAID:

      $ rdcli raid reload –n <RAID_name> --support
    • Перезагрузите узел.
  2. LUN перешел в состояние Не загружен (Not Loaded)

    • Убедитесь, что RAID на котором расположен LUN имеет статус Online.
    • Восстановите LUN:

      $ rdcli lun restore –n <LUN_name> --support
  3. Запись большого файла на LUN (при помощи файлового менеджера MAC OS) приводит к появлению вспомогательного файла объемом в 4К. При наличии WORM с маленьким grace period, файл не удаляется после записи

    • Попробуйте установить более длинный grace period, чтобы успеть удалить файл;
    • Зайдите по ssh в RAIDIX и удалите файл вручную.
  4. В OS Windows отображаются только LUN с 0 по 230

    Максимальное количество LUN, которое можно создать в OS Windows – 256; отображаются только LUN с 0 по 230 (LUN с 231 по 256 – служебные).

  5. На системе с инициатором после загрузки таргета не обновляется список LUN

    После загрузки таргета в выводе lsscsi отображается одно из лишних устройств «Raidix» N/A или «mpt3sas target». Для обнаружения LUN:

    1. Удалите устройство с помощью команды
      $ echo 1 > /sys/class/scsi_device/5\:0\:0\:1/device/delete
    2. Выполните повторное сканирование устройств (rescan devices).
    3. После выполнения повторного сканирования найдите LUN:

      $ echo '- - -' > /sys/class/scsi_host/host5/scan
    4. Выполните команду lsscsi, результат должен быть примерно следующим:

      $ lsscsi
      [0:0:1:0]   disk    IBM-ESXS       MBE2073RC        SC19  /dev/sdl
      [1:0:1:0]   disk    ATA            GB0250EAFYK      HPG0  /dev/sdm
      [5:0:0:1]   disk    Raidix         001              0004  /dev/sdab
      [5:0:0:2]   disk    Raidix         002              0004  /dev/sdx
    : Из-за особенностей MAC OS, повторное сканирование устройств (rescan) недоступно.
  6. Не удаётся создать LUN с метаданными репликации. Появляется сообщение Can't create meta-LUN '…' for replication, LVM volume group '…_vg' exists.

    Если LUN с метаданными репликации не был удален средствами RAIDIX, то на дисках могут остаться фрагменты метаданных. Для создания нового LUN с метаданными на таких дисках:

    • используйте инициализированные RAID;
    • для удаления оставшихся фрагментов метаданных используйте сторонние утилиты (pvs, vgs, lvs и др.).
  7. Не возвращается системный диск в MDRAID. После возвращения диска в MDRAID диск отображается в списке общих дисков для создания RAID

    После физического возвращения диска выполните команду

    $ mdadm --manage /dev/<md127> --add /dev/<sdX1>

    где <md127> - MDRAID, <sdX1> - диск.

    Выполните рескан дисков:

    $ rdcli drive rescan
  8. Перезагрузка RAID (RAID reload) не завершается, если произошёл сбой на пассивном для этого RAID узле

    Выполните команду

    $ rdcli raid reload --local -n <raid_name>
  9. При создании нескольких ERA RAID с большим размером страйпа система показывает сообщение об ошибке Not enough RAM to create RAID

    1. Проверьте объём свободной системной RAM с помощью команды

      $ rdcli system show | grep available_memory
    2. Проверьте занимаемый RAID объём RAM с помощью команды

      $ rdcli eraraid show
    3. Измените при необходимости занимаемый RAID объём RAM с помощью команды

      $ rdcli eraraid modify -n <raid_name> -ml <ram_limit>

      где

      • <raid_name> – имя RAID, для которого меняется объём RAM;
      • <ram_limit> – значение устанавливаемого объёма RAM.
  10. Невозможно импортировать RAID, на котором расположен LUN, расширенный на несколько RAID

    Проблема может быть связана с выполненным переименованием LUN. Если в процессе импорта нескольких RAID требуется переименовать LUN, расположенный на этих RAID, то начинайте импорт с того RAID, с которого началось переименование.

Веб-интерфейс

  1. Отмечаются задержки при отображении объектов GUI, невозможность перехода на другие страницы, невозможность добавления в очередь других команд при работе через GUI

    Указанные проблемы могут наблюдаться во время выполнения команды, запущенной через CLI или через GUI. Дождитесь завершения выполнения команды.

    Проверьте выполняемые в данный момент команды на странице МОНИТОРИНГ > ОЧЕРЕДЬ КОМАНД.

  2. Невозможно выполнить failover или миграцию пассивных RAID через GUI

    Если DC-система была полностью выключена или перезагружена, а затем запущен только один узел, то пассивные RAID на этом узле останутся пассивными:

    • автоматическое переключение узлов не произойдёт;
    • через GUI будет невозможно выполнить переключение узлов или миграцию RAID.

    Чтобы перевести RAID в статус активный, выполните

    $ rdcli dc failover --force
  3. Недоступен веб-интерфейс управления

    Возможно, причина в том, что на узле не доступен интерфейс Ethernet.

    1. Используя соответствующий IP-адрес, проверьте доступность узла. Если узел оказался не доступен, вероятнее всего интерфейс Ethernet не работоспособен.
    2. Если узел оказался доступен, проверьте, достаточно ли свободной памяти на диске и оперативной памяти при помощи команд:

      $ df –h
      $ free –h
    :

    Вручную отключите узел с отказавшим интерфейсом Ethernet:

    • При работе в одноконтроллерном режиме отключать узел допустимо только при полном отсутствии нагрузки.
    • При работе в DC-режиме, перед отключением узла переместите все RAID на исправный узел.

Fibre Channel

  1. На ОС Ubuntu 20.04 с инициатором FC QLogic16Gb пропадает один multipath-путь после перезагрузки узла DC-системы

    Попробуйте один из вариантов:

    • Первый вариант. На системе с инициатором выполните:

      1. Определите порты адаптера:

        # lspci | grep -i QLogic

        Пример вывода:

        05:00.0 Fibre Channel: QLogic Corp. ISP8324-based 16Gb Fibre Channel to PCI Express Adapter (rev 02)
        05:00.1 Fibre Channel: QLogic Corp. ISP8324-based 16Gb Fibre Channel to PCI Express Adapter (rev 02)
      2. Отключите каждый порт адаптера:

        # echo '1' > /sys/bus/pci/devices/0000\:05\:00.0/remove
        # echo '1' > /sys/bus/pci/devices/0000\:05\:00.1/remove
      3. Проверьте, что порты адаптера удалились (вывод команды должен быть пустым):

        # lspci | grep -i QLogic
      4. Просканируйте PCI-устройства:

        # echo '1' > /sys/bus/pci/rescan
    • Второй вариант. Если пропали оба пути, на системе с инициатором выполните

      # rmmod qla2xxx
      # modprobe qla2xxx
    • Третий вариант. Перезагрузите систему Ubuntu с инициатором.
  2. На Linux-инициаторе не отображаются LUN, отданные по FC QLogic

    Временное решение без перезагрузки инициатора:

    Выполните команды:

    # rmmod qla2xxx
    # modprobe qla2xxx ql2xnvmeenable=0

    Постоянное решение с перезагрузкой инициатора:

    1. Создайте файл qla2xxx.conf:

      # cat /etc/modprobe.d/qla2xxx.conf

      со следующим содержимым:

      options qla2xxx ql2xnvmeenable=0
    2. В зависимости от ОС на инициаторе:

      • RHEL:

        # dracut –force
      • Ubuntu:

        # update-initramfs -u
    3. Перезагрузите инициатор:

      # reboot

Multipath

  1. На ОС Ubuntu 20.04 с инициатором зависает multipath после переключения узлов

    Существует небольшая вероятность, что программа multipath может зависнуть на инициаторе под управлением Ubuntu 20.04 с LTS-ядром после переключения узлов (failover или failback). Зависание может быть временным или постоянным с остановкой рабочей нагрузки и сбоем в функционировании путей.

  2. Отказ или неверный приоритет multipath-пути на ОС Ubuntu 20.04 с инициатором

    После отказа и последующего восстановления узла DC-системы на ОС с инициатором возможны следующие проблемы:

    • статус multipath-пути failed и путь не восстанавливается автоматически;
    • неверный приоритет (prio) multipath-пути и приоритет не восстанавливается автоматически.

    Для исправления выполните рескан блочного устройства на ОС с инициатором:

    # echo 1 > /sys/block/sdX/device/rescan

NVMe-oF

  1. Прерывается рабочая нагрузка через NVMe-oF с инициатора с большим количеством namespace

    При работе с DC-системой, при высокой нагрузке на большое количество namespace хост может отключиться от одной из подсистем после переключения узлов (failover или failback) и будет безрезультатно пытаться подключиться заново. В такой ситуации вручную переподключите хост к подсистеме. Для инициаторов на Linux отключенное от подсистемы состояние будет показано статусом connecting при выполнении команды
    # nvme list-subsys

    После переподключения инициатора к подсистеме статус должен быть live.

    Для конфигурации с NVMe-oF рекомендуем одному инициатору отдавать не более 20 namespace. Точное количество namespace зависит от нагрузки и конфигурации системы с инициатором. Для тестирования использовался стенд со следующей конфигурацией:

    • Модель CPU: Intel Xeon CPU E5-2620 v4 @ 2.10GHz
    • Количество ядер CPU: 32
    • RAM: 125 ГБ
    • ОС: Ubuntu 20.04
  2. Прерывается рабочая нагрузка с инициатора на Ubuntu 20.04

    После операций по перемещению ERA RAID в DC-системе (переключение узлов (failover или auto-failover), миграция RAID) инициатор с Ubuntu может временно потерять путь до таргета при использовании NVMe-oF.

    При большом количестве объектов или высокой нагрузке пути между инициатором и таргетом могут восстанавливаться продолжительное время (около 5 минут). Нагрузка может прерваться, если выполнить failover, failback или миграцию до того, как пути восстановятся.

    Чтобы проверить статус путей, выполните на Ubuntu с инициатором команду

    # multipath -ll

SAS

  1. Ошибки при смене прошивки на SAS-адаптере

    Производите прошивку на SAS-адаптере через managesas или scrtnycli, а не через SAS Flash.

  2. Ошибки при конфигурации портов на SAS-адаптере

    Конфигурацию портов на адаптере необходимо выставлять при помощи Isiutil, с разбиением на группы (см. Инструкция по установке RAIDIX 5.2.4).

  3. При подключении новой дисковой корзины или повторном подключении старой, в пользовательском интерфейсе диски отображаются некорректно

    Перезагрузите систему.

    Если перезагрузка системы не помогла, перезагрузите корзину, а затем повторите перезагрузку системы.

NAS

  1. Если RAID и LUN были переименованы, то по окончанию импорта RAID на LUN может не отображаться файловая система

    После окончания импорта RAID выполните команду

    $ rdcli lun modify --name <LUN_name> --formatted yes --support
  2. При записи в общую папку SMB в двухконтроллерном режиме с использованием виртуального IP-адреса после переключения узлов (failover) запись останавливается и не возобновляется после обратного переключения узлов (failback)

    Проблема наблюдается при записи с клиента Windows Server 2008 R2. На клиенте Windows Server 2012 R2 запись автоматически восстанавливается после восстановления работоспособности узла и обратного переключения узлов (failback).

  3. Не работает квота для пользователя nobody в общей папке NFS

    Квота для пользователя «nobody» в общей папке NFS работает только для пользователей Linux. Для использования квот пользователя «nobody» в других ОС необходимо включить параметр «squash».

  4. Низкая производительность NFSoRDMA

    При монтировании на клиенте Linux общей папки по NFSoRDMA командой mount используйте опцию -o rdma. Подробнее см. Linux mount man и Linux nfs man.

Известные ограничения

  1. Ошибка mount error(2): No such file or directory

    Если на хосте уже есть общая папка SMB с одного узла, то вы можете смонтировать новую папку SMB только через 5 минут после её создания с того же сетевого интерфейса узла.

  2. При потере связи с корзиной чтение и запись на активном узле завершаются с ошибкой

    Дождитесь переключения узлов (failover). Ошибки ввода-вывода возникают, поскольку RAID находятся на активном узле, но в них отсутствуют все диски.

  3. Нарушение целостности данных в DC-системе при потере связи активного узла с корзиной

    Проблема может наблюдаться, если корзина подключена к каждому узлу одним кабелем и синхронизация кэшей настроена через корзину.

  4. Невозможно поменять размер блока LUN при использовании ESXi

    Размер блока LUN при использовании ESXi может быть только 512 байт, так как ESXi не поддерживает LUN с размером блока 4 KiB.

  5. После обновления системы до версии RAIDIX 5.2.4 некоторые RAID имеют статус Unloaded

    Для некоторых типов RAID, особенно с малым размером страйпа, в RAIDIX 5.2.4 требуется больше кэша, чем в предыдущих версиях RAIDIX. При обновлении системы до версии RAIDIX 5.2.4 после миграции такие RAID будут иметь статус Unloaded, для их загрузки необходимо увеличить размер кэша. Необходимый объем кэша можно узнать из утилиты rdx_cache_calc, запросив её у службы технической поддержки RAIDIX.

  6. Нарушена структура файлов трассировки

    Во избежание нарушения структуры файлов трассировки и неверных результатов не проводите трассировку при высокой нагрузке, в частности, при включенном SSD-кэше.

  7. Во время записи на активном узле происходят изменения в других графиках на пассивном узле

    Проблема наблюдается при выборе фильтра Session.

  8. Не удается создать RAID 0 или RAID 10

    Пересоздайте RAID с включенным параметром Режим записи блоками по 4 KiB.

  9. После ручной замены multipath-диска реконструкция RAID не запускается автоматически

    Воспользуйтесь одним из способов:

    • Выполните

      $ rdcli drive rescan
    • Добавьте диск вручную через GUI или CLI.
  10. Зависают операции записи/чтения на инициаторе при переходе RAID в офлайн

    Зависнуть могут и I/O на СХД и на локальные диски (использующие SCSI-команды), если в момент записи на RAID он стал офлайн.

    Вы можете:

    • Отключить таргет на инициаторе (не всегда возможно для Windows-инициатора). При этом:

      • Запись/чтение на RAID завершатся с ошибкой.
    • Вернуть RAID в онлайн. Возможные результаты:

      • Запись/чтение на RAID возобновятся.
      • Запись/чтение на RAID завершатся с ошибкой.
  11. Прерывается соединение через VIP по FTP в DC-системе при failover

    Разные FTP-клиенты по-разному обрабатывают потерю соединения с сервером.

    Для Linux-клиентов рекомендуем использовать lftp.

  12. Падение производительности до 0 в DC-системе при автоматическом переключении узлов (auto-failover)

    Возможно падение производительности Generic RAID при автоматическом переключении узлов (auto-failover):

    • на перемещаемых RAID: от 30 до 90 секунд;
    • на неперемещаемых RAID: от 3 до 25 секунд.
  13. Список дисков в системе не обновляется после ручного добавления или удаления диска

    Выполните
    $ rdcli drive rescan
  14. В depmod появляется сообщение «Required key not available» при попытке загрузить драйвер

    1. Создайте правило для udev, отключающее ALUA при создании блочного устройства. Например:
      ACTION=="add", SUBSYSTEM=="block", KERNEL=="sd*", ATTRS{vendor}=="RAIDIX", ATTR{device/dh_state}="detach"
    2. Сохраните созданное правило в директории
      /lib/udev/rules.d/<free_number>-<name>.rules
  15. После импорта RAID на LUN на Windows-инициаторе не отображается файловая система

    Чтобы избежать такой ситуации, перед импортом RAID, на котором имеются предоставленные хосту LUN, отключите соединение с iSCSI-таргетом на этом хосте.

    Чтобы вернуть отображение ФС на хосте, используйте один из способов:

    • Переподключите iSCSI-таргет на хосте.
    • Перезагрузите хост и повторно подключите iSCSI-таргет.