Рекомендации по решению возможных проблем

В главе представлены сведения о возможных проблемах и способах их решения.

Если вы не нашли решения для своего сценария или приведённые решения не помогают, обратитесь в отдел поддержки поставщика СХД.

Общие

  1. Синхронизация Persistent Reservations для DC-режима выключена по умолчанию

    Включите синхронизацию Persistent Reservations при настройке двухконтроллерного режима при использовании Windows Failover Cluster или Hyper-V.

  2. После обновления в DC-системе отсутствует ранее созданный SSD-кэш

    После обновления двухконтроллерной системы для SSD-кэша может использоваться только SAS SSD. SATA и PCI Express SSD поддерживаются только в одноконтроллерном режиме.

  3. При выходе из строя дополнительного узла репликации после возвращения его в рабочее состояние часть данных не синхронизируется

    1. Запустите проверку консистентности из веб-интерфейса или при помощи команды

      $ rdcli replication verify start
    2. Если после завершения проверки консистентности параметр out-of-sync не равен 0, приостановите репликацию на одном из узлов.
    3. Начните запись данных на основной узел, пока значение параметра out-of-sync не начнет меняться.
    4. Возобновите репликацию.
    5. После возобновления репликации начнётся синхронизация данных.
  4. Синхронизация не началась автоматически

    • Проверьте, что статус соединения портов для синхронизации – Включен.
    • Проверьте, что таргеты для синхронизации выбраны корректно.
    • При синхронизации по InfiniBand проверьте, что сервис OpenSM запущен на одном узле, на правильных портах обоих узлов.
    • При синхронизации по iSCSI проверьте, что iSCSI включен, а IP-адрес удалённого контроллера, используемый для синхронизации, доступен.
    • Проверьте разрешённые IP-адреса для iSCSI на странице ИНИЦИАТОРЫ И ИНТЕРФЕЙСЫ > ТАРГЕТЫ ISCSI на панели в верхнем правом углу экрана.

    Подробную информацию о синхронизации см. в главе Настройка синхронизации кэшей узлов

  5. При потере связи с корзиной чтение и запись на активном узле завершаются с ошибкой

    Дождитесь переключения узлов (failover). Ошибки ввода-вывода возникают, поскольку RAID находятся на активном узле, но в них отсутствуют все диски.

  6. Нарушение целостности данных в DC-системе при потере связи активного узла с корзиной

    Проблема может наблюдаться, если корзина подключена к каждому узлу одним кабелем и синхронизация кэшей настроена через корзину.

  7. Нарушена структура файлов трассировки

    Во избежание нарушения структуры файлов трассировки и неверных результатов не проводите трассировку при высокой нагрузке, в частности, при включенном SSD-кэше.

  8. Во время записи на активном узле происходят изменения в других графиках на пассивном узле

    Проблема наблюдается при выборе фильтра Session.

  9. После ручной замены диска реконструкция RAID не запускается автоматически

    Воспользуйтесь одним из способов:

    • Выполните

      $ rdcli drive rescan
    • Добавьте диск вручную через GUI или CLI.
  10. Зависают операции записи/чтения на инициаторе при переходе RAID в офлайн

    Зависнуть могут и I/O на СХД и на локальные диски (использующие SCSI-команды), если в момент записи на RAID он стал офлайн.

    Вы можете:

    • Отключить таргет на хосте (не всегда возможно для Windows-хостов). При этом:

      • Запись/чтение на RAID завершатся с ошибкой.
    • Вернуть RAID в онлайн. Возможные результаты:

      • Запись/чтение на RAID возобновятся.
      • Запись/чтение на RAID завершатся с ошибкой.
  11. Падение производительности до 0 в DC-системе при автоматическом переключении узлов (auto-failover)

    Возможно падение производительности Generic RAID при автоматическом переключении узлов (auto-failover):

    • на перемещаемых RAID: от 30 до 90 секунд;
    • на неперемещаемых RAID: от 3 до 25 секунд.
  12. Список дисков в системе не обновляется после ручного добавления или удаления диска

    Выполните
    $ rdcli drive rescan
  13. Уведомления «Необходимо восстановить синхронизацию Persistent reservation» и «'dlm' service is not running.»

    В следующих случаях синхронизация PR может быть нарушена:

    • после нарушения работы heartbeat;
    • при настройке синхронизации PR.

    При нарушении синхронизации PR система отправляет уведомление «Необходимо восстановить синхронизацию Persistent reservation». При этом при попытке включения/выключения синхронизации PR система показывает сообщение «'dlm' service is not running.»

    В таких случаях, пожалуйста, обратитесь в отдел поддержки поставщика СХД.

  14. Зависание установки ОС на ВМ, к LUN для которой подключен SSD-кэш

    Если LUN, к которому подключен SSD-кэш, отдан в качестве блочного устройства для ВМ, и на это блочное устройство производится установка ОС, то возможно зависание процесса установки или загрузки после установки.

    Для обхода этой проблемы отключите SSD-кэш на время установки ОС.

  15. Нарушение синхронизации кэшей узлов DC-системы после добавления или удаления таргета iSCSI или изменения правил маскирования

    Добавление, удаление таргета iSCSI или изменение правил маскирования при большом количестве объектов и высокой нагрузке на СХД может временно нарушить работу синхронизации кэшей узлов, в том числе работу резервного пути ALUA.

    Рекомендуем производить эти операции в период наименьшей нагрузки на СХД.

RAID и LUN

  1. Generic RAID перешел в состояние Не загружен (Not Loaded)

    • Убедитесь, что все диски в статусе Исправен (Healthy).
    • Проверьте конфигурацию памяти узла, на котором активен RAID.
    • Проверьте корректность установленных параметров RAID (может потребоваться увеличение размера кэша).

    При сохранении проблемы:

    • Восстановите RAID:

      $ rdcli raid restore –n <RAID_name> --support
    • Перезагрузите RAID:

      $ rdcli raid reload –n <RAID_name> --support
    • Перезагрузите узел.
  2. LUN перешел в состояние Не загружен (Not Loaded)

    • Убедитесь, что RAID на котором расположен LUN имеет статус Online.
    • Восстановите LUN:

      $ rdcli lun restore –n <LUN_name> --support
  3. Запись большого файла на LUN (при помощи файлового менеджера MAC OS) приводит к появлению вспомогательного файла объемом в 4К. При наличии WORM с маленьким grace period, файл не удаляется после записи

    • Попробуйте установить более длинный grace period, чтобы успеть удалить файл;
    • Зайдите по ssh в RAIDIX и удалите файл вручную.
  4. В OS Windows отображаются только LUN с 0 по 230

    Максимальное количество LUN, которое можно создать в OS Windows – 256; отображаются только LUN с 0 по 230 (LUN с 231 по 256 – служебные).

  5. На хосте после загрузки таргета не обновляется список LUN

    После загрузки таргета, на хосте в выводе lsscsi отображается одно из лишних устройств «Raidix» N/A или «mpt3sas target». Для обнаружения LUN, на хосте выполните следующие действия:

    1. Удалите устройство с помощью команды
      $ echo 1 > /sys/class/scsi_device/5\:0\:0\:1/device/delete
    2. Выполните повторное сканирование устройств (rescan devices).
    3. После выполнения повторного сканирования найдите LUN:

      $ echo '- - -' > /sys/class/scsi_host/host5/scan
    4. Выполните команду lsscsi, результат должен быть примерно следующим:

      $ lsscsi
      [0:0:1:0]   disk    IBM-ESXS       MBE2073RC        SC19  /dev/sdl
      [1:0:1:0]   disk    ATA            GB0250EAFYK      HPG0  /dev/sdm
      [5:0:0:1]   disk    Raidix         001              0004  /dev/sdab
      [5:0:0:2]   disk    Raidix         002              0004  /dev/sdx
    : Из-за особенностей MAC OS, повторное сканирование устройств (rescan) недоступно.
  6. Не удаётся создать LUN с метаданными репликации. Появляется сообщение Can't create meta-LUN '…' for replication, LVM volume group '…_vg' exists.

    Если LUN с метаданными репликации не был удален средствами RAIDIX, то на дисках могут остаться фрагменты метаданных. Для создания нового LUN с метаданными на таких дисках:

    • используйте инициализированные RAID;
    • для удаления оставшихся фрагментов метаданных используйте сторонние утилиты (pvs, vgs, lvs и др.).
  7. Не возвращается системный диск в MDRAID. После возвращения диска в MDRAID диск отображается в списке общих дисков для создания RAID

    После физического возвращения диска выполните команду

    $ mdadm --manage /dev/<md127> --add /dev/<sdX1>

    где <md127> - MDRAID, <sdX1> - диск.

    Выполните рескан дисков:

    $ rdcli drive rescan
  8. Перезагрузка RAID (RAID reload) не завершается, если произошёл сбой на пассивном для этого RAID узле

    Выполните команду

    $ rdcli raid reload --local -n <raid_name>
  9. При создании нескольких ERA RAID с большим размером страйпа система показывает сообщение об ошибке Not enough RAM to create RAID

    1. Проверьте объём свободной системной RAM с помощью команды

      $ rdcli system show | grep available_memory
    2. Проверьте занимаемый RAID объём RAM с помощью команды

      $ rdcli eraraid show
    3. Измените при необходимости занимаемый RAID объём RAM с помощью команды

      $ rdcli eraraid modify -n <raid_name> -ml <ram_limit>

      где

      • <raid_name> – имя RAID, для которого меняется объём RAM;
      • <ram_limit> – значение устанавливаемого объёма RAM.
  10. Невозможно импортировать RAID, на котором расположен LUN, расширенный на несколько RAID

    Проблема может быть связана с выполненным переименованием LUN. Если в процессе импорта нескольких RAID требуется переименовать LUN, расположенный на этих RAID, то начинайте импорт с того RAID, с которого началось переименование.

  11. Невозможно подключить LUN к ESXi

    ESXi работает с LUN только с размером блока 512 байт. Дополнительную информацию об особенностях работы с ESXi см. в документе «Настройка ОС и платформ виртуализации» и на официальном сайте VMWare.

  12. Не удается создать RAID 0 или RAID 10

    Пересоздайте RAID с включенным параметром Режим записи блоками по 4 KiB.

  13. Сообщение «Can't set attribute '<attribute>': '<value>' for device '<device>': Failed to set device attribute»

    Сообщение может появиться при изменении размера LUN. При этом, в DC-системе размер LUN будет изменён только на одном узле.

    В этом случае повторите операцию изменения размера LUN с тем же новым значением размера, что и при первой попытке.

Веб-интерфейс

  1. Отмечаются задержки при отображении объектов GUI, невозможность перехода на другие страницы, невозможность добавления в очередь других команд при работе через GUI

    Указанные проблемы могут наблюдаться во время выполнения команды, запущенной через CLI или через GUI. Дождитесь завершения выполнения команды.

    Проверьте выполняемые в данный момент команды на странице МОНИТОРИНГ > ОЧЕРЕДЬ КОМАНД.

  2. Невозможно выполнить failover или миграцию пассивных RAID через GUI

    Если DC-система была полностью выключена или перезагружена, а затем запущен только один узел, то пассивные RAID на этом узле останутся пассивными:

    • автоматическое переключение узлов не произойдёт;
    • через GUI будет невозможно выполнить переключение узлов или миграцию RAID.

    Чтобы перевести RAID в статус активный, выполните

    $ rdcli dc failover --force
  3. Недоступен веб-интерфейс управления

    Возможно, причина в том, что на узле не доступен интерфейс Ethernet.

    1. Используя соответствующий IP-адрес, проверьте доступность узла. Если узел оказался не доступен, вероятнее всего интерфейс Ethernet не работоспособен.
    2. Если узел оказался доступен, проверьте, достаточно ли свободной памяти на диске и оперативной памяти при помощи команд:

      $ df –h
      $ free –h
    :

    Вручную отключите узел с отказавшим интерфейсом Ethernet:

    • При работе в одноконтроллерном режиме отключать узел допустимо только при полном отсутствии нагрузки.
    • При работе в DC-режиме, перед отключением узла переместите все RAID на исправный узел.

Fibre Channel

  1. На ОС Ubuntu 20.04 с инициатором FC QLogic16Gb пропадает один multipath-путь после перезагрузки узла DC-системы

    Попробуйте один из вариантов:

    • Первый вариант. На системе с инициатором выполните:

      1. Определите порты адаптера:

        # lspci | grep -i QLogic

        Пример вывода:

        05:00.0 Fibre Channel: QLogic Corp. ISP8324-based 16Gb Fibre Channel to PCI Express Adapter (rev 02)
        05:00.1 Fibre Channel: QLogic Corp. ISP8324-based 16Gb Fibre Channel to PCI Express Adapter (rev 02)
      2. Отключите каждый порт адаптера:

        # echo '1' > /sys/bus/pci/devices/0000\:05\:00.0/remove
        # echo '1' > /sys/bus/pci/devices/0000\:05\:00.1/remove
      3. Проверьте, что порты адаптера удалились (вывод команды должен быть пустым):

        # lspci | grep -i QLogic
      4. Просканируйте PCI-устройства:

        # echo '1' > /sys/bus/pci/rescan
    • Второй вариант. Если пропали оба пути, на системе с инициатором выполните

      # rmmod qla2xxx
      # modprobe qla2xxx
    • Третий вариант. Перезагрузите систему Ubuntu с инициатором.
  2. На Linux-инициаторе не отображаются LUN, отданные по FC QLogic

    Временное решение без перезагрузки инициатора:

    Выполните команды:

    # rmmod qla2xxx
    # modprobe qla2xxx ql2xnvmeenable=0

    Постоянное решение с перезагрузкой инициатора:

    1. Создайте файл qla2xxx.conf:

      # cat /etc/modprobe.d/qla2xxx.conf

      со следующим содержимым:

      options qla2xxx ql2xnvmeenable=0
    2. В зависимости от ОС на инициаторе:

      • RHEL:

        # dracut –force
      • Ubuntu:

        # update-initramfs -u
    3. Перезагрузите инициатор:

      # reboot
  3. При прямом подключении инициатора FC QLogic 32Gb/s QLE2742 с ОС Ubuntu 22.04 LTS не отображаются LUN

    Обновите Ubuntu до версии 22.04.3 LTS.

Multipath

  1. На ОС Ubuntu 20.04 с инициатором зависает multipath после переключения узлов

    Существует небольшая вероятность, что программа multipath может зависнуть на инициаторе под управлением Ubuntu 20.04 с LTS-ядром после переключения узлов (failover или failback). Зависание может быть временным или постоянным с остановкой рабочей нагрузки и сбоем в функционировании путей.

  2. Отказ или неверный приоритет multipath-пути на ОС Ubuntu 20.04 с инициатором

    После отказа и последующего восстановления узла DC-системы на ОС с инициатором возможны следующие проблемы:

    • статус multipath-пути failed и путь не восстанавливается автоматически;
    • неверный приоритет (prio) multipath-пути и приоритет не восстанавливается автоматически.

    Для исправления выполните рескан блочного устройства на ОС с инициатором:

    # echo 1 > /sys/block/sdX/device/rescan

NVMe-oF

  1. Прерывается рабочая нагрузка через NVMe-oF с инициатора с большим количеством namespace

    При работе с DC-системой, при высокой нагрузке на большое количество namespace хост может отключиться от одной из подсистем после переключения узлов (failover или failback) и будет безрезультатно пытаться подключиться заново. В такой ситуации вручную переподключите хост к подсистеме. Для инициаторов на Linux отключенное от подсистемы состояние будет показано статусом connecting при выполнении команды
    # nvme list-subsys

    После переподключения инициатора к подсистеме статус должен быть live.

    Для конфигурации с NVMe-oF рекомендуем одному инициатору отдавать не более 20 namespace. Точное количество namespace зависит от нагрузки и конфигурации системы с инициатором. Для тестирования использовался стенд со следующей конфигурацией:

    • Модель CPU: Intel Xeon CPU E5-2620 v4 @ 2.10GHz
    • Количество ядер CPU: 32
    • RAM: 125 ГБ
    • ОС: Ubuntu 20.04
  2. Прерывается рабочая нагрузка с инициатора на Ubuntu 20.04

    После операций по перемещению ERA RAID в DC-системе (переключение узлов (failover или auto-failover), миграция RAID) инициатор с Ubuntu может временно потерять путь до таргета при использовании NVMe-oF.

    При большом количестве объектов или высокой нагрузке пути между инициатором и таргетом могут восстанавливаться продолжительное время (около 5 минут). Нагрузка может прерваться, если выполнить failover, failback или миграцию до того, как пути восстановятся.

    Чтобы проверить статус путей, выполните на Ubuntu с инициатором команду

    # multipath -ll

SAS

  1. Ошибки при смене прошивки на SAS-адаптере

    Производите прошивку на SAS-адаптере через managesas или scrtnycli, а не через SAS Flash.

  2. Ошибки при конфигурации портов на SAS-адаптере

    Конфигурацию портов на адаптере необходимо выставлять при помощи managesas или scrtnycli, с разбиением на группы (см. Инструкция по установке RAIDIX 5.2.5).

  3. При подключении новой дисковой корзины или повторном подключении старой, в пользовательском интерфейсе диски отображаются некорректно

    Перезагрузите систему.

    Если перезагрузка системы не помогла, перезагрузите корзину, а затем повторите перезагрузку системы.

NAS

  1. Если RAID и LUN были переименованы, то по окончанию импорта RAID на LUN может не отображаться файловая система

    После окончания импорта RAID выполните команду

    $ rdcli lun modify --name <LUN_name> --formatted yes --support
  2. При записи в общую папку SMB в двухконтроллерном режиме с использованием виртуального IP-адреса после переключения узлов (failover) запись останавливается и не возобновляется после обратного переключения узлов (failback)

    Проблема наблюдается при записи с клиента Windows Server 2008 R2. На клиенте Windows Server 2012 R2 запись автоматически восстанавливается после восстановления работоспособности узла и обратного переключения узлов (failback).

  3. Не работает квота для пользователя nobody в общей папке NFS

    Квота для пользователя «nobody» в общей папке NFS работает только для пользователей Linux. Для использования квот пользователя «nobody» в других ОС необходимо включить параметр «squash».

  4. Низкая производительность NFSoRDMA

    При монтировании на клиенте Linux общей папки по NFSoRDMA командой mount используйте опцию -o rdma. Подробнее см. Linux mount man и Linux nfs man.

  5. При попытке назначения прав пользователю AD возникает ошибка Can't find Active Directory user: 'user_name'.

    Увеличьте значение параметра uid_range с помощью команды

    $ rdcli nas samba modify -a 1 -r <AD_server_name> -w <domain_name> -p <password> -n <AD_server_name>=<netbios_name> -ur <AD_server_name>=10000000-19999999
  6. Ошибка mount error(2): No such file or directory

    Если на хосте уже есть общая папка SMB с одного узла, то вы можете смонтировать новую папку SMB только через 5 минут после её создания с того же сетевого интерфейса узла.

  7. Прерывается соединение через VIP по FTP в DC-системе при failover

    Разные FTP-клиенты по-разному обрабатывают потерю соединения с сервером.

    Для Linux-клиентов рекомендуем использовать lftp.

  8. После импорта RAID на LUN на Windows-хосте не отображается файловая система

    Чтобы избежать такой ситуации, перед импортом RAID, на котором имеются предоставленные хосту LUN, отключите соединение с iSCSI-таргетом на этом хосте.

    Чтобы вернуть отображение ФС на хосте, используйте один из способов:

    • Переподключите iSCSI-таргет на хосте.
    • Перезагрузите хост и повторно подключите iSCSI-таргет.