Постоянная ссылка: 2014-11-20 00:22:00+03:00 , автор Евгений Лопатин в Блог тэги: lsi megaraid raid

Столкнулся с проблемой на одном сервере - в какой-то момент времени скорость чтения/записи с/на RAID-массива упала до сотен килобайт (!) в секунду.

Просмотром статуса массива

    megacli -LDInfo -Lall -aALL

физических дисков

    megacli -PDList -aALL

лога событий (LSI их ведёт внутри себя)

    megacli -AdpEventLog -GetSinceReboot -warning -fatal -a0

и все остального, что пришло в голову - было понятно, что это мистика, на самом деле всё работает, а низкая скорость - это мои галлюцинации...

И лишь одно - отсутствие опыта работы именно с контроллерами LSI (ну не было их нигде среди той техники, с которой я работал) и его megacli - позволяло мне не замечать странность - что комманды выполнялись около 2-3 секунд. Но я списывал это на то, что сам сервер нормальные комманды ОС так же выполнял довольно долго - благо дисковая подсистема была скорее мертва, с точки зрения скорости ввода-вывода.

И только после детального просмотра S.M.A.R.T. самих дисков

    megacli -PDList -aALL|grep "Device Id"
    # и далее
    smartctl -d sat+megaraid,<DevID> -a /dev/sdX

я наконец заметил, что все параметры S.M.A.R.T. .. в полном порядке... только вот с одного из дисков они отдаются около 2-3 секунд, а с остальных - мгновенно.

"Выбив" подозрительный диск из массива, удалось вернуть RAID к нормальной жизни (ну, если можно считать статус Degraded нормальным, но это временно)

Как выяснилось в итоге - дисковые массивы LSI более толерантны к проблемам времени доступа, чем те массивы, с которыми я имел дело ранее. Минус один диск, плюс один седой волос...