LSI MegaRAID и жуткие тормоза на ровном месте
Столкнулся с проблемой на одном сервере - в какой-то момент времени скорость чтения/записи с/на RAID-массива упала до сотен килобайт (!) в секунду.
Просмотром статуса массива
megacli -LDInfo -Lall -aALL
физических дисков
megacli -PDList -aALL
лога событий (LSI их ведёт внутри себя)
megacli -AdpEventLog -GetSinceReboot -warning -fatal -a0
и все остального, что пришло в голову - было понятно, что это мистика, на самом деле всё работает, а низкая скорость - это мои галлюцинации...
И лишь одно - отсутствие опыта работы именно с контроллерами LSI (ну не было их нигде среди той техники, с которой я работал) и его megacli
- позволяло мне не замечать странность - что комманды выполнялись около 2-3 секунд. Но я списывал это на то, что сам сервер нормальные комманды ОС так же выполнял довольно долго - благо дисковая подсистема была скорее мертва, с точки зрения скорости ввода-вывода.
И только после детального просмотра S.M.A.R.T. самих дисков
megacli -PDList -aALL|grep "Device Id"
# и далее
smartctl -d sat+megaraid,<DevID> -a /dev/sdX
я наконец заметил, что все параметры S.M.A.R.T. .. в полном порядке... только вот с одного из дисков они отдаются около 2-3 секунд, а с остальных - мгновенно.
"Выбив" подозрительный диск из массива, удалось вернуть RAID к нормальной жизни (ну, если можно считать статус Degraded нормальным, но это временно)
Как выяснилось в итоге - дисковые массивы LSI более толерантны к проблемам времени доступа, чем те массивы, с которыми я имел дело ранее. Минус один диск, плюс один седой волос...