Zabbix, время, и много мата
Недавно проводил апгрейд небольшой системы мониторинга, на базе Zabbix. В качестве сервера - было 2.0, стало 2.2. В конфигурации были прокси, и прямые агенты. Прокси на 2.0, агенты разные. ОС везде разные линуксы. Последствия апгрейда - очередь заббикса забивается просто до жути. Сервер вообще не нагружен, но в очереди стоят сотни (!) элементов данных:
Соответственно, триггер "More than 100 items having missing data for more than 10 minutes" в постоянно взведённом состоянии...
Что было сделано:
- оптимизирован MySQL. Все что в голову пришло. Число коннектов, размеры кешей, разве что партишнинг, так сильно рекомендованный для Zabbix, было делать лень
- "апгрейд" сервера (виртуалка, раздул до размеров бегемота)
- тюнинг всякий кешей и числа poller's у заббикса (так что все графики, кроме очереди, вообще "в пол" легли от отсутствия нагрузки)
- апдейт всех proxy на 2.0 до 2.2(в официальной документации написано,
что server 2.2 не поддерживает proxy 2.0. По факту - выяснилось
позже
- поддерживает :-) ). Часть даже пришлось компилить из исходников (не было пакета по ОС)
- зря выкручен мозг сетевому админу (логично подозрение на плохую связь, раз нагрузки нет)
- много мата. Очень много мата.
Что из этого помогло:
- НИЧЕГО
Причиной было... барабанная дробь.. на сервере на несколько секунд "уехало" время!!!! Повествование следующего получаса после нахождения сего факта вырезано цензурой....
Время поправил, очередь сразу вздохнула с облегчением:
Буду рад, если кому-то мой опыт когда-то поможет :-) Ни в какой документации не нашёл ничего на эту тему... Даже постфактум зная, что искать.