Недавно проводил апгрейд небольшой системы мониторинга, на базе Zabbix. В качестве сервера - было 2.0, стало 2.2. В конфигурации были прокси, и прямые агенты. Прокси на 2.0, агенты разные. ОС везде разные линуксы. Последствия апгрейда - очередь заббикса забивается просто до жути. Сервер вообще не нагружен, но в очереди стоят сотни (!) элементов данных:

График очереди Zabbix

Соответственно, триггер "More than 100 items having missing data for more than 10 minutes" в постоянно взведённом состоянии...

Что было сделано:

  1. оптимизирован MySQL. Все что в голову пришло. Число коннектов, размеры кешей, разве что партишнинг, так сильно рекомендованный для Zabbix, было делать лень
  2. "апгрейд" сервера (виртуалка, раздул до размеров бегемота)
  3. тюнинг всякий кешей и числа poller's у заббикса (так что все графики, кроме очереди, вообще "в пол" легли от отсутствия нагрузки)
  4. апдейт всех proxy на 2.0 до 2.2(в официальной документации написано, что server 2.2 не поддерживает proxy 2.0. По факту - выяснилось позже
    • поддерживает :-) ). Часть даже пришлось компилить из исходников (не было пакета по ОС)
  5. зря выкручен мозг сетевому админу (логично подозрение на плохую связь, раз нагрузки нет)
  6. много мата. Очень много мата.

Что из этого помогло:

  1. НИЧЕГО

Причиной было... барабанная дробь.. на сервере на несколько секунд "уехало" время!!!! Повествование следующего получаса после нахождения сего факта вырезано цензурой....

Время поправил, очередь сразу вздохнула с облегчением:

Проблема ушла

Буду рад, если кому-то мой опыт когда-то поможет :-) Ни в какой документации не нашёл ничего на эту тему... Даже постфактум зная, что искать.