Подробности сбоя пула Ezil.me 14 сентября 2019

В Ezil.me мы верим, что открытость и честность перед майнерами — одна из самых важных вещей для построения долгосрочных отношений с нашими пользователями. Сейчас мы вам расскажем о событиях, произошедших 14 сентября, которые привели к потере данных о шарах на стороне пула. Награда за эти потерянные шары была начислена 17 сентября, поэтому майнеры не понесли убытков.

События 14 сентября

14 сентября 2019 в 6:58 (МСК)

Начали появлятся первые ошибки сохранения присланных шар. При этом сам процесс нахождения блоков продолжал идти в штатном режиме. Вследствие этого майнеры не имели возможности уйти на резервный пул. Причиной этого оказалось исчерпание свободного места на дисках.

Допущенные ошибки, приведшие к возникновению причины инцидента

02 августа 2019 года мониторинг отправил уведомление о приближении к критическому объему свободного места на дисках. Для устранения проблемы были изменены правила хранения шар путем уменьшения длительности их хранения, а избыточные данные были удалены. Тем не менее, свободное место не вернулось операционной системе, а продолжилось числиться за базой данных.

Чтобы вернуть свободное место операционной системе требовалось произвести сжатие таблицы, что подразумевает отсутствие доступа к таблице на время проведения работ (т.е. перерыв в майнинге). Что мы не рискнули сделать на тот момент. Это было первой ошибкой. В мониторинге не был изменен порог оповещения о критическом объеме свободного места и это стало второй ошибкой.

14 сентября 2019 в 08:41 (МСК)

В силу неинформирования нас мониторингом, об инциденте мы узнали только от майнеров в чате и в 08:41 (МСК) приступили к определению проблемы.

14 сентября 2019 в 09:06 (МСК)

Был обнаружен источник проблемы, освобождено максимально возможное место на дисках и шары стали сохраняться.

14 сентября 2019 в 09:10 (МСК)

Начаты работы по сжатию таблицы шар — создана новая таблица для шар, в нее вставлены данные за предыдущие 2-ое суток, старая таблица была удалена, а новая встала на ее место. В результате этих действий освободилось более половины доступного дискового пространства и с минимальными затратами времени.

14 сентября 2019 в 10:06 (МСК)

Работы по сжатию таблицы шар успешно завершены. Пул вернулся в режим штатной работы.

Что мы сделаем, чтобы такого не произошло в будущем?

Нам очень важно, чтобы наш сервис работал бесперебойно и не доставлял причин для беспокойства нашим пользователям, поэтому мы в ближайшее время переделаем систему мониторинга и реагирования на инциденты, основываясь на самых современных практиках и подходах.

Обсудить статью можно в нашем Telegram чате по ссылке: https://t.me/ezil_me_ru.

Written by

Increase your profit with EZIL mining: ZIL+ETH / ZIL+ETC. ZIL staking node operator.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store