Команда социальной сети ВКонтакте официально разъяснила в пресс-релизе причины недавнего трехчасового сбоя. Напомним, вчера, 4 августа, соцсеть была недоступна для пользователей по всему миру с 17 до 20 по московскому времени.
Причиной аварии стал обрыв линий связи между дата-центрами ВКонтакте, который сопровождался выходом из строя системы автоматического переключения на резервную трассу. Фактически все линии связи между основными дата-центрами ВКонтакте были недоступны. Из-за резких перепадов в нагрузке социальной сети произошли сбои на сетевом оборудовании.
В течение трёх часов команде инженеров ВКонтакте и дата-центра «Селектел» пришлось восстанавливать основные каналы связи и работу всего серверного оборудования. Как отмечают представители компании, фатальное стечение ряда обстоятельств привело к аварии такого масштаба, восстановление стабильной работы после которой даже у инженеров ВКонтакте с их опытом реагирования в экстренных ситуациях заняло несколько часов: специалистам пришлось восстанавливать один за другим сотни сервисов ВКонтакте, которые работают на десятках тысяч серверов.
Чтобы избежать подобных инцидентов в будущем, администрация планирует модернизировать систему резервирования сетевого оборудования и оптоволоконных трасс. Также команда инженеров ВКонтакте работает над повышением отказоустойчивости сервиса, чтобы справляться как с возросшим уровнем нагрузок, так и с возможными внештатными ситуациями: в начале июня для обеспечения бесперебойности работы ВК и снижения зависимости от внешних подрядчиков был приобретён и модернизирован дата-центр «ИЦВА».
Источник новости: ВКонтакте