О чём рассказывается в презентации:
Презентация посвящена тому, как Google справляется с экстремальными нагрузками, обеспечивая доступность на уровне 99.99%. Рассматриваются ключевые аспекты, такие как использование Site Reliability Engineering для мониторинга и управления инцидентами, а также распределенные системы, которые обеспечивают отказоустойчивость. Также акцентируется внимание на масштабируемой архитектуре и автоматизации, которые позволяют поддерживать высокую производительность даже при пиковых запросах.
Оглавление
Как работает Google в условиях экстремальных нагрузок
Google достигает доступности 99.99% под нагрузкой миллиардов запросов
Вычислительная мощность Google выросла в 1000 раз за 20 лет
Site Reliability Engineering обеспечивает надежность сервисов Google
Распределенные системы Google используют consensus для координации
Load Balancing распределяет трафик по серверам Google
Мониторинг позволяет выявлять проблемы до пользователей
Graceful Degradation сохраняет функциональность при сбоях
Автоматизация сокращает время восстановления MTTR
Incident Management минимизирует влияние сбоев
Resilience Testing проверяет выживание под нагрузками
Scalable Architecture позволяет добавлять ресурсы динамически
Принципы SRE обеспечили рост сети в 10 000 раз
Инцидент 2023 затронул 70% сервисов, но был локализован
Надежность Google зависит от дизайна и инфраструктуры
Принципы Google обеспечивают лидерство в reliability под нагрузками
Ключи к надежности Google: SRE, Распределенность, Автоматизация
Спасибо за внимание!


