Sự cố mới nhất của Cloudflare: Một câu chuyện cảnh báo về thay đổi cấu hình toàn cầu

Giới thiệu
Sự cố ngừng hoạt động gần đây của Cloudflare, xảy ra chỉ hai tuần sau một sự cố ngừng hoạt động lớn khác, là một lời nhắc nhở mạnh mẽ về những nguy hiểm của việc thay đổi cấu hình toàn cầu. Trong bài viết này, chúng tôi sẽ đi sâu vào nguyên nhân của sự cố ngừng hoạt động mới nhất, khám phá mô hình của các lỗi cấu hình toàn cầu và thảo luận về tầm quan trọng của việc triển khai các bản cập nhật cấu hình theo từng giai đoạn.
Sự cố ngừng hoạt động mới nhất
Vào ngày 5 tháng 12, Cloudflare đã gặp phải một sự cố ngừng hoạt động toàn cầu trong 25 phút, ảnh hưởng đến khoảng 28% lưu lượng truy cập HTTP của họ. Nguyên nhân của sự cố là một thay đổi cấu hình toàn cầu dường như không có hại, được thiết kế để sửa một lỗ hổng bảo mật của React. Tuy nhiên, bản sửa lỗi đã gây ra một lỗi trong một công cụ thử nghiệm nội bộ, dẫn đến một lỗi gây ra lỗi HTTP 500 trên toàn mạng của Cloudflare.
Điều gì đã sai sót
Thứ tự các sự kiện dẫn đến sự cố ngừng hoạt động như sau:
- Cloudflare đã triển khai bản sửa lỗi cho lỗ hổng bảo mật của React
- Bản sửa lỗi đã gây ra một lỗi trong một công cụ thử nghiệm nội bộ
- Đội ngũ Cloudflare đã tắt công cụ thử nghiệm bằng một công tắc diệt toàn cầu
- Thay đổi cấu hình toàn cầu đã gây ra một lỗi không mong muốn, dẫn đến lỗi HTTP 500
Mô hình của các lỗi cấu hình toàn cầu
Sự cố ngừng hoạt động mới nhất này không phải là một sự kiện duy nhất. Đã có một số sự cố ngừng hoạt động nổi bật trong những năm gần đây do các lỗi cấu hình toàn cầu gây ra