Giám sát và sửa chữa sự cố trong WSC Google

Một phần của tài liệu siêu máy tính và điện toán đám mây (Trang 29)

Đối với một người điều hành chịu trách nhiệm hơn 1000 máy chủ, cần một cơ sở hạ tầng tự động hóa trợ giúp các sự kiện lớn giám sát thường xuyên.

Google triển khai phần mềm giám sát để theo dõi tình trạng của tất cả các máy chủ và thiết bị làm việc mạng. Việc giám sát là liên tục. Khi một hệ thống có vấn đề, đã có giải pháp đơn giản. Trong trường hợp này, khởi động lại hệ thống và cố gắng cài đặt lại các phần mềm. Như vậy, thủ tục xử lý phần lớn thất bại.

Việc chẩn đoán vấn đề được đặt vào hàng đợi với ID của máy có vấn đề. Khi phần mềm chẩn đoán chính xác, vấn đề sẽ được thay thế ngay lập tức mà không cần xem hướng dẫn. Ví dụ, nếu chẩn đoán đĩa 3 của một máy chủ nào đó bad, đĩa được thay thế ngay lập tức. Nếu chuẩn đoán thất bại thì được kiểm tra bằng tay.

Đảm bảo dưới 1% tất cả các máy chủ cần sửa trong hàng đợi tại một thời điểm. Thời gian trung bình để sửa là một tuần và tốn nhiều thời gian để sửa nó. Nếu sửa lâu sẽ ảnh hưởng tới chi phí hoạt động.

Google App Engine là một dự án điện toán đám mây của Google cho phép người dùng chạy các ứng dụng web viết bằng ngôn ngữ Python. Ngoài việc hỗ trợ các thư viện Python chuẩn, Google App Engine còn hỗ trợ một số API về lưu trữ dữ liệu, quản lý tài khoản Google, dịch vụ email. Bên cạnh đó Google App Engine còn hỗ trợ giao diện quản trị qua web cho người dùng dễ dàng quản lý các ứng dụng web đang chạy. Hiện tại Google App Engine đang

Một phần của tài liệu siêu máy tính và điện toán đám mây (Trang 29)

Tải bản đầy đủ (DOCX)

(32 trang)
w