LXXII. Globus grid toolkit
CXII.1.1 Độ tin cậy (Reliability)
CXIII. Độ tin cậy của ứng dụng là một vấn đề của các công nghệ tính toán, và với Grid cũng không là ngoại lệ. Phương pháp tốt nhất để giải quyết vấn đề khó khăn này là cố gắng dự đoán hết các khả năng gây lỗi và đưa ra các cơ chế thích hợp để giải quyết chúng. Thường các khả năng gây lỗi là do lỗi của host và của hệ thống mạng.
CXIV. Một số cơ chế kiểm soát các lỗi này.
- Checkpoint-restart: Khi công việc đang thực thi, các trạng thái của nó sẽ được lưu lại theo từng khoảng thời gian xác định. Khi máy tính thực thi công việc bị hỏng, công việc có thể được khởi động lại trên một máy khác với trạng thái thực thi gần nhất được lưu lại và chạy tiếp. Bằng cách này, các công việc dài ngày có thể chạy trong nhiều tháng hoặc cả năm ngay cả khi các hệ thống bị hỏng thường xuyên.
- Persistent storage: Các trạng thái liên quan của mỗi công việc được lưu trữ trong các vùng lưu trữ lâu dài bởi trình quản lý Grid để đối phó với các hư hỏng cục bộ. Khi máy tính cục bộ khởi động lại, các thông tin trạng thái của các công việc được lấy lại, kết nối đến trình quản lý công việc được thiết lập lại và công việc tiếp tục được thực thi.
- Heartbeat monitoring: Ở trạng thái bình thường, các thông điệp thăm dò được gửi đến các tiến trình, và tiến trình trả lời lại. Nếu tiến trình không trả lời thông điệp trong một khoảng thời gian xác định, thông điệp sẽ được gửi đến một tiến trình thay thế khác, tiến trình này có thể được dùng để xác định trạng thái của tiến trình đầu tiên và có thể khởi động lại nó. Tuy nhiên, nếu tiến trình thứ hai cũng không thể trả lời thông điệp, có thể là do hư hỏng hệ thống máy tính cục bộ, hoặc mạng, trong trường hợp này thì phải chờ cho đến khi kết nối được thiết lập lại.