tích hợp chống lỗi cho hệ bksupcomp

Tích hợp chống lỗi cho hệ BKSupComp Tích hợp chống lỗi cho hệ thống tính toán song song Đại học BÁCH KHOA Hà Nội Lời nói đầu Giao thức phục hồi lỗi dùng ghi lại thông điệp là giải pháp tốt cho việc xây dựng các ứng dụng có khả năng chống lỗi. Nhiều giao thức kiểu này được sử dụng trong thực tiễn cho các ứng dụng đòi hỏi độ tin cậy cao. Giao thức này tồn tại 2 vấn đề sau: thứ nhất, giao thức khôi phục đã có chỉ hỗ trợ các giao thức phục hồi đơn tiến trình; thứ hai, hiệu năng giao thức này trong thực tế không cao. Để giải quyết vấn đề trên trong trường hợp cụ thể xây dựng hệ thống tính toán song song BKSupComp, môi trường truyền thông chống lỗi MPICH- V sẽ được sử dụng. Môi trường này được phát triển tại trung tâm nghiên cứu tại truờng đại học LRI. Kiến trúc MPICH-V dựa trên nền điều khiển thống nhất các sự kiện không xác định (các sự kiện không xác định -theo định nghĩa là các sự kiện chuyển giao thông điệp giữa các tiến trình). Kiến trúc này cho phép mô tả giao thức phục hồi như một chương trình điều khiển sự kiện. MPICH-V cài đặt dễ dàng, tính mở đối với các hệ thống khác với chi phí lập trình cho việc tích hợp không lớn. MPICH-V tập trung vào 2 vấn đề hiệu năng căn bản: thứ nhất, khi nghiên cứu hiệu năng khôi phục của giao thức ghi lại thông điệp cho thấy giao thức này thường không đảm bảo giảm lượng chi phí trong quá trình giải phóng lỗi, khôi phục nhanh và ngừa lỗi (đây là nhược điểm lớn trong các hệ thống chống lỗi); thứ hai, việc đánh giá hiệu năng của giao thức lưu ảnh tiến trình (vấn đề truyền thông gây ra bởi việc lưu trữ các ảnh tiến trình -checkpointing induce communication- CIC) cho thấy các giao thức CIC trong thực tế hiệu quả thấp. Môi trường chống lỗi MPICH-V đang phát triển các giao thức mới có khả năng giảm chi phí kể trên. Do tính mở của môi trường, đồ án này tập trung tìm hiểu để “tích hợp vào hệ thống tính toán song song BKSupComp” triển khai tại Trung tâm tính toán hiệu năng cao -trường Đại học Bách Khoa Hà Nội. Tích hợp chống lỗi cho hệ BKSupComp Vì hạn chế về thời gian và kinh nghiệm, nên có thể đồ án của em còn nhiều sai sót. Kính mong thầy cô chỉ dẫn thêm nhằm có thể cải thiện nâng cấp tiếp cho hệ thống này. Em xin gửi lời cảm ơn chân thành tới PGS.TS Nguyễn Thanh Thuỷ, thầy đã tận tình hướng dẫn, cũng như tạo điều kiện về cơ sở vật chất trong việc hoàn thành đồ án này. Em xin bày tỏ lòng biết ơn sâu sắc tới ThS Đặng Minh Quân, người đã đưa ra các ý tưởng, và cung cấp tài liệu tham khảo thực hiện đồ án. Em cũng xin được cảm ơn các thầy cô, các anh, các chị, các bạn ở Trung tâm tính toán hiệu năng cao và các thầy cô ở Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin - Trường đại học Bách Khoa Hà Nội. Cuối cùng em xin cảm ơn gia đình và bạn bè ở lớp Hệ thống thông tin - những người đã giúp đỡ em rất nhiều trong quá trình hoàn thành đồ án. Hà Nội, ngày 14 tháng 5 năm 2004 Sinh viên thực hiện Phạm Quyết Thắng Tích hợp chống lỗi cho hệ BKSupComp Mục lục Lời nói đầu i Mục lục iii Danh mục hình iv Giới thiệu 1 Phân tích môđun chống lỗi 8 Tích hợp phân hệ chống lỗi vào hệ thống tính toán song song phân cụm BKSupComp 52 Cài đặt và chạy thử nghiệm 77 Kết luận và hướng phát triển của đề tài 80 Thuật ngữ 82 Tài liệu tham khảo 83 Tích hợp chống lỗi cho hệ BKSupComp Danh mục hình Tích hợp chống lỗi cho hệ BKSupComp Giới thiệu Cuộc cách mạng tính toán những năm 90 coi các bó máy trạm tính toán dùng thay thế cho các máy mainframe như là tư tưởng cơ bản cho hạ tầng tính toán. Với môi trường này, ta có thể dễ dàng phát triển các thế hệ ứng dụng phân tán trong nhiều lĩnh vực như: vũ trụ học (mô phỏng các vụ va chạm trong dải ngân hà); hoá học (xác định thành phần cấu trúc điện tử trong hạt nhân); vật lý (tính toán độ linh động của chất lỏng); bảo mật máy tính (bẻ hệ thống mã hoá RSA); và khí tượng học (dự báo thời tiết). Các ứng dụng này yêu cầu chạy dài ngày, tính toán lượng lớn các công việc, được cấu trúc thành nhóm tiến trình trao đổi với nhau để thực thi trên các máy tính khác nhau nằm trong trạm tính toán. Để chống lỗi cho ứng dụng, các giao thức khôi phục như lấy ảnh tiến trình (checkpointing) và ghi lại thông điệp (message logging) đem lại nhiều triển vọng. Các giao thức khôi phục cũng tương đối dễ cài đặt. Chúng tuân theo mô hình lập trình theo kiểu gửi/nhận (send/receive). Đây là mô hình chung cho các ứng dụng phân tán theo kiểu truyền thông điệp. Do phải cài đặt nhiều, các giao thức khôi phục này rất ít được sử dụng để xây dựng các ứng dụng yêu cầu độ tin cậy cao. Điều này do 2 nguyên nhân sau: 1) Tích hợp hiệu quả các giao thức khôi phục với một ứng dụng sẽ rất phức tạp. Một vài giao thức cài đặt hiện nay chỉ hỗ trợ giao thức phục hồi đơn tiến trình. Bên cạnh đó là giới hạn tương thích của các giao thức với các nhu cầu cần thiết trong các ứng dụng khác nhau. Vì vậy, các nhà phát triển ứng dụng phải lo lắng về sự phức tạp trong việc xây dựng các ứng dụng của họ. Họ cũng sẽ phải hiểu thế nào là chống lỗi trong môi trường phân tán. 2) Hiệu năng các giao thức phục hồi trong thực tế không được đánh giá cặn kẽ. Đề xuất cho các giao thức mới chủ yếu tập trung thiết kế giao thức, trong khi cung cấp rất ít đánh giá để thể hiện ưu việt do cách tiếp cận mới mang lại. Nên nhà phát triển ứng dụng có rất ít các đề xuất lựa chọn từ các giao thức khôi phục, để tìm ra giao thức tốt nhất phù hợp với các đặc điểm riêng của từng ứng dụng chuyên biệt. Đồ án này sử dụng MPICH-V. Ưu điểm của môi trường này là tính mở để cài đặt giao thức chống lỗi. Bên cạnh đó, MPICH-V sử dụng với một vài ứng dụng để nghiên cứu hiệu năng của giao thức trong thực tế. Mục 1.1 trình Tích hợp chống lỗi cho hệ BKSupComp bày tổng quan giao thức chống lỗi. Mục 1.2 trình bày tổng quan môi trường chống lỗi MPICH-V. Mục 1.3 trình bày nội dung luận văn tốt nghiệp. 1.1. Kỹ thuật chống lỗi : Tổng quan Việc chống lỗi cho một tiến trình yêu cầu vài bản sao tiến trình cả về thời gian và không gian: • Kĩ thuật dựa trên bản sao theo không gian lỗi bằng cách nhân bản tiến trình để ít nhất một trong các bản sao vẫn có giá trị khi xảy ra lỗi, và bằng cách cùng điều phối sự thực thi các bản sao này. Kĩ thuật này cài đặt trên giao thức checkpoint các tiến trình. • Kĩ thuật dựa trên bản sao theo thời gian, chống lỗi bằng cách khôi phục các thực thi mất kiểm soát của tiến trình lỗi. Trong suốt thời gian giải phóng lỗi, một tiến trình ghi lại các thông tin về các sự kiện nó thực hiện. Các thông tin được ghi lại này được sử dụng trong suốt quá trình khôi phục để chạy lại các thực thi đã mất. Kĩ thuật này cài đặt trên giao thức ghi lại thông điệp. Hai lớp kĩ thuật này đòi hỏi chi phí rất nhiều trong quá trình thực hiện. Kĩ thuật dựa trên bản sao không gian mang lại sự thực thi liên tục, nhưng gây ra chi phí cao về hiệu năng. Cần điều phối sự thực thi của các bản sao và yêu cầu sử dụng một số lượng lớn tài nguyên. Trái lại, kĩ thuật dựa trên các bản sao thời gian gây ra chi phí thấp trong giải phóng lỗi và sử dụng ít tài nguyên hơn. Tuy nhiên, tốc độ khôi phục lại chậm. Lựa chọn một trong hai kĩ thuật này để chống lỗi phải dựa vào yêu cầu của ứng dụng. Trong phần mềm điều khiển quỹ đạo vệ tinh, chỉ một lỗi cũng có thể dẫn đến tai nạn thảm khốc. Việc chống lỗi một cách tuỳ biến và cung cấp môi trường thực hiện liên tục là yêu cầu cần thiết. Ứng dụng này nên chọn phương pháp bản sao không gian. Tuy nhiên, các ứng dụng khẩn cấp lại không nên chọn kĩ thuật này. Với những ứng dụng đó, việc tối thiểu hoá chi phí cho chống lỗi được đưa lên hàng đầu. Vì vậy, nên chọn kĩ thuật bản sao thời gian. Các ứng dụng phân tán theo mô hình yêu cầu-phục vụ (client-server), để giảm chi phí chống lỗi có thể sử dụng cách tiếp cận theo bản sao thời gian. Tuy nhiên, để khai thác tiềm năng tính toán cluster, các ứng dụng trực tuyến (online) thường theo mô hình yêu cầu-phục vụ. Ứng dụng này sử dụng một nhóm các tiến trình trao đổi dữ liệu theo mô hình điểm-điểm. Với kiến trúc như vậy, để giảm chi phí sao lưu nên sử dụng các giao thức phục hồi ghi lại Tích hợp chống lỗi cho hệ BKSupComp thông điệp. Sau đây là mô tả giao thức checkpoint và giao thức ghi lại thông điệp: (1).Giao thức checkpoint: trong quá trình giải phóng lỗi, theo định kì hệ thống tự động lưu trạng thái của mỗi tiến trình vào bộ nhớ tin cậy (gọi là một lần lưu ảnh tiến trình). Mỗi khi một tiến trình lỗi, một tiến trình mới -gọi là tiến trình phục hồi- được tạo ra. Trạng thái của nó được khôi phục lại từ điểm ảnh tiến trình gần nhất theo bộ đếm của tiến trình. Thực thi của nó bắt đầu từ trạng thái đã lưu. Mặc dù thủ tục này hiệu quả với các ứng dụng một tiến trình, nhưng trong ứng dụng phân tán đa tiến trình nảy sinh một số vấn đề. Sau khi tiến trình lỗi khôi phục, trạng thái của toàn hệ thống có thể sẽ không bền vững. Một trạng thái hệ thống bao gồm chính xác từng trạng thái của mỗi tiến trình. Trạng thái đó bền vững khi và chỉ khi với mỗi thông điệp đã nhận bởi một tiến trình, phải có một tiến trình gửi. Trạng thái bền vững cuối cùng được định nghĩa bởi một tập các điểm ảnh tiến trình của từng tiến trình, gọi là dòng khôi phục (hay lát cắt phục hồi). Để phục hồi hệ thống về trạng thái bền vững, nhất thiết phải phục hồi thực thi các tiến trình có trạng thái không bền vững về lát cắt phục hồi. Các tiến trình này gọi là các tiến trình mồ côi (orphan). Khôi phục thực thi của một tiến trình mồ côi có thể gây nên các tiến trình khác có liên quan tới nó cũng trở thành mồ côi. Việc khôi phục các tiến trình này sẽ đưa hệ thống dần trở về trạng thái ban đầu. Gọi là hiệu ứng lan truyền (domino-effect). Nó có thể xảy ra nếu mỗi tiến trình lấy ảnh tiến trình độc lập với các tiến trình khác. Hiệu ứng này được thể hiện qua ví dụ sau: Hình 1-1 Mô tả hiệu ứng lan truyền: Đưa hệ thống về trạng thái bền vững sau khi tiến trình po lỗi, cần thiết phải phục hồi các tiến trình về trạng thái ban đầu Theo hình 1-1, thực thi của hệ thống gồm 2 tiến trình p 0 và p 1 . Mỗi tiến trình lấy ảnh độc lập với tiến trình còn lại. Theo hình vẽ, C i,j tương ứng với lần lấy ảnh thứ j của tiến trình p i . C i,j cũng là trạng thái của tiến trình p i ghi lại trong ảnh tiến trình. Giả thiết tiến trình p 0 lỗi như tại thời điểm hình vẽ. Khi khôi phục, C 0,2 là trạng thái đầu tiên tiến trình p 0 quay trở lại. Lúc này, tiến Tích hợp chống lỗi cho hệ BKSupComp trình p 1 sẽ không còn bền vững. Do trạng thái của p 1 lúc này đã nhận thông điệp m 4 . Nhưng thông điệp này lại chưa được gửi từ trạng thái C 0,2 của p 0 . Vì vậy, p 1 phải quay về trạng thái C 1,2 . Tuy nhiên, hệ thống vẫn không ở trạng thái bền vững. Kịch bản này lại giống lần trước, p 0 và p 1 đổi vai trò cho nhau, thông điệp m 3 thay cho m 4 . Cứ như vậy, hai tiến trình p 0 và p 1 sẽ quay về trạng thái khởi đầu C 0,0 và C 1,0 . Để tránh hiện tượng lan truyền, cần điều phối hoạt động lấy ảnh tiến trình của hệ thống. Một tiếp cận là áp dụng giải thuật Chandy-Lamport. Trong giải thuật này, mỗi tiến trình hoạt động như bộ điều phối và trực tiếp yêu cầu các tiến trình khác thực hiện lấy ảnh tiến trình. Mỗi lần lấy ảnh tiến trình, cả hệ thống sẽ đưa về trạng thái bền vững. Do đó, khi xuất hiện các tiến trình mồ côi, hệ thống sẽ quay trở lại trạng thái bền vững gần nhất. (2).Giao thức ghi lại thông điệp: để tăng tốc độ chuyển giao thông điệp, giao thức checkpoint có thể kết hợp ghi lại thông điệp. Giao thức ghi lại thông điệp dựa trên việc theo dõi các thực thi bị mất khi tiến trình lỗi gây ra bởi các sự kiện truyền thông điệp. Khi đó nó sẽ phát lại các thông điệp cho các tiến trình lỗi theo đúng thứ tự trước đây đã nhận. Do đó các thông tin theo dõi này cần ghi vào các thiết bị lưu trữ tin cậy. Giống như giao thức checkpoint, giao thức ghi lại thông điệp đảm bảo khôi phục các tiến trình lỗi và không để xảy ra hiện tượng mồ côi tiến trình. Các giao thức ghi lại thông điệp phân thành 3 loại: • Pessimistic protocol yêu cầu chỉ một tiến trình khi gửi thông điệp tới các tiến trình khác sẽ đồng thời ghi lại các thông tin do sự kiện gửi nhận tạo ra vào thiết bị lưu. Vì vậy, giao thức này không tạo ra các tiến trình mồ côi. • Optimistic protocol cho phép các tiến trình đồng thời trao đổi. Thậm chí một số thông tin phụ thuộc giữa các tiến trình có thể cũng không cần lưu lại. Vì vậy, nếu một số thông tin cần thiết khi tiến trình lỗi phục hồi lại không được ghi thì sẽ xuất hiện các tiến trình mồ côi. Để hệ thống trở lại trạng thái bền vững, các tiến trình mồ côi phải quay trở về trạng thái bền vững gần nhất. • Causal protocol kết hợp các ưu điểm của hai giao thức trên. Nó không tạo ra tiến trình mồ côi, cũng không cần ghi tất cả thông tin liên quan trong khi trao đổi giữa các tiến trình vào bộ lưu trữ. Giao thức sẽ ghi các thông tin liên quan vào bộ nhớ tạm cả hai bên gửi và nhận. Để Tích hợp chống lỗi cho hệ BKSupComp không xuất hiện tiến trình mồ côi, các tiến trình gắn thêm các thông tin liên quan vào các thông điệp được gửi. Theo cách này, tiến trình lỗi có thể quay lại trạng thái bền vững mà không ảnh hưởng tới tính toán của các tiến trình khác. 1.2. Tổng quan nghiên cứu môi trường chống lỗi MPICH-V Chống lỗi là vấn đề rất cần thiết cho các ứng dụng phân tán chạy vô hạn. Môi trường truyền thông MPICH-V xây dựng trên các giao thức khôi phục sẵn có với 2 mục đích: 1) Phát triển môi trường dễ dàng cài đặt bất cứ giao thức phục hồi nào. 2) Xác định và chỉ ra hạn chế về hiệu năng của các giao thức khi chúng được sử dụng trong thực tế. Để đạt được các tiêu chí này, MPICH-V được thiết kế thành môi trường có tính mở cho việc phát triển và hoàn thiện các giao thức phục hồi, sau đó dùng MPICH-V để nghiên cứu về hiệu năng của các giao thức chống lỗi. MPICH-V được phát triển nền đặc tả thống nhất các giao thức phục hồi. Nó cho phép xác định tập các chức năng mà các giao thức cần có. Môi trường xây dựng dựa trên các giao thức phục hồi. Các giao thức này rất đa dạng, chia sẻ cùng cấu trúc điều khiển sự kiện và tập trung vào cùng một tập các sự kiện liên quan. Các giao thức là các điều khiển sự kiện, tương ứng với các xử lí khác nhau mỗi khi có sự kiện liên quan xảy ra (giống hoạt động của các máy trạng thái). Có 5 kiểu sự kiện liên quan tới các giao thức khôi phục: 1) Các sự kiện không xác định. 2) Các sự kiện sinh ra sự phụ thuộc. 3) Các sự kiện chuyển giao đầu ra. 4) Các sự kiện checkpoint. 5) Các sự kiện phát hiện lỗi. Các sự kiện được ánh xạ vào không gian 5 chiều và các giao thức được ánh xạ vào các điểm trong không gian này. Chỉ cần thay đổi nhỏ các giá trị trên từng trục tọa độ, có thể dịch chuyển trạng thái của hệ thống từ 1 điểm tới một điểm khác, từ một giao thức này đến một giao thức khác. MPICH-V cài đặt các giao thức khôi phục dựa trên sự dịch chuyển trạng thái của hệ thống trong không gian này. Cách tiếp cận này cho phép phát triển các giao thức mới Tích hợp chống lỗi cho hệ BKSupComp bằng cách kết hợp sự chuyển dịch trạng thái theo các cách khác nhau. Đây cũng chính là mục tiêu phát triển và hoàn thiện tiếp công cụ này. Hiện nay MPICH-V đang được tích hợp MPICH (chuẩn MPI). Vì vậy mà các ứng dụng MPI có thể chạy ngay trên MPICH-V mà không cần phải chỉnh sửa gì ngoài việc sử dụng chương trình dịch mpicc sau khi được tích hợp. Hiệu năng của các giao thức phục hồi hiện nay có thể được đánh giá qua các ứng dụng có đòi hỏi cao về tài nguyên như các tải đo hiệu năng của NPB. Tính ưu việt của MPICH-V thể hiện trong 2 vấn đề hiệu năng cơ bản sau: 1) Hiệu năng phục hồi của giao thức ghi lại thông điệp. 2) Sự tiêu tốn tài nguyên mạng của giao thức lưu trữ ảnh tiến trình. Sau đây là một vài nhận xét về 2 vấn đề hiệu năng trên. • Phục hồi lỗi: Khi sự tính toán trong môi trường phân tán phổ biến, yêu cầu mới về kĩ thuật để giảm chi phí giải phóng lỗi đồng thời phục hồi nhanh. Các nghiên cứu trước đây chỉ ra rằng giao thức ghi lại thông điệp phía tiến trình nhận (receiver-base-pessimistic) gây ra chi phí cao trong khi giải phóng lỗi, trong khi dùng ghi lại thông điệp phía tiến trình gửi (sender-base pessimistic), optimistic, và causal gây chi phí tương đối thấp. Đánh giá thực nghiệm ban đầu về hiệu năng của giao thức ghi lại thông điệp trong quá trình phục hồi lỗi cho thấy, ghi lại thông điệp phía tiến trình gửi và causal tốt hơn optimistic chỉ khi chống lỗi đơn tiến trình. Trong trường hợp chống lỗi đa tiến trình, optimistic, mặc dù chạy lại các tiến trình mồ côi, có thể tốt hơn dùng ghi thông điệp bên gửi và causal, giao thức này không cho phép phục hồi nhanh chóng. Kết quả này cho thấy các giao thức ghi lại thông điệp bên gửi thường được nhà phát triển ứng dụng lựa chọn để chống lỗi. Tuy nhiên, các giao thức không thể đồng thời chi phí thấp cho giải phóng lỗi, lại khôi phục nhanh. • Gia tăng chi phí lưu ảnh tiến trình: Tính ưu việt của các giao thức điều phối lấy ảnh tiến trình thể hiện ở các khía cạnh sau: (1) tiến trình có thể tự lấy ảnh tiến trình độc lập; (2) có thể tăng số lượng các tiến trình tuỳ ý. Kết quả cho thấy: (i) chỉ yêu cầu các tiến trình lấy ít nhất hai lần bởi vì số các điểm buộc phải lưu ảnh tiến trình (forced checkpoint) nhiều hơn các điểm tự động lưu ảnh tiến trình (autonomous checkpoint); (ii) số các điểm buộc phải lưu ảnh tiến trình tăng tuyến tính với số tiến [...]... Chương 2 Phân tích môi trường chống lỗi MPICH-V Chương 3 Tích hợp phân hệ chống lỗi vào hệ thống BKSupComp Chương 4 Cài đặt và chạy thử nghiệm môi trường chống lỗi Cuối cùng, Chương 5 ghi lại một vài kết luận và hướng phát triển tiếp theo cho đề tài Cuối cùng là từ điển thuật ngữ và phần tài liệu sử dụng tham khảo cho luận văn này Tích hợp chống lỗi cho hệ BKSupComp Phân tích môđun chống lỗi Nghiên cứu... các môi trường chống lỗi khác liên quan tới môi trường chống lỗi này Và cuối cùng, mục 2.5 tóm tắt chương phân tích về MPICH-V Tích hợp chống lỗi cho hệ BKSupComp 1.4 Mô hình chống lỗi Bộ ghi sự kiện Bộ lập lịch lấy ảnh tiến trình Bộ lưu ảnh tiến trình Bộ điều phối mạng truyền thông Daemon truyền thông + nút tính toán Hình 2-2 Mô hình môi trường truyền thông chống lỗi Môi trường chống lỗi MPICH-V được... Hình 2-5 Kiến trúc chống lỗi MPICH-V MPICH-V là môi trường truyền thông điệp dựa trên giao thức ghi lại thông điệp bên tiến trình gửi theo kiểu pessimistic Hình 2-4 là mô tả về các thành phần và cài đặt của hệ chống lỗi trên một trạm tính toán Tích hợp chống lỗi cho hệ BKSupComp Theo hình 2-4, môi trường chống lỗi được chia làm 3 loại thành phần như mục 2.1 Mô hình chống lỗi đã phân tích Các thành phần... liên hệ bên trong các khối Các giao thức này được cài đặt dựa trên phân tích trong mục 2.3.1 và mục 2.3.2 Tích hợp chống lỗi cho hệ BKSupComp 1.6.3 Giao thức truyền thông giữa các khối Qua phân tích ở trên, có thể chia các giao thức trong môi trường truyền thông chống lỗi MPICH-V thành 2 nhóm giao thức truyền thông sau: • Các giao thức liên quan tới truyền thông điệp • Các giao thức liên quan tới chống. .. Trước tiên là mục 2.3.3.2.1 Giao thức phát hiện lỗi 1.6.3.2.1 Giao thức phát hiện lỗi 2 Xem Thư viện truyền thông dựa trên chuẩn MPI Tích hợp chống lỗi cho hệ BKSupComp Bộ điều phối phát hiện lỗi tiến trình MPI dựa vào kết nối thăm dò lỗi từ Daemon truyền thông3 Do Bộ điều phối không trực tiếp kết nối với tiến trình MPI Hình 2-8 mô tả giao thức phát hiện lỗi tiến trình MPI của Bộ điều phối Bộ điều phối... đổi: (1) thông điệp điều khiển (control messages) dùng cho khởi tạo, kết thúc và thăm dò; (2) thông điệp giao thức (protocol message) dùng cho việc gửi và nhận thông điệp (bsend, breceive) Tích hợp chống lỗi cho hệ BKSupComp Cài đặt các Daemon này dựa trên một vòng lặp dùng select Nó điều khiển một socket cho mọi nút tính toán và các socket dành cho các dịch vụ khác như (phục vụ lưu sự kiện, phục vụ... tích Mục 2-3 sau đây mô tả chi tiết cài đặt từng thành phần trong môi trường chống lỗi 1.6 Kiến trúc của MPICH-V Mục này sẽ trình bày 3 vấn đề: • Giới thiệu kiến trúc môi trường chống lỗi MPICH-V • Các chức năng của các khối cơ bản • Các giao thức truyền thông giữa các khối Trước hết là phần trình bày kiến trúc cài đặt cụ thể của MPICH-V trong mục 2.3.1 Giới thiệu kiến trúc Tích hợp chống lỗi cho hệ. .. checkpoint cho tiến trình So sánh 2 chiến lược trên với các lược đồ truyền thông điển hình ( point to point , đồng bộ all-to-all , broadcasts and reduces), kết quả cho thấy giải thuật thích nghi này đưa ra chiến lược lấy checkpoint tốt hơn (thậm chí dưới n lần trong đó n là số nút tính toán) Tích hợp chống lỗi cho hệ BKSupComp Trên đây đã phân tích đầy đủ chức năng của từng thành phần trong môi trường chống. . .Tích hợp chống lỗi cho hệ BKSupComp trình Điều này thể hiện được sự khác biệt giữa việc sử dụng điều phối lấy ảnh tiến trình và không sử dụng điều phối Phân tích hiệu năng sẽ thấy yêu cầu đặt ra đối với một môi trường chống lỗi Các phần sau sẽ nghiên cứu về môi trường MPICH-V và sự đáp ứng của môi trường này đối... vụ cho việc chạy job 2) Các thành phần phụ phục vụ chống lỗi: (i) Bộ lập lịch lấy ảnh tiến trình (Checkpoint Scheduler) Thành phần này có chức năng điều phối việc lấy ảnh của các tiến trình MPI trong lúc thực thi (ii) Bộ ghi sự kiện (Event Logger) Thành phần này là bộ chứa tin cậy dùng lưu các thông tin sự kiện trao đổi thông điệp giữa các tiến trình (iii) Bộ lưu ảnh tiến Tích hợp chống lỗi cho hệ BKSupComp . Phạm Quyết Thắng Tích hợp chống lỗi cho hệ BKSupComp Mục lục Lời nói đầu i Mục lục iii Danh mục hình iv Giới thiệu 1 Phân tích môđun chống lỗi 8 Tích hợp phân hệ chống lỗi vào hệ thống tính toán. Tích hợp chống lỗi cho hệ BKSupComp Tích hợp chống lỗi cho hệ thống tính toán song song Đại học BÁCH KHOA Hà Nội Lời nói đầu Giao thức phục hồi lỗi dùng ghi lại thông điệp là giải pháp tốt cho. môi trường chống lỗi khác liên quan tới môi trường chống lỗi này. Và cuối cùng, mục 2.5 tóm tắt chương phân tích về MPICH-V. Tích hợp chống lỗi cho hệ BKSupComp 1.4. Mô hình chống lỗi Hình 2-2

Định dạng
Số trang	87
Dung lượng	721 KB