Kết cụm là một kiến trúc kết nối một số máy dịch vụ cùng với những phần mềm chuyên dụng nhàm đảm bảo nâng cao khả nàng sần sàng cho các hệ thống mạng máy tính nhờ khá năng Ihay thế hay t
Trang 1Chuyên ngành: Công nghệ thông tin
Trang 2Chv 7'v Khoa Cóng nghe Dại học Quốc gia Hà nội
MỰC LỤC
Mỏ d ầ u 1
( hương f Hệ thông sàn sàng cao 3
1.1 Khái niệm về hệ thống sẩn sàng cao (High Availabiỉity) 3
1.1.1 Định nghĩa tính sẵn sàng cao của hệ thống 3
1.1.2 Các mức sẵn sàng cao 3
1.1.3 Quan niệm về hệ sẩn sàng c a o 4
1.2 Các rủi ro và mức độ rủi ro trong một hệ th ống 6
IA Các giải pháp chung đảm bảo tính sẩn sàng c a o 7
1.3.1 Giải pháp phần cứng 7
1.3.2 Giải pháp phán mềm 9
1.3.3 Giái pháp liên quan đến mối trường 10
1.3.4 Giải pháp liên quan đến người dùng 10
1.3.5 Lựa chọn một giải pháp tổng hợp 1 i Chương II Công nghệ kết c u m 12
2 1 Định nghĩa kết cụm (Cluster) 12
2-2 Các lợi ích và hạn chế của sự kết cụ m 13
2.2 ] Lợi ích của sự kết c ụ m 13
2.2.2 Những hạn chế 14
2.3 Kêì cụm nhiều địa điếm và phân tán về địa ỉý 14
2.3.1 Kiểu thiếl kế thực hiện đầy đủ 14
2.3.2 Kiếu thiết kế thực hiện lừng phần 15
2.3.3 Phân bố rải rác các kết cụm 16
2.4 Tổ chức kết c ụ m 16
2.4.1 Trại kết cụm (Clusler Farm) 17
2.4.2 Gói kết cụm (Cluster Pack) 18
2.5 Nguvên [ỷ hoạt động kết cụm ỉ 8 2.6 Các cơ chế thứ lôi (Failover) 2 ỉ 2.7 Nhịp tim (Heartbeat) 27
2.8 Cản hàng tái mạng (Network Load Balancing- N L B) 28
2.9 MC/Service Guard (Kết cụm của H P ) 32
2.9.1 Giới thiệu 32
2.9.2 Đặc điểm và lợi ích của MC/Service G ua r d 33
2.9.3 Khóa kết cụm (Clusier Lock) 34
2.9.4 Nhịp l i m 35
2.9.5 Gói tin (Packaging) 36
2.9.6 NODE Fail F a s t r 36
2.9.7 Các cơ chế thứ lỗi (Failover Policies) 37
2.9.8 Còng cụ MC/Service Guard 38
2.10 SteelEye LifeKeeper (Kết cụm của SteelEye) 39
2.10.1 Giới thiệu 39
2.10.2 Phàn mềm công cụ khói phục ứng d ụ n g 40
2.10.3 Đường truyển thông (Communication Path) 4Ü 2.11 Microsoft Cluster (Kết cụm của Microsoft) 42
2 11.1 Giới thiệu về việc thiết lập Microsoft Cluster 42
2 ] ỉ 2 Đặc điổm Microsoft Cluster 43
Trang 3Chy TV Khoa Cóng nghệ Đại học Quốc gia Hà nội
2.11.3 Các ứng dụng hỗ trợ bởi Microsoft Cluster windows 2000 44
2.11.4 Các máy dịch vụ ả o 45
2.12 Kết luận 46
2.12.1 MC/Service G u ard 47
2.12.2 LifeKeeper 47
2.12.3 Microsoft Cluster 48
Chương III C ông nghệ lưu tr ữ và khôi phục dữ liệ u 50
3 1 'l ổng q u a n 50
3.2 Mô hình lưu trữ dữ liệu 50
3.2.1 Kho lưu trữ kết nối trực tiếp (Direct Attach Storage- DAS) 50
3.2.2 Kho hru trừ kết nối qua mạng (Network Attach Storage-N A S) 51
3.2.3 Kho lưu trữ mạng (Storage Area Networks-SAN) 52
3.3 Lưu trữ ảo 53
3.4 Sao lưu không có thời gian chết (Zero downtime Backup - ZDB) 55
3.5 Côna nghệ kênh sợi quang (Fible Channel-FC) 57
3.6 Công nghẹ R A ID 58
3.7 Quản trị lưu tr ữ 61
Chương IV T hiết kê hệ thông sẵn sàng cao, m ạng ISP V iete l 63
4 1 Giới thiệu mạng Viên thông quân đội V ietel 63
4.2 Hiện trạng mạng ISP V ietel 64
4.2 [ Các thành phán trong mạng ISP của V ieteỉ 64
4.2.2 Mô tả chi tiết hệ th ố n g 67
4.2.3 Dự phòng và khôi phục dữ liệu 68
4.2.4 Các hệ Quản trị m ạng 70
4.3 Mạng có lính sẩn sàng cao 71
4.3.1 Dự phòng bộ định tuyến 72
4.3.2 Dự phòng NSÕOO 73
4.3.3 Dự phòng S w itch 73
4.3.4 Môi (rường kết cụ m 74
4.4 Các vấn đề cần giải quyết để nâng cao tính sẵn sàng mạng ISP Vieteỉ 74
4.5 Thiết kế và các giải p h á p 76
4.5.1 Giái pháp cho bộ định tuyến (Cisco Router 2600) 76
4.5.2 Giải pháp cho N S-500 79
4.5.3 Giải pháp cho Cisco Switch 6500 80
4.5.4 Giải pháp kết cụm 81
4 5.4.1 MC/Service G uard 81
4.5.4.2 LifeKeeper 84
4.5.5 Giải pháp Primary và Secondary 85
4.5.6 Giái pháp nguồn cung cấp đ iện 85
4.5.7 Xâv dựng hẹ thống kết cụm cho dịch vụ M a il 86
4.6 Kịch bán kiếm tra hệ thống trong mồi trường kết cụm MC/ServiceGuard 94
Kết luận 97
Tài liệu tham k h ả o 98
Trang 4TtrVIÉT TÄT
AAA Authentication, Authorization, and Accounting
LDAP Lightweight Directory Access Protocol
RAID Redundant Array o f I n d e p e n d e n t Disk
Trang 5Ch V Ty Khoa Công nghệ Đại học Quốc ỊỊÌa Hà nội
MỞ ĐẨU
Với n ế n kinh tế to àn c ấ u d a n g phát triển, c á c C ô n g ty với q u y m ô trên loàn Ihế giới
đà và đ a n g đ u a c ô n g n g h ệ t h ô n g tin vào c á c ứng d ụ n g thực tế T h ư ơ n g m ại đ iệ n tứ đã tạo
d iều k iệ n d ế m ọ i người c ó Ihê’ tiến h à n h kinh d o a n h 2 4 g iờ m ộ t n g à y , 7 n gà y m ột tuần
N h ữ n g ứng d ụ n g m ới c ó thể c h o phép tiến h à n h tin h ọ c h o á c á c h o ạ t đ ộ n g h à n g ng à y c ủ a
m ình với m ứ c đ ộ c a o n h ấ t từ x ư a đến nay.
X u h ư ớ n g n h ư v ậy đ ã rõ ràng, tất c ả c h ú n g ta đ ề u c ầ n phải d ự a vào m ộ t hệ thống ổn
đ ịnh đô có t h ể tru y c ậ p bất c ứ lúc nào c h ín h nhu c ầ u n à v là m tă n g đ á n g kể tính sẩ n sà n g
p h á p sẩn s à n g tíc h hợp.
M ạ n g c u n g c ấ p d ị c h v ụ Iniernei (ISP) c ủ a c ô n g ty V i ễ n t h ô n g q u â n đội là m ột iroim s ố m ạ n g ISP V iệ i N a m vừa xây d ự n g đ ể ph ụ c vụ k h á c h h à n g c ó n h u c ầ u kết nối Internet M ạ n g c ó đ ư ờ n g kế t n ố i qu ố c lế 2M B , và s ắ p tới sẽ t ă n g t h ê m m ột s ố đ ư ờ n g kết nối ra q u ố c t ế với đ ư ờ n g t r u y ề n lốc độ cao Đ ể đ á p ứ n g tốt c á c d ịc h vụ k h ô n g bị g iá n đoạn
c h o các k h á c h h à n g n h ư là c á c d o a n h n g h iệ p và c á c c ơ q u a n c h ứ c n ă n g với nhu càu trao dổi t h õ n g lin liên tục c ầ n có m ộ t giải p h á p đổ tăn g đ ộ sẩ n s à n g , đ ả m b ả o hệ ih ố n g vận
h à n h với thời g ia n n g ừ n g h o ạ t đ ộ n g là n h ỏ nhất H iệ n nay, m ạ n g I S P c ô n g ty viễn thông
q u á n đội đã thực h iệ n giái p h á p dự p h ò n g b ằ n g c á c h m u a t h é m m ộ t s ố thiết bị phụ để
p h ò n g n g ừ a tro n g trư ờ n g h ợ p p h ấ n c ứ n g bị hỏng G iải ph á p n h ư vậy c h í là tạm thời, nó
c h ư a đ á p ứ n g đ ư ợ c đ ầ y di) c á c n h u cầu c ú a các k h á c h hàng, vì m ộ t sô' lỗi c h ư a the k h á c
Trang 6Chy Ty Khoa Công nghệ Đợi học Quốc ỊỊÌa Hà nội
phục dược như lỗi phần mềm và ihậm chí cần phải cấu hình lại hệ thống sau mội số lần thất hại cho nên cán có mội giái pháp mới tối ưu hơn với thời gian khôi phục rất nhỏ Với những lý do irén mà dề tài cua luận văn dược chọn là “ Các giải pháp nâng cao tính sẵn sàng hộ thống mạng, Mạng ISP của công ty viễn thống quân đội Vietel”
Mục tiêu của đề tài là nghiên cứu tổng hợp những vản đề chung nhất vé một hệ ỉhôiig san sàng cao những giài pháp công nghệ chúng đang được sử dụng trên thực tẽ và vận dụng nó để phân tích, để xuất các giải pháp nâng cao tính sẵn sàng cao của hệ thống mạng ISP của công ty viễn thống quân đội
Nội dung của luận văn bao gồm:
r Chương 1: Hệ thống sẩn sàng cao, mô tả các khái niệm về một hệ thống tin có tính sẩn sàng cao, phân tích các rủi ro có Ihể xây ra cho nó và các công việc cần thực hiện để nâng cao tính sẵn sàng cúa hệ thống
r Chương 2: Công nghệ kết cụm mô tả Công nghệ kết cụm bao gổm: nguyên lý hoạt động, cách thức tổ chức Cluster và một sô cồng cụ iiên quan tới giải pháp Cluster như MC/Service Guard, LifeKeeper Microsoft Clustering
r Chương 3: Công nghệ lưu trữ và khôi phục dữ liệu, m õ tả công nghệ lưu trữ và khói phục dữ liệu bao gồm mô hình lưu irữ, cách khôi phục và sao chép dữ liệu cùng với việc quản trị lưu trữ dữ liệu
r Chương 4: Thiết kế hổ thống sẵn sàng cao mạng 1SP Vieteí mô tả việc phân tích hiện trạng Mạng 1SP cổng ty viễn thông quàn đội Vietel và xây dựng giải pháp
có độ sẵn sàng cao cho mạng ISP này
r- Kếi luận
Trang 7City Ty Khoa Công nghệ Đại học Quốc gia Hà nội
CHƯƠNG I
HỆ THỐNG SẴN SÀNG CAO 1.1 Khái niệm về hệ thống sẳn sàng cao (High Availability)
1.1.1 Định nghĩa tính sân sàng cao của hệ thống
Tính sẩn sàng cao cùa hệ thống được hiểu là khá nàng hoạt động của một hệ thống Irựe tuyốn và sẩn sàng đáp ứng nhu cầu khách hàng ở mọi thời điếm Có rất nhiều nhân tố làm cho hệ thống ngìmg hoại động không thể đáp ứng được yêu cầu của khách hàng trong
đó bao gôm cá thời gian cần để bảo trì hệ thống Mục đích của các giải pháp tính sẩn sàng cao là hạn chế tối thiểu việc ngừng hoạt động và sự khôi phục hệ thống một cách nhanh chónạ khi có sự cô' xẩy ra
Tính sẵn sàng cao không phái là một công nghệ riêng biệt hoặc ỉà một đặc trưng rõ ràng cua hệ ihống Đúng hơn, tính sẵn sàng cao là khả năng để đạt được mục tiêu và mang nhiều ý nghĩa cụ thể tuỳ theo nhu cầu đặt ra Để đạt được mục tiêu chiến lược này có rất
nhicu chiến lược còng nghệ và dịch vụ đã được dùng và mỗi công nghệ hay dịch vụ lại hướnạ đốn đặt một mục tiêu cụ thế [18]
1.1.2 Các mức sản sàng cao
Trong một phạm vi nào đó tính sẩn sàng caơ chỉ đơn giản mang ý nghĩa khôi phục một thám hoa và đưa tổ chức trở lại hoạt động bình thường của hệ thống một cách nhanh chóng Với những hệ thống nhỏ thì nó có thể chỉ đơn gián là có một hệ thống điện và cônơ nghệ lưu Irữ dừ liệu được bảo vệ an toàn không bị ngắt kỹ thuật Với một phạm vi rộng hưn Ihì tính sẩn sàng cao là hệ thông có thể sần sàng làm việc liên tục đáp ứng mọi nhu cẩu cùa khách hàng với cường độ, tẩn xuất và khối lượng khác nhau Ví du như công nghệ chia sẻ một khối ìượng lớn cống việc đế tiến hành ở nhiều nơi, đám bão tính trong suốt đối với khách hàng khi sử dụng các dữ liệu được phân bổ ở nhiều nơi với khoảng cách lớn thì khách hànạ cám nhận như sử dụng các dữ liệu tại chồ Cho nên, có thể nói rầng, có rấí
Trang 8Chy Tv Khoa Công nghệ Đại học Quốc gia Hà nội
nhicu m ứ c đ ộ tính sầ n s à n g c a o k h á c nhau n ằ m giữa hai m ự c đ ộ tối thiổu và lối đ a được đé
c ậ p tiến, i 18 1
Người ta chia mức độ sần sàng trung bình theo các mức độ sau:
Sán sà n g Mực độ sẵn sàng Thời gian ngừng hoạt động/năm: Sần s à n g liên lục
Như vậv chúng ta có thể nâng cao mức độ sẩn sàng bàng cách giám thời gian ngừng hoạt dộng cứa hệ thống và thời gian khôi phục lỗi khi hệ thống gặp sự cô [27]
1.1.3 Q u a n niệm về hệ s ả n sàng cao
> Q u a n niệm đơn t h u ầ n về kỹ th u ậ t
Khổng có một giải pháp nào là đưn giản, dể dàng và rẻ tiền cho tính sẵn sàng cao Bấi kv giái pháp nào cũng phải đâm báo cân đối giữa nhu cẩu thực tế và tính kinh tế cùanó.
Trang 9( 'hy Ị y Khoa CônỊị nghệ tìại học Quốc gia Hà nội
Xu hướng của chúng ta là lập hựp những thành phần quan trọng khác nhau về phấn cứng, phần mềm, các tiến trình của những hệ thống độc lập để tạo thành một hệ thống phối hợp dế cổ thế quán lý một cách tập trung Cụ ihể hơn là, tập hợp những thành phổn có mõi quan hệ phụ thuộc lẫn nhau cua hệ thống phức lạp ihành một hệ thống tổng thể để (láp ứng đirợc các yêu cầu đặt ra
Một hệ ihống phối hợp ihường dược cấu hình và đo đạc bởi một trung tâm máy dịch vụ và Irung tâm mạng
Trung tâm máy dịch vụ ỉà tập hợp các máy dịch vụ được kết cụm với tính sẵn sàng CỈU» do bàng phần trảm thời gian dịch vụ trực tuyến mà các khách hàng ở bất cứ nơi nào trong miền cúa hệ thống đều có thế truy cập được
Trung tàm mạng dựa vào mỏt kiến trúc phân tán Tính sẵn sàng đo bằng phần trăm thời gian dịch vụ trực tuyến tại mức người dùng cuối cùng
Giải pháp nâng cao tính sẩn sàng thường tập trung vào hai mặt là: ngăn ngừa và tránh những sự cố của tất cả các vấn đề có thể làm cho hệ thống bị gián đoạn việc cung cấp dịch vụ Thèm vào đó, cần tập trung vào việc phục hổi nhanh và hạn chế mọi xung đột
mà có thể xay ra làm cho hệ thống ngừng hoạt động
> Q u a n niệ m k in h té kỹ th u ậ t
Thực hiện cách tiếp cận tiên tiến đòi hỏi không những phải lựa chọn thiết bị phần cứng tốt đổng bộ mà còn biết iựa chọn dịch vụ phần mềm và tổ chức quản lý chúng để có thế đạt dược một giải pháp toàn bộ hiệu quả
Sự cần thiết của một dịch vụ phẩn mềm bổ sung cho CO' sở hạ tầng là một điểm rất quan trọng Tính sẩn sàng cao không chỉ là việc đạt được thông qua các giải pháp kỹ thuậl mặc dù công nghệ là một phán quan trọng trong bất kỳ giải pháp nào Việc mua thiếl bị và công nghệ với một giá cao tính chịu lồi cao, trạng thái của một hệ thống nghệ ihuậi không phái lúc nào cũng cần thiết Điều đó có nghĩa là, việc kinh doanh cần đặt
Trang 10Chy Ty Khoa Công nghệ Đại học Quốc gia Hà nội
được mức: độ của tính sẩn sàng mong muốn chỉ với những cồng nghệ có dịch vụ 1 hích hợp, vói SƯ quán trị, sự hổ trợ phòng ngừa rủi ro, quản lý và đặt kế hoạch khôi phục đúng đắn
Bái kỳ một giải pháp sẩn sàng cao nào đểu cần đến một sự hiểu biết thấu đáo về hệ thống và có một kê hạch xát xao Tính sắn sàng của hệ thống phải được đánh giá, đo đạc
bổ cứu, phòng ngừa và những k ế hoạch điểu khiển hoạt động của hệ thống một cách thích hựp Tính chuvẻn môn cao là một yêu cầu cho một giải pháp đạt hiệu quả cao [18]
1.2 Các rủi ro và mức độ rủ i ro trong một hệ thông
Qua các nghiên cứu cho thấy, nguyên nhân chính làm cho nhiều hệ thống bị trục trặc, sụp đổ có nguồn gốc từ: phần mềm, phần cứng, người dùng và mói trường
r Lỏi plúỉn cứng: Phần cứng ihường là nguyên nhản chính dẫn tới hệ (hống bị lỗi Theo thống kê cho thấy 39% trường họp đều liên quan tới phần cứng, trong đó lỗi do thiết bị lưu trữ là 5.1,7%, bộ nhớ là 23%, các bảng mạch 16,7%, bộ xử lý 2,9% và nguồn điện là 5,7% Những lỗi này là hậu quả của quá trình sản xuất bao gổm các công nghệ sán xuất và sự quản lý nó Ngày nay, rất nhiều nhà sản xuất đã không ngừng cái tiến công nghệ và tổ chức quản lv để xây dựng các ihiồì bị phần cứng với độ tin cậy cao Các thiết bị phàn cứng ngày càng có nhiều tính năng và sức mạnh lớn hơn với độ tin cậy cao hơn Ngoài các lỏi do bản thân thiết bị, lỗi phân cứng còn xảy ra ở khâu kết nối như cáp, các card mạng,
bộ chuyển mạch.v.v
r Lồi phán mềm: Lỗi phần mềm tồn tại như một sự tất yếu Nhất là việc xuất hiện các phiên bản phần mềm mới càng ngày càng gia tăng khả năng lỗi đi kèm theo phần mém đó Theo thống kê cho thấy, lỗi ph-ần mềm chiếm 31% tổng số lỗi Trong đó, do hệ điểu hành là 61,7% và các ứng dụng là 39,3% Cũng như đối với lỗi phần cứng, các nhà sản xuất phần mềm thường xuyên hoàn thiện và sử
d ụ n s cổng nghệ mới (hướng đối tượng), tăng cường quá trình tự động hóa việc sán xuất phần mém sử dụng Ihành phần dùng lại để giảm thiểu lỗi phần mềm
Trang 11Chv Ty Khoa Cóng nghệ Đại học Quốc gia Hà nội
r Lồi môi n ư<'ỉng\ Môi trường mà trong đó hệ thống hoạt động có thể có nhiều sự
cố chủ quan đưa lại Nó bao gồm sự mất nguồn điện và thảm hoạ môi trường như cháy, khủng bố, lũ lụt, động đất.v.v Theo thống kê, lỗi do mỏi trườngchiếm 12%
r' Lồ i người dùng: Theo thống kê cho thấy, 18% lỗi do người dùng gây ra, trong
đó 66,6% là (io người điều khiển Nguyên nhân dẫn đến lỗi người dùng có thể chương trình khổng tiện dùng, do trình độ thành thạo của người dùng còn hạn chế Vì vậy, có thể giảm lỗi người dùng bàng một số phương pháp như tăng cường đào tạo, phần mểm dễ sử dụng và tổ chức quản lý tập trung [12]
Hình U Biếu dồ mức lỗi trung bình các Ị oại tron ọ một hệ thống
1.3 Các giải pháp chung đảm bào tính sản sàng cao
Trang 12Chy Ty Khoa Còng nghệ Đoi hoc Quốc gia Hà nội
T r o n g m ột hệ s ẩ n s à n g c a o cần c ó giải p h á p c h o c á c vấn để x ẩ y ra khi m áy k h á c h Iruy c ậ p c á c đ ịc h vụ từ m á y d ị c h vụ q u a m ạn g T a c ó thế loại b ỏ lỗi đ ơ n k h â u kết nối b ằ n g
c á c h d ự p h ò n g c á c th à n h phần kết nối n h ư s ử d ụ n g n h iề u c a rd m ạ n g H u b , Switch, R o u te r
v à C áp, v.v từ đ ó m ộ t hệ t h ô n g c ó thể c h u y ể n tới m ộ t ca rd d ự p h ò n g m à k h ô n g án h h ư ớ n g đón sự ạián đ o ạ n tro n g việc kết nối bời m á y khách.
r Sử dụng còng nghệ kết cụm đê han chê tói đa sự ngừng hoạt động dịch vụ
Đ ê hạn c h ế lối đ a sự n g ừ n g trễ sự hoạt đ ộ n g c ủ a d ịc h vụ ta c ó thể tra n g bị hai hoặc
n h iề u m á y d ịc h vụ k ế t nối với nhau tro n g m ộ t m ôi trư ờ n g kết c ụ m thực hiện m ột hay
n h iê u c ô n ẹ việc k h á c n h a u , tro n g trường h ọ p m ộ t d ịch vụ h a y m á y d ịc h vụ bị h ỏ n g các
d ị c h vụ đ ó sẽ c h u y ể n s a n g m á y d ịch vụ k h á c tro n g m ô i trư ờ n g k ế t c ụ m đ ó với thời gian
n g ừ n g chi vài giây.
C ó rất n h iều c ô n g n g h ệ kết c ụ m đ ã phát triển đ ể h ạ n c h ế tối đ a s ự n g ừ n g trễ cúa hệ
t h ố n g Cáo c ô n g n g h ệ đ ó đ ã đ ư ợ c thiết k ế c h o từ ng d ịc h vụ và đối với m ỗi hệ đ iều h à n h
n hất đ ịn h C ô n g n g h ệ kế t c ụ m đ ư ợ c xem là giải p h á p c h ủ y ếu đ ể đ ả m b ả o tính sẩn sàng
c a o c u a to àn hệ Ihống.
r Công nghệ lưu trữ và bảo vệ dữ liệu
T ín h s ẩ n s à n g c a o liên q u a n đ ế n việc truy c ậ p d ừ liệu với thiết bị lưu trữ V iệc thiết
k ế kết hợ p p h ầ n c ứ n g b ằ n g c ô n g n g h ệ R A I D ( R e d u n d a n t A r r a y o f I n e x p e n s iv e D isk) với
v iệ c sir d ụ n g phấn m ề m b ản s a o d ữ liệu là r ấ t c ầ n thiết Đ ể đ ạ t đ ư ợ c m ụ c đ ích tính sẵn sàn g c a o và hiệu suấ t c a o thì việc thiết k ế n ê n c ó n h iề u b ộ đ iề u k h i ể n thiết bị lưu trữ c ù n g với d ư ờ n g dẫ n và c á p d ự p h ò n g tới thiết bị lưu trữ.
N h ữ n g c â u hỏi s a u đ á y liê n q u a n tới s ự b ả o vệ d ữ liệu
• C ó c ầ n khôi p h ụ c d ữ liệu trực tu y ế n k h ô n g ?
• C ó đ ễ d à n g t h a y đổi m ột ổ đĩa bị h ỏ n g k h ô n g ?
• C ó c ầ n th iế t phối hợ p c ác m ức R A I D và lă n g k h ả n ă n g thực hiện?
Trang 13Ch V Tv Khoa Cóng nghệ Đại hoc Quốc gia Hà nội
r Dự phòng các thiết bị phần cứng cho thay thế
Đe nâng cao tính sẵn sàng của hệ thống thì cần phải dự phòng một số thiết bị cần thiol dê đám báo kịp thời trong việc thay thế thiết bị đã bị hỏng khi sự cố phẩn cứng xẩy
ra Khi dự phòng cho ihay thế cần tính đốn xác xuất thống k ế về sự hư hỏng mồi loại thiết bị
'r- Quản lý, dụ báo và báo cáo tình trạng phản cứng hệ thông
Để nâng cao tính sẩn sàng của hộ thống cần phải nói đến việc dự đoán rúi ro để báo
vệ và lập báo cáo về hiện trạng của hệ íhống Trên cơ sở đó ta có thế ngăn ngừa các rủi ro
và sứm đưa ra giải pháp khác phục sự cố Cho nên, cần có phẩn mềm giúp cho người quán trị như giám sái các tài nguyên của hệ thống, giám sáĩ các yêu cầu của người dùne, kiểm tra lình trạng của tài nguyên và gứi thông điệp kịp thời mỗi khi gặp sự cố, đặc biệt ưưừng hợp khàn cấp
Phần m ềm Event Monitoring Service (EMS) của HP hồ trợ việc nâng cao tính sẩn sàng cao của hệ thống Nó có ihể báo cáo khi mất (hỏng) lài nguyên N ó có thể nhận ra và báo cáo khi lỗi (lơn có thế xây ra, giúp cho người quản trị hành động trước sự kiện xảy ra
dè bào vệ sự mất mái thòng tin và nâng cao tính sẵn sàng cao
1.3.2 ( ỉ ỉ a ỉ p háp phần mểm
Tính sán sàng của hệ thống có thể được bảo đảm bằng các phầm mềm
ứng dụng hoạt động tốt tránh bị lỗi Cho nền, để nâng cao các ứng dựng họat động tốt và
Trang 14Chy T ỵ Khoa Công nghệ Đại học Quốc gia Hà nội
• C ác hệ q u ả n trị c ơ s ơ d ữ liệu: Hệ q u ả n trị c ơ s ả d ữ liệ u phái c ó k h ả n ă n g
p h ụ c hổi và s a o lưu d ữ liệu c ù n g với việc ph à n tán d ữ liệu đế n â ng caơ tính sẩn s à n g c a o c ù a d ịc h vụ K h ô n g n h ữ n g c ó c á c tín h n ằ n g trên, m à m ột h ệ
q u á n trị c ơ s ờ d ữ liệu c ò n c ầ n phải tin cậy, ít lỗi, dễ d ứ d u n g v à đ ễ q u á n trị.
1.3.3 Giải p h á p Hên q u a n đến mỏi trư ờ n g
Đ ế p h ò n g c h ố n g hệ t h ố n g k h ỏ i s ự c ố và n â n g c a o tính sẵn s à n g có thể thực h iệ n bănụ c á c h sử cỉụng n h iều địa đ i ể m vật lý (m u ltip le p h y sic a l sites) K iế n trúc nhiều đ ịa diêm (m u lti-siie a rc h ite c tu r e ) c ó thể đượ c thiết k ế th eo rất n h iề u c á c h k h á c nhau, tro n g đ ó phổ biên nhất là c ó site g ốc ( p rim a r y site) và m ộ t h a y vài s ite ở xa ( re m o te site) để trá n h khỏi những th a m h ọ a d o m ôi trư ờ n g n h ư b ão, lũ lụt, c h á y v.v.
Đối với n g u ồ n đ i ệ n thì n ê n sứ d ụ n g hai n g u ồ n c u n g c ấ p đ iệ n cho hệ th ố n g , b ao gốm d ư ờ n g c u n g c ấ p đ iện và th iế t bị lưu đ iệ n (UPS) N ế u m ộ t n g u ồ n đ i ệ n bị m ất thì m ạc h diện sẽ c h u y ể n s a n g m ột n g u ồ n k h á c m à k h ô n g làm c h o hệ t h ố n g bị n g ắ t.
Đ ể đạt đ ư ợ c m ộ t m ứ c đ ộ tính sẵn s à n g c a o c ủ a n g u ồ n đ iệ n tr o n g trường h ợ p m ấ t điện Ihì nên sử d ụ n g thiêì bị lưu đ iện riêng biệt c ho m ỗ i m á y d ịc h vụ và c h o các thiết bị
Trang 15Chy Ty Khoa Cong nghé Đại học Quôc gia Hà nội
1.3.5 Lựa c họn m ộ t giải p h á p tổng hựp
Đế có dược một giải pháp thích hợp đáp ứng nhu cầu tính sẩn sàng của hệ thống thì cán tợp hợp rất nhiều giải pháp khác nhau, từ đó xem xét và lựa chọn các phương án thích hợp đáp ứng các nhu cầu đặt ra tùy {heo hoàn cảnh, đảm báo tính kinh tế và tính kỹ thuật
Trang 16Chy Ty Khoa Cóng nghệ Đại học Quốc gia Hà nội
CHƯƠNG I I CÔNG NGHỆ KẾT CỤM 2.1 Địnli nghĩa kết cụm (Cluster)
Trong mỏi mạng máy tính của một cơ quan hay một cơ sở kinh doanh lớn các dừ liệu cần thiết để hoạt động đéu được lưu giữ trên các máy dịch vụ Người dùng cuối liên tục truy cập các dữ liệu này để phục VỌI cho công việc của mình Điều này yêu cầu hệ Ihôny mạng phải đám bảo luôn sắn sàng phục vụ người sử dụng Trong thực tế mặc dù các hãng sán xuất đã cố gắng làm mọi cách để nâng cao chất lượng của hệ thống máy tính, nhưng cũng như tất cả các phương tiện kỹ thuật khác, việc xảy ra sự cô' là vấn đề không bao giờ tránh khói của hệ thống mạng BỞI vậy, vấn đề quan trọng đặt ra là làm thế nào để cho các dữ liệu luôn luôn sẵn sàng để cho người dùng truy cập, ngay cả khi có sự
cỏ xay ra Kết cụm là một giải pháp mà các hãng sản xuất máy tính đưa ra để giải quyết vấn đế này
Kết cụm là một kiến trúc kết nối một số máy dịch vụ cùng với những phần mềm chuyên dụng nhàm đảm bảo nâng cao khả nàng sần sàng cho các hệ thống mạng máy tính nhờ khá năng Ihay thế hay thứ lỗi khi gặp lỗi của cả hệ thống Kiến trúc này được thiết kế sao cho hệ ihống vẫn hoạt động bình thường khi có một sự cô' nào đó xảy ra ở một máy dịch vụ đang làm việc Sự kết cụm cho phép sử dụng một số máy dịch vụ kết nối với nhau tạo thành một cụm có khá năng khắc phục hay thứ lỗi nhằm nâng cao độ sẵn sàng của hệ thống mạng Nếu một máy dịch vụ ngừng hoạt động do bị sự cố hoặc để nâng cấp, bảo trì v.v thì toàn bộ công việc mà máy dịch vụ này đảm nhân sẽ được tự động chuyển sang cho một máv dịch vụ khác (trong cùng một kết cụm) mà không làm cho hệ thống bị ngắt hay gián đoạn Quá trình này gọi là quá trình thứ lỗi và việc phục hồi tài nguyên trở lại máy dịch vụ cũ được gọi là phục hổi lại “fail-back”
Mỗi nhà sán xuất có một chiến lược và công nghệ riêng cho việc thiết kế hệ kết cụm Ví dụ như một giải pháp đơn giản của HP là kết hợp các kỹ thuật chịu đựng sai sót nhỏ bao aổm các việc bố trí bộ nguồn điện dự phòng và có độ an toàn cao, cộng với các ổ dìu RAIDv.v [1J
Trang 17Chy Ty Khoa Cõng nghệ Đại học Quốc gia Hà nội
2.2 Các lựi ích và hạn chê của sự kết cụm
2.2.1 Lọi ích của s ụ kết cụm
Việc, kêì c ụ m đ ư ợ c s ử d ụ n g đ ể p h ụ c vụ c h o ba vấn đ ề c ơ b ản sau:
r- Yéu cầu về tính sần sàng cao (Availability)
T ín h sẩn s à n g c a o ở đ â y m u ố n để c ậ p đ ế n việc c u n g c ấ p c h o ngư ờ i d ù n g c u ố i k h á
n â n g c a o nhái đ ể tru y c ậ p đ ế n c á c d ữ liệu h a y d ịc h vụ m ạ n g và g iả m thiểu sự n g ìm g hoạt
đ ộ n g ngoài ý m u ố n G iải p h á p đ ư a ra c ẩ n đ á p ứng đượ c nhu c ầ u hoạt đ ộ n g của c ơ quan.
r Yéu cầu vê độ tin cậy cao của hệ thông (Reliability)
Đ ộ tin c ậ y c a o đượ c hiểu là k h ả n â n g giảm thiểu tần x u ấ t x ả y r a cá c s ự cố và n â n g
c a o khá n ă n g c h ịu đ ự n g sai sót c ủ a hệ Ihống M ộ t giải p h á p đ ư ợ c coi là c ó đ ộ tin cậy c a o nếu nó giám thiểu đư ợ c s ố c á c s ự c ố r iê n g rẽ x ả y ra c ũ n g n h ư s ự ả nh h ư ở n g c ủ a c ấ c sự c ố này đ ế n c á c dịch vụ m à hệ t h ố n g c u n g cấp N gư ờ i ta n á n g c a o đ ộ tin c ậ y của hệ thông dự a vào c á c kỷ thuật n h ư d ự p h ò n g , t h ứ lỗi, c ũ n g n h ư c á c p h ầ m m ề m ứng d ụ n g K h ả n ă n g c hịu
đ ự n g sai sót phái đượ c hiểu là k h á nồng p h á t h iệ n đượ c lỗi, n h ư n g k h ô n g làm cho hệ t h ố n g
bị ngừng hoại đ ộ n g d o c ơ c h ế đ ể xứ lý lỗi.
r Yêu cẩu vê khả năng mở rộng được (Scalablility)
Khả n ă n g c ó th ể c ả i t h iệ n h o ạ t đ ộ n g c ủ a hệ t h ố n g b ằ n g c á c h tra ng bị th ê m tài
n g u y ê n hay m á y tính c h o hệ t h ô n g đ ó đượ c g ọ i là k h á n ă n g m ở r ộ n g đượ c Các hẹ th ố n g riê ng rẽ c ó thể đ ư ợ c m ở r ộ n g b ằ n g c á c h th êm c á c tài n g u y ê n ( n h ư C P U s , bộ nhớ, ỏ đĩa)
C á c dịch vụ c ũ n g c ó thể đư ợ c m ở r ộ n g b ằ n g c á c h th ê m c á c thiết bị v à o hệ th ố n g đ ể tả n g
k h ả nă n g làm d ịc h v ụ c ủ a hệ t h ố n g c ả về q u i m ô và c hất lượng.
Trang 18Ch V Tv Khoa Công nghệ Đại học Quốc gia Hà nội
Mọt dịch vụ mạng được thiết k ế tốt thường sử dụng kỹ thuậi hệ thống và ihành phan du ihừa để dự phòng các sự cố làm ảnh hưởng đến sự sẩn sàng của toàn bộ dịch vụ dó
Ba yêu cầu trên còn được gọi tắt là RAS (Reliability-Availability-Scalability) cũng như những hệ thống đáp ứng dược ba yêu cầu trên còn được gọi là hệ thống RAS [1]
cơ sử dữ liệu được báo vệ chác chắn cũng như có các kế hoạch khõi phục, sao lưu dữ liệu
2.3 Kết cụm nhiều địa điểm và phân tán về địa lý
Hầu hêi các doanh nghiệp đều xây dựng hệ ihống phòng chổng sự cố và nâng cao tính sần sàng bằng cách sử dụng nhiều địa điểm vật lý (multiple physical sites) Kiến trúc nhiều địa điểm (multi-site architecture) có thể được thiết k ế theo rất nhiều cách khác nhau, trong đó phổ biên nhất là có địa điểm chính (primary site) và một hay vài địa điểm ở xa (remote sile) Hình 2 1 trình bày một ví dụ về một địa điểm chính và một địa điểm ở xa cho mội lổ chức (hương mại điện tứ
2.3.1 Kiểu thiết kè th ự c hiện đày đủ
Với kiểu thiết kế đầy đủ toàn bộ cấu trúc của địa điểm chính được xây dựng lại đáv ctú ở các địa điếm ở xa Điều này cho phép địa điểm ở xa hoạt động độc lập hay xử iỷ toàn bộ khối lượng công việc của địa điểm chính nếu cần Trong trường họp này, việc thiết
kế phải đảm báo sao cho cơ sớ dữ liệu và các ứng dụng phải đổng bộ và được sao lặp ỉại ngay lập tức hay dược sao lặp ở chê độ thời gian thực (real-time replication)
Trang 19Chy Ty Khoa Công nghệ Đại học Quốc gia Hà nội
Sự sao lặp ở chế độ thời gian thực đám bảo một trạng thái ổn định cho dữ liệu và các ứng dụng dịch vụ giữa các địa điểm Trong trường hợp không thổ thực hiện việc cập nhật theo Ihời gian thực như nêu trên thì cơ sờ dữ liệu và ứng dụng phái được cập nhật càn« sớm càng tốt
H O i.tí 1f: Yi)
Hình 2.1
2.3.2 Kiêu thiết kế thực hiện từng phần
Với kiổu thiết kế thực hiện từng phẩn thì chi có các thành phần cơ bản là dược cài đãi ỏ'các dia điếm ờ xa nhằm:
Xử lý các khối lượng cổng việc quá tải trong các giờ cao điểm
Trang 20ChV Ty Khoa Còng nghệ Đai học Quốc gia Hà nội
r Duv trì hoạt động ờ mức cơ bản Irong trường hợp địa điếm chính bị sự cố
^ Cung cấp một số dịch vụ hạn chế nêu cần
2.3.3 Phân bô rải rác các kết cụm
Cá kiểu thiết kế đầy đú hay từng phần đều dùng phương cách phân tán các máy dịch vụ trong kết cụtn nẳm rải rác về mặt địa lý (geographically dispersed) Kết cụm phân tán về địa lý sử dụng mạng LAN ảo (VLAN) để kết nối các mạng khu vực lưu trữ SAN (storage area network) qua những khoảng cách lớn Một kết nối mạng LAN ảo với độ trễ vào khoáng dưới 500 ms dám báo ràng sự kết cụm có thể duy trì được
Việc mở lộng các kho lưu trữ, nếu có, sẽ được xử lý bang các phán cứng, còn sự kết cụm sỗ không quán lý việc thực hiện các công việc này Việc hóng hóc xảy ra (bao gồm
cá việc hỏng kho lưu trữ gốc) cẩn được can thiệp bằng thủ công để duy trì chức năng sự kết cụm
2.4 Tổ chức kết cụm
Kết cụm được tổ chức thành các nhóm gọi là các trại (farm) hay gói (pack) Trong hầu hết các trường hợp, như trình bày ironR hình 2.2, các dịch vụ ỏ tầng trước và giữa dược tổ chức thành các trại sử dụng các clone, trong khi đó các địch vụ tầng sau được tổ chức ihành các gói
Trang 21Ch> Ty Khoa Công nghệ Đại học Quốc gia Hà nội
Hình 2.2 Kết cụm được tổ chức thành các trại và (ỊÓi
2.4.1 Trại kết cụm (Cluster Farm)
Một trại lủ một nhóm các máy dịch vụ chạy các dịch vụ giống nhau và sử dụng dữ liệu gióng nhau, nhưng không dùng chung các dữ liệu. Các trại xử lý bất cứ yêu cầu nào được gửi đến cho chúng với các dữ liệu giống hệt nhau được lưu giữ cục bộ trên chúng
Do các máy dịch vụ sử dụng các bản sao dữ liệu giống hột nhau (chứ không dùng chung một bản dữ liệu), nôn các máy dịch vụ thành viên trong trại có thể làm việc độc lập và chúng cũng được gọi là clone
Một ví dụ về trại là dịch vụ thông tin Internet (Internet Information Services-IIS) chạy ớ trước máy dịch vụ W eb sử dụng cân bẳng tải mạng (Network Load Balancing- NLB) Với một trại máy dịch vụ W eb như thế, các dữ liệu giong hệt nhau được sao lặp lại trong mỗi máy dịch vụ, vì thế nó có thế' xử lý bất cứ yêu cầu nào được gửi đến cho trại.Các máy dịch vụ giống hệt nhau và dữ liêu được sao lặp giống nhau với tất cả các máy dịch vụ trong trại máy dịch vụ W eb cho nên được gọi là clone -
j V * HCC >" ■- H • ■ ■
T R i j N G Í Á M ĩ n n : ? : - ~ •- r i ! ‘J - i ị
Trang 22Chy Ty Khoa Cóng nghệ Đại học Quòc gia Hà nội
2.4.2 (»ỏi kết cụm (Cluster Pack)
Mót Ịịỏì là một nhóm các máy dịch vụ hoạt dộng củng với nhan và chia se vớì nhau các phần dữ liệu. C h ú n g làm v iệc với nhau đ ể q u ả n lv và d u y trì c á c d ịc h vụ C á c th àn h
viên c ủ a ẹ ói làm việc t h e o m ột p h ư ơ n g thức điều h à n h t h ố n g nhất.
M ộ t ví d ụ về gói kết c ụ m là m ộ t kế t c ụ m c á c m á y d ịc h vụ c ơ s ơ d ữ liệu (D a ta b a s e
S erver C luster) c h ạ y S Q L S e rv e r 2 0 0 0 và m ỗ i m áy d ịc h vụ với c á c k h u n g nhìn d ữ liệu
th à n h phẩn (p a rtitio n e d d a ta b a s e view) M ỗi thành viên c ủ a gói n à y c h ia Iihau ra x ứ lý m ộ t
đ o ạ n dữ liệu th a v vì phải x ử lý to à n bộ c ơ s ở d ữ liệu [1]
Vi dụ tro n g b ố n nút S Q L S e rv er kết cụm : c h ú n g đ ư ợ c phân c h ia n h ư sau
r àn g dối với các hệ t h ố n g này m ộ t sự c ố làm hệ t h ố n g n g ừ n g ho ạ t đ ộ n g có thể gây ra h ậu qua k h ô n g thế lư ờ ng được N h ữ n g ứ n g d ụ n g n h ư vậy đ ề u y ê u cầu n h ữ n g hệ t h ố n g m áy tính liên tục hoạt đ ộ n g kể c ả t r o n g trư ờ n g h ợ p x ảy ra s ự c ố vể p h ầ n c ứ n g hoặc p h ầ n m ề m hoặc cả phần c ứ n g và p h ầ n m é m
T rư ớ c đâ y người ta thiết k ế p h ầ n c ứ n g có tính c h ịu đ ự n g lỗi c a o đ ể nâ n g c a o tính sẩn s à n g và đ ộ (in c ậ y c ủ a hệ t h ố n g ví dụ n h ư m á y Stratus, T a n d e n T u y nhiên để th iế t k ế
Trang 23Chv Ty Khoa Cóng nghệ Đại học Quốc gia Hà nội
đ ư ơ c m ội c ô n g n g h ệ n h ư vậ y th ư ờ n g rất đ ắ t tiền Đ ó là m ột k h ổ k h ă n c h o c ác k hách hà n g khí m u ố n s ử đ ụ n ạ c h ú n g
G ầ n đ â y ngư ờ i ta đ ã q u a n tã m tới xâ y d ự n g h ệ t h ố n g có tín h c h ịu lỗi cao b ằ ng
c á c h dự p h ò n g c á c th à n h p h ầ n .sứ d ụ n g c ô n g n g h ệ “ K ết c ụ m ” N h iề u sản p h ẩ m dã được
th ư ơ n a m ại h ó a Iìhư M C /S e rv ic e G u a rd , Life k eeper, M ic r o s o ft C l u s te r Service T r o n g hệ thôntí x â v d ự n g t h e o k iế n trúc n à y , n ếu m ộ t nút bị lỗi tro n g m ộ t h ệ k ế t c ụ m , ứng d ụ n g
đ a n g c h ạ y trên nút đ ó sê đ ư ợ c c h u y ê n s a n g n ú t k h á c n ă m tro n g h ệ kết c ụ m đó Đ à y là m ột
q u á trìn h k h á c p h ụ c lỗi, k h ắ c p h ụ c lỗi c h o p h é p hệ t h ố n g tiếp tục c u n g c ấ p d ịch vụ T u y nhiòn sự thực hiện c ủ a to àn hệ t h ố n g c ó thể g iả m sút.
X â y d ự n g m ộ t hệ tin c ậ y và sẩn sàng th ư ờ n g b a o g ồ m v iệ c d ự p h ò n g thiết bị phần
c ứ n g đổ s ẩ n s à n g th a y t h ế và h ệ t h ô n g c ó thể tiế p lục thực h iện c ô n g việc c ủ a thiết bị bị lỗi N út c h ín h c ủ a kết c ụ m c h ạ v m ột ứ ng d ụ n g , tro n g khi n ú t d ự p h ò n g h o ặ c tro n g c h ế đ ộ
c h ờ đợi h o ặ c c h ạ y m ộ t s ố ứng d ụ n g k h á c N ú t c h ín h trao đ ổ i t h ô n g tin với nút dự p hòng
q u a một m ạ n g , nút d ự p h ò n g v ẫ n truy c ậ p đư ợ c d ữ liệu khi n ú t c h ín h bị lỗi vì d ữ liệu đượ c lưu liê n đ ĩa ngoài d ư ợ c kết nối tới c ả hai nút.
Hình 2.3
M ột c á c h tiêu biểu đ ể th ự c hiện m ột h ệ có đ ộ tin c ậ y và sẵn s à n g là kiểm tra định
kỳ {lữ lịẹu ứng d ụ n g đ ị n h kỳ c ủ a đ ĩa đ ù n g c h u n g Khi nút c h ín h bị lôi, nút d ự p h ò n g sẽ
n ạp lại d ữ liệu tại đ i ể m k i ế m tra trước đ ó từ đ ĩa d ù n g c h u n g r ồ i tiế p l ụ c c h ạ y ứng d ụ n g bắt
đ ầ u từ đ i ể m k iể m tra g ầ n nhất n à y T h ự c h iệ n k iể m trả th ư ờ n g x u y ê n n ó i c h u n g làm tăn g chi phí thời g ia n th a o tá c t h õ n g thườ ng, n h ư n g g iả m thời g i a n k h ắ c p h ụ c lỗi n h ờ hạn c h ế
tối thiếu s ố lượng c ô n g việc p h ả i thực h iệ n lại.
Trang 24Ch y Ty Khoa Công nghệ Đại học Quốc gia Hà nội
Hình 2.4
Q u á trìn h tự đ ộ n g phát h iệ n ra lồi và d ịc h c h u y ể n c ô n g việc tới n ú t d ự p h ò n g tại
đ iế m k iểm tra g ầ n n h ấ t đư ợ c gọi là q u á trìn h k h ắ c p h ụ c lỗi.
T r o n g h ìn h 2 4 m õ tả m ộ t q u á trình k h ắ c p hục lỗi M ộ t c á c h c h u n g n hất đ ể phát hiện lỗi là s ử d ụ n g cơ c h ế “ nhịp tim ” ( h e a rtb e a t) t h e o đ ịn h kỳ M ộ t ứ n g d ụ n g c c hạy trên
m á y d ịc h vụ c h ín h đư ợ c đ ịn h kỳ gửi m ộ t th ô n g b á o tìn h tr ạ n g b ìn h th ư ờ n g c ủ a nó tới m áy
dụ p hò n g , ú n g d ụ n g c đ ư ợ c k iế m tra h à n g m ỗi T g iây tro n g khi c đ a n g c h ạ y và c h o p h é p phát hiện ở thòi đ iể m X m à ứng d ụ n g g ặ p lỗi t r o n g k h o á n g T g iâ y đó Khi m á y d ự p hòng phát hiện ra s ự v ắ n g m ậ t c ủ a t h ô n g tin nhịp tim từ m á y d ịc h vụ c h ín h , đ ầ u tiên nó xác nhận lỗi c ủ a m á y d ịc h vụ c h ín h hởi s ử đ ụ n g cơ c h ế b ỏ p hiếu Khi m ộ t lỗi c ủ a m á y d ịch vụ chính đượ c phát hiện, m á y d ự p h ò n g sẽ tiếp tục hoạt đ ộ n g Đ ầ u tiên n ó tải d ữ liệu c ủ a c từ
d ữ liệu c h ia sỏ và k h ở i đ ộ n g lại c h ư ơ n g trình c c ù n g với trạ n g thái b ắ t đ ầ u từ ihời đ iể m
k iểm tra g ầ n nhấi C u ố i c ù n g m á y d ự p h ò n g làm lại tất c ả s ự tính to á n bắt đ ầ u từ thời đ iể m kiếm tra ũ ần nhất trư ớc khi m á y dịch vụ c h ín h bị lỗi C u ố i c ù n g họ i h ố n g có thể tiếp tục
c ung c ấ p d ịch v ụ c h o k h á c h hàng.
Đ ộ trễ c ú a s ự k h á c p hục lỏi là thước đ o q u a n t r ọ n g c ủ a s ự k h ấ c p h ụ c lỗi c ủ a hệ thông, đ ặ c b iệt c h o n h ữ n g ứng d ụ n g trọ n g yếu Đ ộ trễ k h ắ c ph ụ c lỗi x á c đ ịn h bởi kh o ả n g ihời gian m à d ịc h vụ k h ô n g ho ạ i đ ộ n g Đ ộ trễ k h ắ c p h ụ c lỗi ba o g ổ m thời g ian phát hiện lồi phục hổi trạ n g th á i bộ n h ớ tại thời đ iể m k iể m tra g ầ n n h ấ t và th ự c h iệ n lại việc tính loán từ đ i ể m bị lỗi.
Đ a s ố h ệ í h ố n g kết c ụ m h iệ n tại c ó thời g ia n k h ắ c p h ụ c lỗi h ệ t h ố n g k h á dài (hơn
10 oiâv), c h ủ yế u d o hai lý do: Đ ầ u tiên ứng d ụ n g phải n ạ p d ữ liệu t ừ đ ĩa đ ể khôi phục lại
Trang 25Chy Ty Khoa Công nghệ Đại hạc Quốc gia Hà nội
trạng thái ớ đ i ể m k iể m tra g ần đ â y nhất T h ứ hai, đ a s ố c á c giải p h á p đặt k h o ả n g đ iể m kiếm tra lớn d ầ n tới thời gian c ủ a q u á trinh k h ắ c p h ụ c lỗi thực hiện k é o dài hơn [26]
2.6 Các cơ chê thứ lỗi (Failover )
C o c h ế th ứ lỗi là đ ặ c trư n g của việc triển k h a i c ủ a m ộ t sổ ứ n g d ụ n g c á b iệ t hoặc một s ố phần r iê n g lẻ đế đạt đượ c đ ộ s ẵ n s à n g cao.
T r o n g m ộ t kết c ụ m g ồ m hai nút, việc x á c đ ịn h c ơ c h ế th ứ lỗi ỉà m ộ t c ô n g việc d ơ n
¿ián, n êu m ột núi bị h ỏ n g , m ộ t lựa c h ọ n d u y nhái th iế t lập dể phục h ồ i ho ạ t đ ộ n g ở nút còn lại N h ư n g khi s ố lượ ng nút c ủ a m ột kết c ụ m tãn g lên thì c ó th ể c ó rất n h i ề u p h ư n g á n thứ lỏi k h á c n h a u v à k h á n ă n g n à y có c ác đ ặ c tính k h á c nhau.
r Các cặp thứ lỗi (Failo ver pairs)
T r o n g m ộ t k ế t c ụ m lớn, c á c c ặ p th ứ lỗi c ó thể đ ịn h n g h ĩa m ộ t tậ p c á c c ặ p c ơ c h ế p hục hổi lỏi giữa ha i núi.
Ví d ụ đ ơ n gián m in h h oạ tro n g h ìn h 2.5 dưới đ â y biếu diễn hai ứ n g d ụ n g : ứng d ụ n g mộ! và ứng hai tro n g m ộ l kết c ụ m b ố n nút.
ì 11 me ÊVtìhi or
■ai.iK*ofNơđe 1
Afcv2
Fetou* to ỉtữiẹ
Hình 2.5 C ơ ch ếlliứ lỗi với hai ứng dụng trong một kết cụm bấn nút
Trang 26C'h\' Ty Khoa Cóng nghệ Đại học Quôc gia Hà nội
C ơ ‘hê n à y c ó c á c ưu nhược đ i ế m sau:
• Á p d ụ n g tốt c ho c á c kết c ụ m hỗ trợ c á c ứ n g d ụ n g lớn n h ư c á c c ơ sở d ữ liệu
C ơ c h ế n ày đ ả m b ả o khi c ó m ột s ự cô' x ả y ra, hai ứng d ụ n g sẽ k h ô n g n ằ m
t ro n g m ột nút.
• Dễ d à n g tính d u n g lư ợ ne c ủ a các m á y d ịc h vụ tro n g k ế t c ụ m : D u n g lượng
c ủ a m ỗ i níu là k íc h thước dựa trên ứ n g d ụ n g m à nút đó s ẽ phải đ ả m nhiệm
r Máy dịch vụ dụ phòng (Hot-Standby Server)
N h à m g iá m tổ n g số các c ặ p t h ứ lỗi, m ộ t n ú t d ự p h ò n g c h o m ỗi c ạ p nút c ó thể trở ihành một núi đơn có n g h ĩa là, máy dịch vụ d ự p h ò n g đ ảm nhiệm c á c c ô n g việc trong trường hợ p xảy ra sự c ố h ó n g h óc như m in h h o ạ t r o n g h ìn h 2.6 dưới đây:
Hình 2.ố Cfí chế thứ lỗi sử dụng một máy dịch vụ dự phòng khẩn cấp
Trang 27C'hv Ty Khoa Công nghệ Đại học Quốc gia Hít nội
Cơ chế này có các ưu nhược điểm sau:
• Áp dụng tốt cho các kết cụm hỏ trợ các ứng dụng lớn như các cơ sở dữ liệu, đám bảo khi có một sự cố xảy ra, hai ứng dụng sẽ không nằm trong một nút.
• Dễ dàng tính dung lượng của các máy dịch vụ trong kết cụm: Dung lượng của mỗi nút là kích thước dựa trên ứng dụng mà nút đó đảm nhiệm, nút dự phòng có dung lượng bằng đung lượng lớn nhất cùa tấi cả các nút trong kết cụm.
• Độ sẩn sàng và hiệu suất của hệ thống là rất đễ xác định.
• Loại bó được lỗi đơn.
• Không thực sự giải quyết được nhiều lỗi hỏng Điều này chí là dự phòng theo íịch trình trong thời gian bào hành.
Hiện nay có nhiều công nghệ kết cụm hỗ trợ các máy dịch vụ dự phòng sử dụng kết hợp chế độ dự phòng và thực hiện song song.
r Thứ lỗi N+Ị
Máy dịch vụ dự phòng làm việc tốt với các kết cụm bốn nút trong một số cơ chế, tuy nhiên khả năng giải quyết nhiều lỏi hóng cùng một lúc của nó là có giới hạn Các cấu hình N+I là một sự mỏ' rộng cứa khái niệm máy dịch vụ đự phòng khi các ứng dụng với N nút và 1 nút dự phòng như minh hoạ ở hình 2.7 sau:
Trang 28Ch y Ty Khoa Còng nghệ Đại học Quốc gia Hà nội
iâ k jy e r K> any spare node
Hĩnh 2.7 Cơ chết thứ lỏi N+ỉ nút dự phòng
Cơ chế N+I có các ưu nhược điểm sau
• Áp dụng tốt cho các kết cụm hỗ trợ các ứng dụng lớn như các cơ sở
dữ liệu Cấu hình này đảm bảo rằng khi có một ứng đụng bị lồi, thì ứng dụng đó sẽ chuyển tới nút dự phòng chứ không phái một nút đang sử dụng.
• Dỗ dàng tính dung lượng của các máy dịch vụ trong kết cụm: Dung lượng của mỗi nút [à kích thước dựa trên ứng dụng mà nút đó đảm nhiệm.
• Độ sẵn sàng và hiệu suất của hệ Ihống là rấ t dể xác định.
• Cơ chế này đ á m bảo hoạt động tốt khi xảy ra nhiều lỗi hỏng.
• Không thực sự giải quyết hoàn toàn đối với nhiêu ứng dụng chạy trên cùng một nút Cơ chế này phù hợp nhất đối với các ứng dụng chạy trên một kết cụm chuyên dụng.
r Thứ lỗi vòn? (Failover Ring)
Trang 29Chy Ty Khoa Công nghệ Đại học Quốc gia Ha nội
Thứ lồi vòng cho phép mỗi nút irong kết cụm chạy một ứng dụng riêng biệt Nếu mội nút bị lỗi, chương trình ứng dụng trên nút hỏng đó sẽ được chuyển đến nút kê tiếp theo trình tự như hình 2.8 dưới đày:
Appl can
PaitQVC' K> -NOOỘ
2 in Um qvenl c>f ỉailurooí NcxJe 1
3 in «he evenl of
App3can Failơvef to N w »
4 in toe «vert (Ẩ
íálure oíNode 3
Hình 2.8 Cơ chế thứ lỗi vồng
Cơ chê này có các ưu nhược điổm sau:
• Phù hợp với các kết cụm hỗ trợ nhiều ứng dụng nhỏ mà khả năng của một nút đú lớn để hỗ trợ vài ứng dụng tại một thời điếm.
• Hiệu năng c ủ a một nút hỏng dễ dự đoán.
• Dung lượng của một lỗi dễ dự tính.
• Cư chế này hoạt dộng không đượ c tốt trong các trường họp nhiều lỗi hỏng cùng lúc Nếu khi xảv ra nút một bị lỗi nút hai sẽ đảm nhiệm hai ứng dụng, nút ba và nút bốn đám nhiệm mội ứng dụng, nếu nút hai bị hỏng sau đó thì nút ba sẽ đảm nhiệm ba ứng dụng và nút bốn sẽ đảm nhiêm một ứng dụng.
• Trường hợp này không phù họp với cấu hình mà các nút chạy nhiéu ứng dụng hoặc chạy các ứng dụng lớn Vì khi một nút bị lồi, tất cả các tiến trình
Trang 30Chv Ty Khoa Cónạ nghệ Đai học Quốc gia Hà nội
nút kế liếp đó không đủ khá năng xử lý.
'r Thứ lỗi ngầu nhiên
Trong các kết cụm lớn hoặc ngay cả các kết cụm bốn nút đang chạy các ứng dụng, việc xác định mục tiêu nút đảm nhiệm hay các cơ chế cho mỗi ứng dụng có thể vô cùng
vòng quanh kết cụm.
Các cơ chế thứ lỗi ngẫu nhiên có ưu nhược điểm sau:
nút đủ lớn để hỗ trợ vài ứng dụng tại một thời điểm.
• Đ ư ực dùng với nhiều lỗi hỏng cùng m ộ t lúc.
cụm.
• Trường hợp này không phù hợp với cấu hình mà các nút chạy nhiều ứng dụng hoặc chạy các ứng dụng lớn Vì khi một nút bị lỗi, tất cả các tiến trình cùa các ứng dụng chạy trên nút đó sẽ được chuyển sang nút kế tiếp trong khi nút kế tiếp đó khổng đủ khả năng xử lý.
Có thê một số trường hợp thì các nút đặc biệt được ưu tiên cho một ứng dụng.
Một cơ chế ràng buộc các ứng dụng tới các níu có các ưu nhược điểm sau;
Trang 31City Ty Khoa Công nghẹ Đại hoc Quốc gia Hà nội
xuất hiện lỗi.
thứ lỏi tốt có thè vò cùng phức tạp [23]
2.7 Nhịp tìm (Heartbeat)
Nhịp tim dung để theo dõi và xác định xem mỗi nút có còn sống hay không Khi
tim sẽ dược gửi ỉiên tục sau mỗi khoảng (hời gian nào đó tùy theo ta đặt cho mỗi nút trong kêì cụm Mỗi nút sẽ đợi sự tra lời (acknowledgment) cho mỗi thông báo đó Trên thực tế,
không nhận được, một lỗi sẽ không được báo cáo ngay, nhịp tim sẽ tiếp lục được gửi tiếp
một lỗi đã dược xác nhận Sau khi lỗi này được xác nhận, quá trình phục hổi lỗi băt đầu
trôn hệ Ihỏng kết cụm có nhiều địa điểm khác nhau thì quá trình xử lý nhịp tim trứ thành phức tạp bởi các bộ định luyến và các nút trung gian đê' kết nối giữa các địa điểm mạng khác nhau có ihể có độ trê lớn.
Có hai loại nhịp tim, thứ nhất là nhịp tim vòng (Ring Heartbeat) và thứ hai là nhịp tim quảng bá (Broard Cast/(IP) Heartbeat) Cả hai loại này đều liên quan đến kiểu kết nối
hỗ trợ chúng.
r Nhịp ¡im vồng: Với kiểu này mỗi nút được kết nối tới nút láng gicng của nó theo kiến trúc vòng tròn Mỗi nút láng giéng chuyển tiếp nhịp tim tới nút láng giềng khác Mạng hai nút thì cần một cổng serial cho mỗi nút, còn nếu số lượng nút lớn hơn hai trong một mạng có thể chia thành hai mạng con riêng biệt để
Trang 32Chy Tv Khoa Cóng nghệ Đại hoc Quốc gia Hò nội
tránh trường hợp có hơn một nút bị lỗi, vì nếu hai núl bị lỗi là láng giềng nhau thì các nút còn lại vần còn được kết nối Để tránh những lỗi kiểu kết nôi vòng thì rất cán thiết có một nhịp tim quảng bá cả hai chiều Nếu các nút được kết nối với Serial Switch, nút bị lỗi có thê' được lấy ra và đưa lại vào trong mạng hằng tav một cách dễ dàng.
r Nhịp tim quáng bá: Nhịp tim quáng bá được ứng dụng trong Ethernet hỗ trợ kiếu kết nối quáng bá Mỗi nút quảng bá trạng thái cúa nó tới kết cụm rối các thành viên trong kết cụm nhận nhịp lim đó một cách trực tiếp Từ “Broard Cast” được dùng nhiều hơn “IP” vì một số phương tiện dùng năng lực “Broard Cast”
mà không phụ thuộc “IP”
Nhịp tim quảng bá nhàm giải quyết những vần đề chậm trễ hoậc huỷ bó nhờ sự truyén Ihông nhanh trong mạng Với sô' lượng nút nhiều, nhịp tim quảng bá dễ đàng kết nối hon kiểu vòng Tuv nhiên, Card mạng và Hub thường ít tin cậy hơn kết nối cổng serial [31]
2.8 Cản bằng tai mạng (Network Load Balancing- NLB)
Cân bằng ú i mạng hồ trợ quá trình thứ lồi đối với các ứng dụng và dịch vụ trên nền
IF đòi hỏi khả nâng mở rộng và sẵn sàng cao NLB phù họp trong việc cải thiện khả nàng sẩn sàng của các máy dịch vụ Web máy dịch vụ đa phương tiện, terminal server và e- cominerce site Việc cân bàng tái những dịch vụ đó đám bảo không xảy ra một điểm sự cố riêng rẽ và cũng không có hiện lượng nút cổ chai trong toàn kết cụm.
Nhiều khái niệm áp dụng cho máy dịch vụ kết cụm cũng áp dụng được cho NLB Các nút NLB làm việc cùng với nhau để đảm bảo tính sẵn sàng của các tài nguycn xung yếu Uốn nền IP, trong đó có các yêu cẩu truyền tin theo các giao thức TCP (Transmission Control Protoco]), UDP (User Datagram Protocol) và GRE (Generic Routing Encapsulai ion).
Trang 33City Ty Khoa Công nghệ Đai học Quốc gia Hà nội
Network Load Balancing
N LB Host NLÜ Host N LB Host M LB Host
Hình 2.9 Mô hình cản bang tải mạng
> Thứ lỗi và sự khỏi phục lại sử dụng địa chỉ IP ảo (Failover and Fallback)
NLR sử dụng địa chí IP ảo (Virtual IP address) Các yèu cầu của máy khách đều
dịch vụ, các máy dịch vụ còn lại Irong nhóm sẽ đám nhiệm khối lượng công việc của máy dịch vụ bị sự cố Khi máy dịch vụ bị sự cố trở lại trạng thái làm việc (online), máy dịch vụ
đó c ó thế tự động gia nhập lại vào nhóm kết cụm và NLB tự động bất đầu phân phối tải đến máy dịch vụ đó Quá trình khác phục lỗi kéo dài dưới mười giây trong hẩu hết các trường hơp.
r Không có thiết bị lưu dùng chung
NLB không đùng thiết bị lưu trữ dùng chung Mỗi máy dịch vụ chạy một bản sao của ứng dụng hay dịch vụ ÏP mà đang được cân bằng tải, và dữ liệu cần thiết cho ứng dụng hay dịch vụ đó chạy trên ổ lưu trữ cục bộ.
Trang 34Ci-y l'y Khoa c 'ong nghe Dại hục Quốc gia Hà nội
r- Chuyến lưu thông đến một máy dịch vụ riêng
Mặc đù NLB thường được dùng dể phân phối lải cho một ứng dụng hav dịch vụ
SOIS nó cũng có thể được dùng để chuvển m ộí dạng lưu thông (traffic) đặc biệt đến một rmy dịch vụ riêng Ví dụ, nhân viên cỏng nghệ thông tin có thể muôn cân bẳng tải các lưu
met máy dịch vụ riêng xừ lý lưu thông của dịch vụ đa phương tiện (media services traffic) dinh cho âm thanh và hình ánh Trong trường hợp đó, NLB cho phép lưu thông chảy đến mót máv dịch vụ được chí định trước và chỉ định tuyến lại lưu thông đến máy dịch vụ khác ireng Irường hợp có sự cố.
y Khônẹ cấn thay đổi phần cứng
NLB chạy trên một bộ điều khiển mạng (network driver) và không cần có sự thay
đổ trong phán cứng mà chi cần cài đặt và chạy nó Công việc vận hành của nó ià trong SUỐI dổi với lớp kết nối mạng IF Vì NLB là dựa trên IP, nên phải cài đạt kết nối mạng ĨP trên lất cá các máy tính tham gia vào cân bằng tải.
V Các card mạng dùng cho NLB
Đẻ đậi được hiệu năng và khả năng đáp ứns cao, NLB thường sử dụng hai card
nung
• Card cho kết cụm để xử lý lưu thông trên mạng cho cả kết cụm
• Card chuyên dụng (dedicated adapter) để xử lý lưu thông trên mạng từ khách đến kết cụm (đient-to-Cluster) và các lưu thông khác xuất phát từ bên ngoài mạng kết cụm.
NLB dùng những quáng bá bàng địa chí đơn đích (unicast) hoăc đa đích (multicast)
dế chuyển các lưu thông theo chiều đến tới các máy dịch vụ trong kết cụm Bộ điệu khiển NLB trên từng máy dịch vụ sẽ làm việc như một bộ lọc giữa card mạng kết cụm và lớp
Trang 35Chy Ty Khoa Cóng nghệ Đọi học Quốc gia Hà nội
TCP/IP chỉ cho phép những lưu thõng đành cho máv dịch vụ đã xác định mới được thu nhạn NLH chi điều khiến dòng chảy của các lưu thông trên giao thức TCP, UDP và GRE
ờ những cổng đã được định sẵn Nó không điều khiến dòng chảy của các lưu thông trên giao thức TCP UDP và GRE ở Iihững cổng không được chỉ ra và cũng khòng điéu khiển dòng cháy cúa các lưu thõng khác theo chiều đến trên giao thức IP Tất cả các lưu thông khõns dược điều khiến sẽ được chuyển nguyên vẹn mà không có thay đổi nào đến tầng ỈP.
> S ử dụng một card giao diện mạng NLB
NLB có thể làm việc với mội card mạng Khi đó sẽ có những hạn chế.
C h ế (lộ dơn (tích (Unicast mode): Với một card ở chế độ đơn đích, liên iạc giữa các núi (Node-to-Node) là không thể, có nghĩa là, các nút trong kết cụm không thế liên lạc được với nhau Tuy nhiên, các máy dịch vụ có thể liên lạc được với những máy dịch vụ khác bên ngoài mạng con (subnet) của kết cụm.
C hế độ da đích (Multicast mode): Với một card ở chế độ da đích, có thể liên lạc dược giữa các nút với nhau cũng như với những máy dịch vụ khác bên ngoài mạng con của kcì cụm Tuy nhiên, cấu hình là không tối ƯU đối với việc xử ]ý lưu Ihỏng hạng trung bình dốn hạng nặng (moderate-to-heavy) từ bên ngoài mạng con của kết cụm đến một số máy dịch vụ nhất định trong kết cụm.
Đê xử lý liên lạc nút tới nút (node-to-node) và lưu thông cỡ trung bình đến nậng, cần dùng hai card giao diện mạng.
r Tối ưu hoá các máy dịch vụ cân bằng tải (NLB Server)
Cũng như với máv dịch vụ kết cụm có thể lối ưu hoá được các máy dịch vụ dùng NLB Các máy dịch vụ được tối ưu hoá về vai trò của chúng, vể kiểu ứng dụng chúng sẽ chạy và dung lượng lưu trữ tại chỗ dự liệu trước khi chúng được sử đụng.
Nhân viên cồng nghệ thông tin có thể thiết lập dự phòng nóng trên ổ cứng tại chỗ trên máy dịch vụ NLB, nhưng điều này chi iàm tăng thêm chi phí cho máy dịch vụ mà
Trang 36C hy 7'v Khoa Cóng nghệ Đai học Quốc gia Hả nội
n orm háu hết các trường hợp không có được cải thiện đáng kế nào vé khá năng sẵn sàng
Vì vậy các máy dịch vụ NLB thường có các ổ đĩa không sử dụng RAID và không có tính năng ihứ lỗi Nghĩa là, nếu một ổ bị lỗi dẫn đến sự cố của máy dịch vụ đó, thì các máy dịch vụ khác trong NLB kết cụm có thể nhanh chóng liếp quản khôi lượng công việc cua máy dịch vụ bị sự cố.
r Đổng bó dữ liệu
Việc không dùng RAID có vẻ như kỳ cục, nhưng cũng nên nhớ ràng, các máy dịch
vụ dùng NLB được tô chức thành những clone với bản sao dữ liệu giống hệt nhau trên từng máy dịch vụ Vì nhiều máy dịch vụ khác nhau có cùng dữ liêu giống nhau, việc duy trì dữ liệu với các tổ hợp RAID không quan trọng bằng với các máy dịch vụ kết cụm Điểm mấu chối mà nhân viên công nghệ thông tin không phải iàm khi dùng NLB Tuy nhiên, vấn dề đặt ra là việc đồng bộ dữ liệu (data synchronization) Trạng thái của dữ liệu trên từng máy dịch vụ phái dược duy trì sao cho các clone được cập nhật kịp thời mỗi khi dữ liệu có sự thay dổi Yêu cẩu cần phải đồng bộ dữ liệu một cách đểu đặn chính là một phụ tải thêm cần được xem xét đến khi thiết kế kiến trúc máy dịch vụ [I]
2.9 MC/Service G uard (Kết cụm của HP)
2.9.1 (ỉiói thiệu
MC/ServiceGuarđ là một sản phẩm nâng cao tính sẩn sàng cho hệ thống đang chạy
hè điêu h à n h HP-UX 1 0 X và 1 ] -X MC/Service Guard tạo ra một mồi tnrờng trong đ ó , khi
có một sự kiện lỏi irong một thành phẩn hệ thống như là SPU hoặc Card mạng, dịch vụ {ứng dụng) sẽ được chuyển tới mội SPU khác rồi chạy và cung cấp dịch vụ lại trong một khoáng thời gian rất ngắn.
MC/ServieceGuard được thiết kế phù hợp cho việc loại bỏ các lỗi đơn, và ta có thể
dề dìinụ chuyển điều khiển ứng dụng tới SPU khác, do đó ta có thể ngừng SPU gốc để bảo dưỡng hoặc thực hiện mục đích khác của người quản trị.
Trang 37Chy Tv Khoa Công nghệ Dại học Quốc gia Hà nội
Với MC/Service Guard ta có thể tổ chức các ứng dụng của mình ihành các gói và địrh danh cho nó Như vậy ta có thể chuyển gói điều khiến đã được dịnh danh tới SPU khác hoặc liên lạc việc trao đổi với LAN rỗi trong trường họp có một sự cố phần cứng ở
2.9.2 Đặc điểm và lợi ích của MC/Service Guard
Đặc điểm và lợi ích của MC/Service Guard bao gồm:
trường hợp bị lỏi, kết cụm tự nó sẽ tự động làm cho dịch vụ sẵn sàng Không đòi hói một thao tác nào của con người để cấu hình lại kết cụm.
thể được phân phối qua các nút còn lại trên kết cụm Ví dụ, nếu một nút có
ba ứng dụng và nút đó bị lỗi, các ứng dụng này có thế phân tán tới ba máy khác nhau trong kết cụm.
máy nghiộp vụ (business server) Ví dụ, một hệ thống lớn T500 có thể trong cùng một kết cụm như một hệ thống K-Series.
r Cập nhật phẩn mém trực tuyến: Các hệ thống trong kết cụm có thề được nâng cấp phần mém dịch vụ mà không ảnh hưởng đến hoạt động của các ứng dụng chạy trên kết cụm.
r Sẩn sàng cao: Một nút bất kv trong kết cụm có khả nảng thưc hiện các ứng dụng phân chia Nếu một nút bị hỏng, tất cả phẩn ứng dụng phân chia trên nút sẽ được chuyển đến các nút khác trong kết cụm.
Trang 38Chy Ty Khoa Công nghệ Đại học Quốc gia Hà nội
lỏi dên lúc ứng dụng đó khơi dộng lại trên nút khác là dưới sáu mười giây Journaled File System (JFS) thường được sử dụng nhằm tối ưu hoá thời gian thứ lỗi bằng cách giảm thiểu Ihời gian cần thiết để sửa chữa hệ thống file.
> Bảo vệ lỗi cho mạng LAN: Mọi giao diện card mạng (LANIC) đểu có thể có một LANIC dự phòng tương ứng Nếu LANIC chính hóng, tất cả các địa chí
ÍP dược cấu hình trên card mạng chính sẽ chuyển tới card mạng dự phòng.
r Quàn t r ị ứng dụng dễ dàng và mềm dẻo: Các ứng dụng có thế dễ dàng
ngừng và khởi đòng lại trên các nút Irong kết cụm Màn hình hiến thị các trạng thái của kết cụm và ứng dụng bang cả chế độ đổ họa và chế độ ký tự nền.
'y Không có lài nguyên rỗi: Mọi máy đều là máy hoạt động, mọi hệ thống trong kết cụm đéu có thể đang thực hiện các ứng dụng cấp thiết, không có
hệ thống nào “ngồi không” để chờ hệ thống khác hỏng [13]
2.9.3 Khỏa kết cụm (Cluster Lock)
Khóa kết cụm là một vùng đĩa nằm trong một nhóm dung lượng (Volume group) dùng chung cho tất cả các nút trong kết cụm Khóa kết cụm nhóm dung lượng và tên dung lượng vật lý (Physical volume) được xác định trong file cấu hình kết cụm Khóa kết cụm được sử dụng trong sự kiện tranh chấp trong khi một kết cụm đang chạy bị hỏng thì MC/Service Guard cố dành lại một kết cụm mới Kết cụm này chia thành hai nửa kết cụm với kích thước tương đương Mỏi nửa kết cụm sẽ cố gắng dành được khóa kết cụm Nửa kết cụm nào dành dược Khóa kết cụm sẽ thi hành kết cụm mới, ngăn chặn khả năng hai nứa kết cụm chạy cùng một thời điểm Nếu hai nửa kết cụm không cùng kích thước thì nưa kết cụm có kích thước lớn hơn 50% sẽ thi hành trên kết cụm mới và khóa kết cụm khóng dược sứ dụng.
Trang 39Chy Ty Khoa Công nghệ Đại học Quốc gia Hà nội
Nếu trong một kết cụm gồm hai nút, ta phải cấu hình khóa kết cụm Nếu các kết nối giữa hai nút bị mất thì núi đang chiếm khóa kết cụm sẽ kế lục kết cụm và nút kia sẽ rmrns, hoạt động Nếu không cổ khóa kết cụm, ỉồi của nút này sẽ dẫn đến lỗi ở nút kia và kết cụm sẽ bị dừng Cũng nên chú ý rằng nếu khóa kếl cụm lỗi trong khi một nút đang tranh chấp thì kết cụm sẽ bị dừng hoạt động.
Ta có the tuv chọn khóa kết cụm đơn hoặc kép dựa trên kiểu cấu hình mà ta xây dựng Với cá hai khoá đơn hoặc kép, nó quan trọng ở chỗ đĩa của khoá kết cụm đảm bảo sẩn sàng ngay cả khi một nút bị mất điện Vì thế sự lựa chọn cấu hình khoá phụ thuộc mộl phần vào sô' nguồn cung cấp điện sẩn có Bất kể ta chọn thế nào, tất cả các nút trong kết cụm đều phải truy nhập vào khoá để duy trì hiệu quả cao [13]
điệp irong khoảng thời gian NODE_TIMEOUT, kết cụm sẽ khác phục lỏi và sẽ khống gửi gói thôn« điệp nhịp ũm trong thời gian này.
Nếu nhịp tim và dữ liệu được gửi qua cùng một mạng LAN, sự tấc nghẽn dừ liệu có thế trở ihành nguyên nhân làm cho gói nhịp tim không đến được nút ỉáng giểng Điéu này
có ĩhc dẫn đến sự khỏi phục lồi một nứt mặc dù tất cả các nút đểu hoạt đông bình thường
Đế ngăn cán tình huống này, ta có thể cấu hình nhiéu tham số nhịp tìm_IP
“HEATBEAT_IP" hoặc sử dụng đường Serial (đối với kết cụm có hai nút) cho nhịp tim
[12J
Trang 40Chv Ty Khoa Cóng nghè Đại học Quốc gia Hà nội
2.9.5 Gói till (Packaging)
Một ứng dụng chạy trẽn một môi trường MC/ServiceGuard phải được cấu hình
Thông tin cần thiết để thi hành gói tin trong kết cụm MC/ServiceGuard được chứa
script dieu khicn gói lù cẩn thiết đối với sự tồn tại của mỗi gói tin.
Script điều khiển gói được thực hiện để khởi động hay kết thúc ứng dụng trong mồi Irường MC/Scrvice Guard.
Tài nguyên cho các gói bao gồm:
> Các Volume Group
Các file gói bao gổm:
> Script dieu khiển gói (pkg.cntl)
2.9.6 NODE Fai! Fast
'r NODE Fail Fast Disabled
Fail Fast Disabled Với HP-UX 11.x, tiến trình này có thể cấu hình cho mỗi gói.
r NODE Füll Fast Enabled