2.8.1.
2.8 Đảm bảo tính sẵn sàng cao của trung tâm dữ liệu
K h á i n iệ m đ ộ sẵ n s à n g c a o c ủ a tr u n g tă m d ữ liệu l H ệ th ố n g có đ ộ sẵ n sà n g ca o
Khái niệm sẵn sàng dùng để chỉ trạng thái của hệ thống thông tin khi hệ thống này có khả năng cung cấp dịch vụ m ột mức độ cần thiết cho người sử dụng. Bất kể khi nào hệ thống không có khả năng cung cấp dịch vụ cho người sử dụng thì bị coi là hệ thống ngừng hoạt động. Việc ngừng hoạt động của hệ thống có thể được định trước hoặc không định trước. Việc ngừng hoạt động của hệ thống có định trước được gọi là ngừng hoạt động có hoạch định và việc ngừng không định trước được gọi là ngừng hoạt động không hoạch định. Với khái niệm ngừng hoạt động này thì cho dù trong m ột trung tâm dữ liệu gồm rất nhiều thành phần như m áy chủ, hệ thống lưu trữ vẫn hoạt động tốt, nhưng do có m ột sự cố đối với hệ thống m ạng làm ngừng việc cung cấp dịch vụ của trung tâm dữ liệu này thì khi đó trung tâm dữ liệu này vẫn bị coi là ngừng hoạt động.
Thời gian hệ thống không có khả năng cung cấp dịch vụ được gọi là thời gian ngùng hoạt động và thường được đo bằng đơn vị thời gian như giờ, phút, ...
Hệ thống có độ sẵn sàng cao là các hệ thống được thiết k ế để giảm thiểu thời gian ngừng cung cấp dịch vụ bằng cách hạn ch ế và quản lý các sự cố cũng như giảm thiểu thời gian ngừng hoạt động có hoạch định. Chúng ta luôn mong m uốn các hệ thống quan trọng phải có độ sẵn sàng cao. Tuy vậy các hệ thống có độ sẵn sàng cao cũng có thể bị ngừng hoạt động. Khi các hệ thống này ngừng hoạt động chúng ta cũng m ong rằng các hệ thống này được phục hồi nhanh chóng.
Các trung tâm dữ liệu có tính sẵn sàng cao là các trung tâm dữ liệu được thiết k ế để giảm thiểu thời gian ngừng hoạt động không có hoạch định cũng như ngừng hoạt động có hoạch định.
- 6 6 -
Trung tâm dữ liệu luôn luôn sẵn sàng là trung tâm dữ liệu không bao giờ ngừng cung cấp dịch vụ. Trong trường hợp này trung tâm dữ liệu này không có thời gian ngừng hoạt động không có hoạch định và thời gian ngừng hoạt động có hoạch định. Đ ây là m ột mục tiêu lý tưởng của các trung tâm dữ liệu. Trong thực tế hầu như không tồn tại khả năng này.
M ột mục tiêu không kém tham vọng là xây dựng các hệ thống có độ sẵn sàng 99,999% . Các hệ thống này khi hoạt động 24/24 giờ thì trong một năm chỉ dừng hoạt động không quá 5 phút. Để đạt được m ục tiêu này các nhà sản xuất các thành phần trong m ột trung tâm dữ liệu (phần cứng và phần mềm) liên kết với nhau để tạo ra một số mô hình m ẫu, thiết k ế các phần cứng và phần mềm đặc biệt, thực hiện việc cài đặt, triển khai và tích hợp các thành phần này với nhau. Tuy vậy hiện nay các mô hình này cũng chỉ tồn tại trong các phòng thí nghiệm m à thôi. Nhưng dù sao một phần các kết quả nghiên cứu này cũng được áp dụng trong thực tế giúp làm tăng tính sẵn sàng của các trung tâm dữ liệu hiện nay.
Sự khó khăn khi xây dựng các hệ thống có độ sẵn sàng cao 99,999% cho chúng ta thấy chỉ cần tăng độ sẵn sàng của m ột trung tâm dữ liệu lên m ột chút cũng dẫn đến chi phí xây dựng tăng lên gấp nhiều lần. Vì vậy để đảm bảo đầu tư vào các trung tâm dữ liệu có hiệu quả thì độ sẵn sàng của hệ thống phải được xác định phù hợp với yêu cầu đề ra. Để xác định độ sẵn sàng cần thiết cho một trung tâm dữ liệu người ta quan niệm rằng việc đầu tư vào tính sẵn sàng cao như là việc m ua bảo hiểm cho các thiệt hại có thể xảy ra do hệ thống ngừng hoạt động. Các thiệt hại có thể là:
• Giảm doanh số
• M ất lòng tin của khách hàng và người sử dựng
• M ất cơ hội kinh doanh
- 6 7 -
2.8.1.2 Các cản trở của việc xây dựng hệ thống có độ sẵn sàng cao
Một trong các chỉ số đo quan trọng của việc ngừng hoạt động là thời gian ngừng hoạt động. Hầu hết các hệ thống có thể chấp nhận thời gian ngừng hoạt động dưới 10 giây, nhưng rất ít hệ thống có thể chấp nhận được thời gian dừng hoạt động là 2 giờ. Chính vì vậy m ột trong các yếu tố cần phải xem xét trong hệ thống có tính sẵn sàng cao là thời gian ngừng hoạt động của hệ thống trong mỗi lẩn ngừng. Lấy ví dụ một hệ thống được xây dựng với độ sẵn sàng là 99,95% và hệ thống này hoạt động 24/24 giờ, như vậy hệ thống này sẽ dừng hoạt động tới 5 giờ trong một năm. M ột số trung tâm dữ liệu không thể chấp nhận được một lần ngừng hoạt động của hệ thống dài 5 giờ, tuy nhiên các trung tâm này có thể chấp nhận ngừng hoạt động 15 phút m ột lần và 20 lần m ột năm . Như vậy chúng ta cần phải xác định được khoảng thời gian ngừng hoạt động tối đa của mỗi lần hệ thống gặp sự cố.
Sau đây chúng ta sẽ xem xét đến với yếu tố này ảnh hưởng đến việc lựa chọn công nghệ như th ế nào qua m ột ví dụ về về m ột sự cố xảy ra với một ổ cứng. Sự cố H ệ thốniỉ ổ cứng cton TO TI T la T2 T3 T4 Ỏ cứng gặp sự cô H ìn h 2-12: Q u á tr ìn h d ừ n g hệ th ố n g k h ô n g h o ạ ch đ ịn h
Trong quá trình trên sự cố xảy ra khi tại thời điểm T I và dịch vụ ngừng cung cấp. Hệ thống ngừng hoạt động tới thời điểm T3 sau khi hệ thống thực hiện
-68 -
thay th ế phần cứng và phục hồi dữ liệu từ băng từ. Q uá trình này sẽ kéo dài từ vài giờ đến vài ngày. Trong trường hợp này thời gian ngừng hoạt động của hệ thống là không xác định được từ ban đầu, việc ngừng hoạt động là không hoạch định.
Quá trình ngừng dừng hoạt động dưới đây xảy ra khi hệ thống có tính sẵn sàng cao với hệ thống ổ cứng mirror.
ồ cứng gặp sự cô
H ìn h 2-1 3 : Q u á trìn h d ừ n g h ệ th ố n g có h o ạ ch đ ịn h
Trong quá trình này khi ổ cứng gặp sự cố hệ thống vẫn có thể tiếp tục cung cấp dịch vụ do dữ liệu vẫn còn trên ổ cứng còn lại. Việc thay th ế ổ cứng có thể được chọn tại thời điểm nào đó ít gây thiệt hại nhất. Như vậy việc ngừng hoạt động của hệ thống ở đây là có hoạch định từ trước và chúng ta cũng có thể xác định được khoảng thời gian ngừng hoạt động này. Với việc sử dụng hệ thống ổ cứng m irror chúng ta chuyển được việc ngừng hoạt động không có hoạch định và không xác định được thời gian dừng sang thành ngừng hoạt động có hoạch định, thời gian ngừng ngắn hơn và xác định được.
- 6 9 - / Ö cứng dự phònu S ự C ố Tủ đĩa R A ID TO TI
l) ịc h vụ được cung cấp D ịch vụ dược cune cấp
T ía T2 T3 T4
D ịch vụ được cung cáp D ịch vụ được cung cáp
Phái hiện sự cố Thay i cứng Thực hiện phục hỏi dữ liẻ u o cứniỉ gặp sự cô H ìn h 2 -14: K h ò n g có th òi gian n g ừ n g h o ạ t đ ộ n g
Q uá trình thứ ba này với việc sử dụng tủ đĩa R A ID có khả năng hỗ trợ ổ cứng cắm nóng. Khi có sự cố xảy ra dữ liệu của hệ thống không bị ảnh hưởng và hệ thống tiếp tục cung cấp dịch vụ. Việc thay th ế ổ cứng có thể được thực hiện mà không cần phải ngừng hoạt động của hệ thống. Cấu hình này giúp giảm hoàn toàn thời gian ngừng hoạt động của hệ thống do sự cô' xảy ra với ổ cứng.
Như vậy với các thiết k ế khác nhau của hệ thống ta có thể có được thời gian ngừng hoạt động của hệ thống hoàn toàn khác nhau. V iệc xác định chính xác khoảng thời gian ngừng hoạt động của hệ thống sẽ giúp chúng ta tìm ra một thiết kế phù hợp cho hệ thống. Để xác định đúng thời gian hệ thống có thể chấp nhận ngừng hoạt động đóng vai trò hết sức quan trọng trong việc lựa chọn giải pháp cho hệ thống có độ sẵn sàng có. Nếu xác định quá cao sẽ gây lãng phí rất lớn, thậm chí có thể phải đầu tư cao hơn gấp nhiều lần so hơn mức cần thiết. Ngược lại nếu xác định quá thấp sẽ gây tổn thất cao khi hệ thống gặp các sự cố không mong muốn.
- 7 0 -
• Thực hiện sao lưu dữ liệu theo định kỳ
• Nâng cấp phần mềm
• Mở rộng và sửa chữa phần cứng
• Thay đổi cấu hình của hệ thống
Một số hệ thống có thể chấp nhận được thời gian ngừng có hoạch định này. M ột số khác thì không thể hoặc chỉ chấp nhận thời gian ngừng hoạt động dù rất ngắn. Các trung tâm dữ liệu kết nối Internet thường không chấp nhận thời gian này do người dùng từ Internet có thể truy nhập vào hệ thống tại bất kỳ thời điểm nào. Đ ể giảm thời gian ngừng hoạt động này các trung tâm dữ liệu kết nối Internet sử dụng nhiều máy chủ cùng có khả năng cung cấp một dịch vụ. Việc nâng cấp và sửa chữa có thể được thực hiện tại từng m áy m ột, các m áy còn lại vẫn tiếp tục hoạt động để cung cấp cỉịch vụ. V iệc sao lưu dữ liệu sẽ được thực hiện trong lúc hệ thống vẫn hoạt động, việc sao lưu dữ liệu này được gọi là sao lưu dữ liệu trực tuyến.
Các nguyên nhân gây ngừng hoạt động không hoạch định là:
• H ỏng phần cứng
• Hệ thống lưu trữ bị đầy • X ung điện
• M ất nguồn điện cung cấp
• Lỗi phần mềm
• Lỗi người sử dụng hay n g ư ờ i quản trị • Thiên tai
Nói chung các thiệt hại do việc ngừng hoạt động không hoạch định thường lớn hơn nhiều so với việc ngừng hoạt động có hoạch định.
L ỗi người sử
N guđn GaitnciGioup d ụ n g
40%
H ìn h 2 -1 5: C á c n g u y ên n h ân g â y n g ừ n g h o ạ t đ ộ n g c ủ a hệ th ố n g
Thông thường m ọi người đều cho rằng các sự cố đối với hệ thống hầu hết đều do phần cứng gây ra nhưng trong thực tế các lỗi do phần cứng gây ra rất nhỏ. Phần lớn các lỗi gây sự cố cho hệ thống là do phần mểm và người sử dụng. Vì vậy khi xây dựng các hệ thống có độ sẵn sàng cao chúng ta không chỉ phải quan tâm đến phần cứng mà phải quan tâm đến cả phần mểm của hệ thống. Ngoài ra các yếu tố bên ngoài như điện, dịch vụ truyền thông, khí hậu,... cũng cần phải được quan tâm đến.
Tóm lại khi xây dựng các hệ thống có độ sẵn sàng cao phải thực hiện việc xem xét các yếu tố có thể gây ngừng hoạt động trong đó phải bao gồm cả nguyên nhân ngừng hoạt động có hoạch định và không có hoạch định. Hơn thế nữa chúng ta cũng phải xác định được chính xác mức độ yêu cầu về tính sẵn sàng cao của toàn hệ thống.