Do các máy chủ trong vùng dữ liệu có nhiệm vụ quản lý dữ liệu vì vậy các máy chủ này phải có một cơ chế để chia sẻ dữ liệu giữa các máy có nhiệm vụ xử lý cùng một nhóm dữ liệu. Các máy chủ xử lý chung một nhóm dữ liệu thường được nhóm thành cụm theo kiến trúc sau:
V ù n g lưu i r ừ
Hình 2-6: Kiến trúc vùng dữ liệu
Trong kiến trúc này các máy chủ được chia thành từng cụm. Mỗi cụm máy chủ bao gồm một hay nhiều máy chủ. Các máy chủ có thể cùng một lúc thuộc nhiều cụm khác nhau tuy nhiên để việc quản lý được đơn giản thì chỉ nên bô trí mỗi máy chủ nằm trong một cụm mà thôi. Các máy chủ trong một cụm sẽ
thực hiện việc xử lý trên cùng một dữ liệu chung. Các máy chủ ở các cụm khác nhau thì không chia sẻ dữ liệu với nhau vì vậy chúng hoạt động tương đối độc lập với nhau. Các máy chủ của cụm này cũng có thể truy nhập tới dữ liệu của cụm khác phải thực hiện thông qua máy chủ của cụm có dữ liệu mà không được phép truy nhập trực tiếp tới vùng dữ liệu đó.
Các máy chủ trong một cụm hoạt động theo một trong ba cơ chế sau: • Dự phòng: với cơ chế này chỉ có một máy chủ hoạt động cung cấp
dịch vụ. Các máy chủ khác có nhiệm vụ dự phòng cho máy chủ này. Khi máy chủ chính gặp sự cố thì một trong các máy dự phòng sẽ hoạt động thay thế. Đây là cơ chế được sử dụng chủ yếu trong các cụm máy chủ.
• Xử lý song song: các máy chủ đồng thời cùng hoạt động để xử lý các yêu cầu. Trong cơ chế này nếu có một máy chủ gặp sự cố thì có thể gây ra việc ngừng hoạt động cung cấp dịch vụ của cả cụm. Cơ chế này được sử dụng nhằm tăng khả năng xử lý của hệ thống. • Xử lý song song có dự phòng: đây là cơ chế kết hợp giữa hai cơ
chế trên. Trong cơ chế này thông thường tất cả các máy chủ cùng hoạt động để phục vụ các yêu cầu. Khi có một máy chủ bị sự cố thì mày chủ này sẽ được loại bỏ ra ngoài hệ thống. Các máy chủ còn lại sau khi phát hiện có một máy chủ bị sự cố sẽ tự động thiết lập một cụm máy chủ mới không có máy chủ bị sự cố. Cụm máy chủ này sẽ thực hiện việc xử lý các yêu cầu thay thế cho cụm máy chủ ban đầu. Cơ chế này cho phép tãng cường khả năng xử lý của hệ thống đồng thời tăng cường độ sẵn sàng cao của hệ thống. Tuy nhiên thông thường tính sẵn sàng cao trong trường hợp này thấp hơn việc thực hiện theo cơ chế dự phòng.
- 4 8 -
Các máy chủ trong mỗi cụm thường được tổ chức theo một trong hai mô hình là không chia sẻ (share nothing) gì và mô hình dùng chung dĩa (share disk).
V ù n g lưu t r ữ
Hình 2-7: Mô hình cụm máy chủ không chia sẻ
Trong mô hình này mỗi máy chủ thực hiện trên một vùng dữ liệu riêng biệt (về mặt vật lý có thể các dữ liệu này cùng được đặt trên một thiết bị lưu trữ chung). Không máy chủ nào được truy nhập đến vùng dữ liệu của máy chủ khác. Việc phân vùng dữ liệu cho mỗi máy chủ được thực hiện theo cơ chế định sẵn từ ban đầu hay tự động theo một thuật toán tuỳ theo từng phần mềm quản trị. Trong mô hình này khi có yêu cầu dữ liệu thuộc vùng nào thì máy chủ tương ứng sẽ thực hiện xử lý yêu cầu. Trong trường hợp một yêu cầu đòi hỏi dữ liệu từ nhiều vùng khác nhau thì các máy chủ sẽ phải phối hợp với nhau đế xử lý yêu cầu này.
Mô hình này thường được sử dụng trong cơ chế thực hiện song song. Trong trường hợp muốn thực hiện xử lý song song có dự phòng thì một máy chủ dự phòng sẽ được đưa thêm vào trong cụm. Thông thường máy chủ dự phòng này sẽ không thực hiện gì cả, khi một máy chủ gặp sự cố thì máy chủ dự phòng sẽ thực hiện nắm quyền điều khiển vùng lun trữ của máy chủ gặp sự cố và thực hiện việc thay thế máy chủ gặp sự cố.
Một trường hợp dặc biệt của mỏ hình này là trong cụm chỉ có một máy chủ xử lý và một máy chủ dự phòng thì cụm máy chủ này sẽ hoạt động theo cơ chế dự phòng.
Mô hình không chia sẻ gì cả thường có khả nãng mở rộng khả năng xử lý tốt. Khả năng mở rộng này phụ thuộc vào phần mềm quản trị dữ liệu và hệ điều hành cụ thể. Thông thường cụm máy chủ này thường có khả năng mở rộng tới 16 máy chủ thậm chí có một số trường hợp có thể mở rộng tới 32 máy chủ. Mô hình này thường được sử dụng bởi các phần mềm quản trị file và các phần mềm quản trị cơ sở dữ liệu như IBM DB2, Informix, SQL Server,...
C ụ m
V ù n g lưu t r ữ
Hình 2-8: Mô hình cụm máy chủ dùng chung đĩa
Trong mô hình cụm máy chủ dùng chung dĩa tất cả các máy chủ cùng truy nhập tới một vùng dữ liệu chung và đồng thời xử lý dữ liệu trên đó. Để đảm bảo tính toàn vẹn và thống nhất của dữ liệu thì cụm máy chủ này cần phải có cơ chế chống xung đột (thông thường là thông qua cơ chế khoá). Việc trao đổi thông tin để đảm bảo cơ chế chống xung đột thường rất lớn vì vậy để đảm bảo khả năng xử lý của hệ thống thì các ứng dụng phải được thiết kế để giảm thiểu khả năng xung đột. Ngược lại nếu xung đột quá nhiều thì khả năng thực hiện của hệ thống sẽ rất thấp thậm chí có thể còn thấp hơn khả năng xử lý của một máy chủ độc lập. Cơ chế chống xung đột này thường là điểm nghẽn của hệ thống vì vậy khả năng mở rộng của cụm máy chủ này thường hạn chế hơn cụm máy chủ không chia sẻ. Số lượng máy chủ trong một cụm thường không quá 4 máy.
Trong cụm máy chủ này các máy chủ đều có khả năng xử lý các yêu cầu giống nhau vì vậy thông thường mọi máy chủ đều hoạt động để xử lý các yêu cầu. Cụm máy chủ dùng chung dĩa cho phép máy chủ đồng thời cùng truy nhập tới một vùng đĩa chung vì vậy nếu có một máy gặp sự cố thì không có ảnh hưởng
- 50 -
tới sự truy nhập dữ liệu chung của các máy chủ còn lại. Chính vì lý do này khi một máy chủ gặp sự cố thì các máy chủ còn lại hoàn toàn có khả năng xử lý mọi yêu cầu của hệ thống. Vì vậy các cụm máy chủ hoạt động theo mô hình này thường hoạt động theo cơ chế xử lý song song có dự phòng. Mô hình dùng chung đĩa được sử dụng trong phần mềm Oracle Parallel Server (OPS) và phần mềm Oracle Real Application Cluster (Oracle RAC). Mỏ hình này cũng được cài đặt trong phần mềm quản lý file của hệ điều hành Tru64 Unix với TruCluster.
Trong một số trường hợp để tránh điểm nghẽn do cơ chế chống xung đột gây ra chúng ta có thể sử dụng mô hình này với cụm máy chủ chỉ có 2 máy chủ và trong đó chỉ có một máy chủ thực hiện việc xử lý các yêu cầu và một máy chủ hoạt động ở chế độ dự phòng. Trong trường hợp này cụm máy chủ sẽ hoạt động theo cơ chế dự phòng. Cơ chế dự phòng này thường có tính sẵn sàng cao hơn cơ chế dự phòng với mô hình cụm máy chủ không chia sẻ gì. Lý do của điều này là máy chủ dự phòng trong trường hợp này luôn luôn kết nối với vùng dữ liệu dùng chung vì vậy khi máy chủ chính bị sự cố thì máy chủ dự phòng đã sẵn sàng hoạt động thay thế mà không cần thực hiện việc chuyển quyền quản lý vùng dữ liệu này từ máy chủ chính sang máy chủ dự phòng. Mô hình này được cài đặt trong phần mềm Oracle Parallel Fail Safe (OPFS).
Tóm lại các máy chủ trong vùng dữ liệu được tổ chức thành từng cụm, mỗi cụm hoạt động theo 1 trong 3 cơ chế khác nhau. Trong mỗi cụm các máy chủ thực hiện việc chia sẻ dữ liệu theo một trong 2 mô hình là không chia sẻ gì hoặc mô hình dùng chung đĩa. Mô hình không chia sẻ gì thường có khả năng mở rộng lớn hơn. Mô hình chia sẽ đĩa có thường có tính sẵn sàng cao hơn. Mô hình của cụm máy chủ tuỳ thuộc vào phần mềm quản trị dữ liệu và hệ điểu hành.
-51 -
2.6 Vùng lưu trữ
Vùng lưu trữ có nhiệm vụ thực hiện việc lưu trữ và quản lý dữ liệu. Toàn bộ dữ liệu chính của trung tâm dữ liệu kết nối với Internet được lưu trữ tại dây. Người ta tính rằng trong các trung tâm dữ liệu kết nối với Internet thông thường lượng dữ liệu lưu trữ tại đây sẽ tăng gấp đôi mỗi năm. Một số trung tâm dữ liệu còn tăng tới hơn ba lần. Giả sử mỗi năm lượng dữ liệu tăng lên gấp đôi như vậy sau 10 năm lượng dữ liệu sẽ tăng lên khoảng 1000 lần. Điều này cho thấy việc tổ chức, quản lý và bảo vệ dữ liệu ngày càng quan trọng trong các trung tâm dữ liệu kết nối Internet nói riêng và các trung tâm dữ liệu khác nói chung. Trong phần này chúng ta sẽ xem xét các kiến trúc của hệ thống lưu trữ và chọn ra một kiến trúc phù hợp cho các trung tâm dữ liệu kết nối Internet.
2.6.1 Lựa chọn kiến trúc công nghệ cho vùng lưu trữ
Trong hệ thống lưu trữ người ta sử dụng hai kiến trúc chính là: • Kết nối trực tiếp
• Kết nối qua mạng
Kiến trúc kết nối trực tiếp là kiến trúc được sử dụng ban đầu khi các hệ thống thông tin mới được hình thành. Kiến trúc này là kiến trúc đơn giản nhất. Trong kiến trúc này các thiết bị lưu trữ được kết nối trực tiếp vào các máy chủ.
Máy chủ Máy chủ Máy chủ Máy chủ
Thiết bị lưu trữ Thiết bị lưu trữ
-52 -
Kiến trúc này ban đầu chỉ cho phép mỗi thiết bị lưu trữ được kết nối tới một máy chủ duy nhất. Sau đó kiến trúc này được m ở rộng cho phép các thiết bị lưu trữ được kết nối tới nhiều máy chủ cùng một lúc, mỗi m áy chủ được phép truy nhập tới m ột phân vùng của thiết bị lưu trữ này. Trong trường hợp này mặc dù thiết bị lưu trữ được kết nối với nhiều m áy chủ những vẫn được gọi là kết nối trực tiếp do việc kết nối thiết bị lưu trữ và m áy chủ được thực hiện trực tiếp mà không cần sử dụng bất kỳ thiết bị kết nối nào.
Các thiết bị lưu trữ này có thể đơn thuần chỉ là Iĩiột cụm các ổ cứng độc lập với nhau khi đó các thiết bị này được gọi là JBOD (Just a Bunch O f Disks). Các thiết bị lưu trữ có khả năng chống lại m ột số các sự cố với các ổ cứng với công nghệ R A ID (R edundant A rray of Independent Disks) được gọi là các tủ RAID.
Các giao thức cho việc kết nối trực tiếp có thể kể đến là:
• SCSI: kết nối SCSI là kết nối được sử dụng khá phổ biến. SCSI tạo ra kênh truyền song song tốc độ cao và ổn định giữa thiết bị lưu trữ. Băng thông hiện nay của kết nối SCSI có thể đặt được tới 160MB/S với chuẩn U ltra 160, Trong thời gian tới kết nối SCSI sẽ m ở rộng tới 320MB/S với chuẩn U ltra320. Tuy nhiên kết nối SCSI sử dụng cáp đồng vì vậy khoảng cách giữa m áy chủ và thiết bị lưu trữ ngắn (tối đa là 25m ) và hơn nữa trên mỗi kênh truyền không cho phép kết nối quá 16 thiết bị.
• FC (Fibre Channel): để giải quyết hạn ch ế của kết nối SCSI, chuẩn FC đã được đưa ra. Khác với kết nối SCSI dùng cơ ch ế truyền song song, kết nối FC sử dụng kênh truyền nối tiếp. Kết nối FC cho phép chúng ta sử dụng cả cáp đồng và cáp quang. Với cáp quang cho phép khoảng cách có thể kéo dài tới 10 km. Kết nối trực tiếp giữa máy chủ và thiết bị lưu trữ với chuẩn FC được gọi là kết nối
-53 -
điểm nối điểm (point-to-point). K ết nối này cho phép tối đa hai thiết bị trên một kênh truyền (ví dụ một máy chủ và một thiết bị lưu trữ). Băng thông của kết nối FC là lOOMB/s, m ột số thiết bị FC mới có băng thông là 200MB/S. Chuẩn FC cho phép băng thông có thể m ở rộng tới 400MB/S.
Ưu điểm của hệ thống lưu trữ kết nối trực tiếp là:
• Tính đơn giản: việc kết nối m áy chủ và thiết bị lưu trữ không cần thiết bị kết nối, không đòi hỏi trình độ cao khi thực hiện cài đặt hệ thống lưu trữ này
• Chí phí đầu tư ban đầu thấp: không đòi hỏi chi phí cho hệ thống kết nối, việc hoạch định hệ thống lưu trữ hết sức đơn giản
• Tốc độ cao: do hầu hết với truyền dữ liệu đều được làm trực tiếp bằng phần cứng, rất ít sự can thiệp bằng phần mểm.
• Có thể sử dụng cho m ọi ứng dụng
Tuy nhiên hệ thống lưu trữ kết nối trực tiếp có m ột số hạn ch ế sau:
• Khả năng m ở rộng hạn chế: hệ thống này rất hạn ch ế về số lượng
thiết bị có thể kết nối trên một kênh truyền
• Các kết nối riêng biệt: hạn ch ế việc các m áy chủ chia sẻ tài nguyên của hệ thống lưu trữ
• Tính năng: nói chung tính năng của các hệ thống lưu trữ này rất hạn chế, hầu hết mọi tĩnh năng của chúng đểu phụ thuộc vào máy chủ
• Sao lưu và bảo vệ dữ liệu khó: các dữ liệu nằm rải rác tại nhiều thiết bị, việc sao lưu giữ lưu không thể thực hiện theo m ột chính sách chung vì vậy việc sao lưu rất khó khăn, thời gian phục hồi lâu
• Tổng chi phí sở hữu cao: tuy chi phí đầu tư ban đầu thấp nhưng tổng chi phí sở hữu hệ thống lưu trữ này thường cao do không khai thác được hết dung lượng của các hệ thống lưu trữ (dung lượng dư thừa của m áy chủ này không thể sử dụng cho máy chủ khác), không có các công cụ trợ giúp việc quản lý... Với các hệ thống lưu trữ lớn chi phí quản lý thường cao hơn nhiều so với chi phí đầu tư ban đầu.
Do khả năng m ở rộng hạn chế và khả năng quản lý kém nên việc lựa chọn kiến trúc kết nối trực tiếp của hệ thống lưu trữ sẽ gây ra hạn ch ế rất lớn đối với việc phát triển các trung tâm dữ liệu kết nối Internet trong tương lai. Vì vậy hầu hết các trung tâm kết dữ liệu kết nối Internet không sử dụng kết nối trực tiếp trong kiến trúc của mình. Việc lựa chọn giải pháp này thường chỉ là giải pháp tình thế trong thời gian ban đầu mà thôi.
Để giải quyết các vấn đề đặt ra đối với hệ thống lưu trữ kết nối trực tiếp các hệ thống lưu trữ qua m ạng đã được xây dựng. Các hệ thống lưu trữ qua mạng hiện nay có thể kể đến là:
• SAN (Storage A rea Network): đây là m ột hệ thống mạng đặc biệt có tốc độ cao kết nối các m áy chủ và hệ thống lưu trữ với nhau. Hệ thống m ạng này sử dụng chuẩn FC trên kênh truyền. Kiến trúc này có khả năng mở rộng hầu như không hạn chế, có các công cụ hỗ trợ việc quản lý, tốc độ cao vì vậy đây thường là kiến trúc được sử dụng bởi hầu hết các trung tâm dữ liệu kết nối Internet hiện nay. • iSCSI (Internet SCSI) thực hiện giao thức SCSI thông qua mạng IP.
Do việc cho phép sử dụng hệ thống m ạng truyền dữ liệu cho hệ thống lưu trữ nên kiến trúc này có chi phí đầu tư ban đầu thấp cũng như chi phí quản lý thấp hơn hệ thống lưu trữ SAN. Tuy nhiên hệ thống này hiện nay có thông lượng thấp do các gói dữ liệu IP rất
nhỏ và việc xử lý các gói dữ liệu được thực hiện chủ yếu bằng