1.1. Mạng lưu trữ riêng biệt SAN (Storage Area Networks)
Xét tổng quan về phương diện kết nối, điểm khởi đầu của quá trình phát triển công nghệ lưu trữ (Hình 1) là khi các máy tính và máy chủ nhỏ được trang bị các ổ đĩa trong của riêng chúng. Với cách lưu trữ này, dung lượng lưu trữ không được lớn, thường chỉ có khả năng đáp ứng nhu cầu của người sử dụng đầu cuối. Khả năng mở rộng dung lượng, công nghệ bảo vệ tính toàn vẹn của dữ liệu (cụ thể là công nghệ RAID: Redundant Array of Independent Disks, cho phép phục hồi nguyên vẹn dữ liệu khi ổ đĩa cứng bị hỏng) còn rất hạn chế.
Bước phát triển tiếp theo là khi máy tính/máy chủ có kết nối riêng đến thiết bị lưu trữ bên ngoài của mình (có thể là đĩa cứng hoặc băng từ) qua đường kết nối hoạt động theo giao thức SCSI (Small Coumpter System Interface). Mỗi máy tính/máy chủ chỉ có quyền kiểm soát, quản trị thiết bị lưu trữ ngoài của chính mình. Với cách kết nối và quản lý cục bộ như vậy, rất khó có thể xây dựng được những hệ thống dữ liệu có dung lương cao, chưa nói đến việc không có được khả năng quản trị tập trung từ xa.
Một hướng phát triển khác là khi thiết bị lưu trữ được thiết kế để dữ liệu trên đó có thể được truy nhập qua mạng LAN thông thường. Điển hình là các thiết bị NAS (Network Attached Storage) chứa dữ liệu tập trung và cho phép chia sẻ dữ liệu ở mức file. Mặc dù đã phần nào giải quyết được vấn đề dung lượng và quản lý tập trung, nhưng việc truyền tải dữ liệu giữa thiết bị có nhu cầu sử dụng và thiết bị lưu trữ xảy ra trên hạ tầng mạng LAN thông thường, dùng giao thức mạng TCP/IP, gây hạn chế tốc độ truyền tải, dẫn đến hiệu năng hoạt động của cả hệ thống không được cao.
Những nhược điểm về tốc độ về hiệu năng được đẩy lùi trong bước phát triển tiếp theo với sự xuất hiện của công nghệ thiết lập mạng lưu trữ riêng biệt SAN (Storage Area Network). Mặc dù có thể tận dụng hạ tầng mạng IP để truyền tải luồng dữ liệu của mạng lưu trữ, điển hình là sự phát triển của các giao thức như iSCSI (Internet SCSI), FCIP (Fibre Channel over IP), iFCP (Internet Fibre Channel Protocol), nhưng những giao thức này chưa thật sự có được sự triển khai rộng rãi trong thực tế. Do đó, bài viết sẽ tập trung vào xu hướng công nghệ phổ biến nhất là mạng SAN sử dụng công nghệ quang FC (Fibre Channel), thường được nhắc đến với tên gọi FC SAN.
Hình 1: Các bước phát triển của công nghệ lưu trữ (từ trái qua phải): Lưu trữ cục bộ.
Lưu trữ tập trung, truy cập qua mạng LAN; Mạng lưu trữ riêng (SAN)
Vậy thế nào là mạng FC SAN? Thành phần của một mạng lưu trữ FC SAN bao gồm các thiết bị lưu trữ (tủ đĩa, thiết bị băng từ), các máy chủ sử dụng dữ liệu, và các bộ chuyển mạch SAN switch. Kết nối vật lý cơ bản trong một mạng FC SAN đơn giản được minh họa trong Hình 2.
Hình 2: Kết nối vật lý cơ bản của mạng FC SAN.
Cũng có thể nhìn một mạng SAN theo cách phân chia logic thành 3 lớp: Host layer, Fabric layer và Storage layer như hiển thị trong Hình 3. Host layer chứa các máy chủ chạy các ứng dụng có sử dụng dữ liệu được lưu trữ trong mạng SAN. Fabric layer chứa các bộ chuyển mạch SAN switch. Storage layer chứa các thiết bị lưu trữ như tủ đĩa ngoài và thiết bị băng từ.
Hình 3: Phân chia lớp trong mạng SAN.
Mạng SAN có quy mô càng lớn thì số lượng các thiết bị và kết nối (máy chủ, switch, tủ đĩa, thiết bị băng từ) sẽ càng nhiều. Mặc dù vậy, cấu trúc logic tổng quan 3 lớp (host layer, fabric layer, storage layer) như trong Hình 3 là không thay đổi.
Sử dụng mạng lưu trữ FC SAN mang lại những lợi ích chính sau:
Tăng hiệu năng hoạt động: Hiệu năng của hệ thống lưu trữ, và theo đó là của cả hệ thống IT được tăng lên đáng kể. Một mặt, tốc độ truyền tải trong mạng SAN với sự sử dụng công nghệ quang đạt đến tốc độ 4Gbps, giảm thời gian truy cập dữ liệu trong các quá trình sử dụng, sao lưu, phục hồi. Mặt khác, với mạng lưu trữ riêng SAN, luồng dữ liệu trong mạng LAN thông thường dùng giao thức mạng TCP/IP không còn cần phải chia sẻ đường truyền có dung lượng giới hạn với luồng dữ liệu của hệ thống lưu trữ, sao lưu. Sự tách rời riêng biệt này tối ưu hoá hoạt động của cả 2 mạng LAN và SAN.
Tăng tính linh hoạt của hệ thống lưu trữ: Sử dụng mạng SAN đem lại tính linh hoạt cao cho hệ thống lưu trữ. Các giao thức và công nghệ chuẩn dùng trong mạng SAN cho phép sử dụng nhiều chủng loại thiết bị lưu trữ của các nhà sản xuất khác nhau, khi họ cùng tuân thủ các chuẩn công nghiệp. Dung luợng lưu trữ trong mạng SAN có thể được sử dụng bởi nhiều máy chủ, nhiều ứng dụng khác nhau. Dung lương lưu trữ của cả mạng SAN có thể được mở rộng, nâng cấp dễ dàng. Hơn thế nữa, mạng SAN mở ra khả năng hợp nhất tài nguyên lưu trữ, nâng cao hiệu suất sử dụng của hệ thống lưu trữ, cho phép vận hành và quản lý hiệu quả hơn.
Giảm chi phí sở hữu (Totalcost of Ownership): đối với những DN có nhiều dữ liệu, mặc dù chi phí đầu tư ban đầu để xây dựng mạng SAN có thể lớn hơn chi phí xây dựng hệ thống lưu trữ thông thường, nhưng xét về tầm xa thì SAN là sự đầu tư hợp lý có chí phí sở hữu (bao gồm vận hành, quản lý, và bảo quản) không cao. Thứ nhất, sử dụng mạng SAN sẽ mở ra khả năng quản lý mềm dẻo, linh hoạt, và đơn giản, do đó giảm thiểu chi phí quản lý, quản trị. Thứ hai, mạng SAN còn hỗ trợ nhiều tính năng thuận lợi khác trong quá trình sử dụng (như hợp nhất lưu trữ, hỗ trợ phục hồi dữ liệu nhanh chóng sau sự cố, thảm hoạ...), làm tăng hiệu quả hoạt động của hệ thống, xứng đáng với chi phí đầu tư ban
đầu.
1.2. Lưu trữ dựa trên nguyên lý phân mức tầm quan trọng của dữ liệu
1.2.1. Tiered-storageÝ tưởng để xây dưng hệ thống lưu trữ theo môi trường phân mức (tiered-storage) bắt nguồn từ sự nhận thức và nhu cầu tiết kiệm chi phí hoạt động. Sẽ là lãng phí cho giá thành đầu tư và vận hành nếu mặc định rằng tất cả các dữ liệu đều quan trọng như nhau và do đó cần được lưu trữ bằng các thiết bị và công nghệ có giá thành cao giống nhau. Để tiết kiệm chi phí đầu tư và chi phí hoạt động, cách tốt hơn là lưu trữ dữ liệu theo cách và bằng thiết bị phù hợp với giá trị của chính nó. Tiêu chí để đánh giá giá trị của dữ liệu, hay nói cách khác tiêu chí để phân loại dữ liệu có thể là hiệu quả hoạt động do dữ liệu mang lại; tần suất được truy cập và sử dụng của dữ liệu; mức độ an toàn, bảo mật cần thiết cho dữ liệu; và một số các tiêu chí khác, tùy vào từng hệ thống cụ thể. Trước đây, trong các hệ thống lưu trữ truyền thống, việc phân chia thành 2 mức lưu trữ dữ liệu on-line và off-line là rất phổ biến. Dữ liệu dành cho các ứng dụng yêu cầu tính sẵn sàng cao, tốc độ hoạt động nhanh, cần truy cập nhiều sẽ được lưu trữ trên các thiết bị lưu trữ được sản xuất theo tiêu chí tối ưu hoá cho tốc độ hoạt động. Các thiết bị lưu trữ này có giá thành, chi phí quản lý, bảo quản và vận hành cao. Đây là mức lưu trữ on-line. Mức lưu trữ off-line dành cho các dữ liệu ít được sử dụng. Dữ liệu trong trường hợp này được chứa trên các băng từ, một phương pháp rẻ tiền hơn nhưng lại làm chậm tốc độ truy nhập đến dữ liệu.
Thực tế là theo quá trình phát triển của CNTT, nhiều loại dữ liệu có tính chất nằm giữa 2 loại dữ liệu on-line và off-line ở trên. Các dữ liệu này không thật sự có yêu cầu quá cao về tính sẵn sàng, cũng như không phải là dữ liệu then chốt cho ứng dụng. Nhưng bên cạnh đó vẫn cần phải được truy cập và xử lý nhiều lần bởi người sử dụng. Ví dụ điển hình cho loại dữ liệu này là các tập tin (file) có mức quan trọng không cao (như tranh ảnh giải trí) được nhiều người truy cập. Vì thế loại dữ liệu này được xếp vào một mức lưu trữ mới, gọi là mức near-line.
Ý tưởng tiered-storage với 3 mức on-line, near-line, off-line không phải hoàn toàn mới. Tuy nhiên điều đáng nói là sự xuất hiện của các công nghệ ổ đĩa lưu trữ mới đã cho phép việc triển khai thực tế của 3 mức lưu trữ trở nên khả thi. Công nghệ lưu trữ được sử dụng hiện nay cho mức on-line là các thiết bị hoạt động với các ổ đĩa quang FC (tốc độ
đọc/viết nhanh) hoặc SCSI, SAS (Serial Attached SCSI). Các ổ đĩa SATA (Serial ATA) hoặc FATA (Fibre Channel ATA) được dùng cho mức near-line và các băng từ được sử dụng cho mức off-line (Advanced Technology Attachment (ATA), còn được biết đến với tên gọi Intelligent Drive Electronics (IDE), là chuẩn của các ổ đĩa cứng được dùng trong máy tính cá nhân) . Hình 4 trình bày sự so sánh mang tính định hướng về giá thành giữa các mức lưu trữ dữ liệu. Có thể thấy, khi chuyển từ dùng các thiết bị với ổ đĩa FC sang ổ đĩa SATA và ổ băng từ, chi phí sở hữu (đầu tư và vận hành, bảo quản) tính theo đơn vị dung lượng GigaByte có thể giảm xuống nhiều lần, đem lại mức chênh lệch rất lớn. Tuy nhiên sự giảm chi phí sở hữu có được là do các chỉ số về hiệu năng của từng công nghệ ổ đĩa giảm dần theo thứ tự ổ đĩa FC, SATA và FATA. Hiệu năng của ổ đĩa cứng (Bảng 1) được đánh giá dựa vào các yếu tố dung lượng, tốc độ quay (càng cao càng tốt vì tỷ lệ thuận với tốc độ đọc dữ liệu), thời gian trung bình để đọc/ghi dữ liệu, tốc độ truyền tải dữ liệu tối đa. Cũng vì vậy, khi chọn lựa mức lưu trữ phù hợp cho dữ liệu, cần cân nhắc giữa mức quan trọng của dữ liệu, chi phí đầu tư cho phép và các chỉ số hiệu năng của từng loại ổ đĩa. Tất nhiên việc phân loại giá trị của dữ liệu để xác định mức lưu trữ phù hợp mang tính chủ quan, phụ thuộc vào tính chất hoạt động của từng DN và vào từng trường
hợp cụ thể.
Hình 4: So sánh các mức lưu trữ on-line, near-line và off-line Bảng 1: So sánh hiệu năng các công nghệ ổ đĩa cứng
SATA FATA FC FC tốc độ cao Dung lượng (capacity)
/ 1 đĩa 250, 500 GB500 GB 73, 146, 300 GB 73, 146 GB Tốc độ quay (Rotational speed) 7,200 rpm (rotatio n per minute) 7,20 0 rpm 10,000 rpm 15,000 rpm Thời gian đọc trung
bình (Average Read) 8.5 ms 8.5 ms 4.9 ms 3.5 ms Thời gian ghi trung
bình
(Average Write)
9.5 ms 9.5 ms 5.5 ms 4.0 ms
Tốc độ truyền tối đa (Max. sustained data transfer rate) 34-59 MB/sec 34- 59 MB/ sec 39 – 80 MB/s 58 – 96 MB/s