LƯU TRỮ DỮ LIỆU DỰA TRÊN NGUYÊN LÝ PHÂN MỨC

Một phần của tài liệu Mô phỏng hệ thống SAN trên môi trường Cluster (Trang 57)

2.7.1 Tiered-storage

Ý tưởng để xây dưng hệ thống lưu trữ theo môi trường phân mức (tiered-storage) bắt nguồn từ sự nhận thức và nhu cầu tiết kiệm chi phí hoạt động. Sẽ là lãng phí cho giá thành đầu tư và vận hành nếu mặc định rằng tất cả các dữ liệu đều quan trọng như nhau và do đó cần được lưu trữ bằng các thiết bị và công nghệ có giá thành cao giống nhau. Để tiết kiệm chi phí đầu tư và chi phí hoạt động, cách tốt hơn là lưu trữ dữ liệu theo cách và bằng thiết bị phù hợp với giá trị của chính nó. Tiêu chí để đánh giá giá trị của dữ liệu, hay nói cách khác tiêu chí để phân loại dữ liệu có thể là hiệu quả hoạt động do dữ liệu mang lại; tần suất được truy cập và sử dụng của dữ liệu; mức độ an toàn, bảo mật cần thiết cho dữ liệu; và một số các tiêu chí khác, tùy vào từng hệ thống cụ thể

Trước đây trong các hệ thống lưu trữ truyền thống, việc phân chia thành 2 mức lưu trữ dữ liệu on-line và off-line là rất phổ biến. Dữ liệu dành cho các ứng dụng yêu cầu tính sẵn sàng cao, tốc độ hoạt động nhanh, cần truy cập nhiều sẽ được lưu trữ trên các thiết bị lưu trữ được sản xuất theo tiêu chí tối ưu hoá cho tốc độ hoạt động. Các thiết bị lưu trữ này có giá thành, chi phí quản lý, bảo quản và vận hành cao. Đây là mức lưu trữ on-line.

Mức lưu trữ off-line dành cho các dữ liệu ít được sử dụng. Dữ liệu trong trường hợp này được chứa trên các băng từ, một phương pháp rẻ tiền hơn nhưng lại làm chậm tốc độ truy nhập đến dữ liệu.

Thực tế là theo quá trình phát triển của công nghệ thông tin, nhiều loại dữ liệu có tính chất nằm giữa 2 loại dữ liệu on-line và off-line ở trên. Các dữ liệu này không thật sự có yêu cầu quá cao về tính sẵn sàng, cũng như không phải là dữ liệu then chốt cho ứng dụng. Nhưng bên cạnh đó vẫn cần phải được truy cập và xử lý nhiều lần bởi người sử dụng. Ví dụ điển hình cho loại dữ liệu này là các tập tin (file) có mức quan trọng không cao (như tranh ảnh giải trí) được nhiều người truy cập. Vì thế loại dữ liệu này được xếp vào một mức lưu trữ mới, gọi là mức near-line.

Ý tưởng tiered-storage với 3 mức on-line, near-line, off-line không phải hoàn toàn mới. Tuy nhiên điều đáng nói là sự xuất hiện của các công nghệ ổ đĩa lưu trữ mới đã cho phép việc triển khai thực tế của 3 mức lưu trữ trở nên khả thi. Công nghệ lưu trữ được sử dụng hiện nay cho mức on-line là các thiết bị hoạt động với các ổ đĩa quang FC (tốc độ đọc/viết nhanh) hoặc SCSI, SAS (Serial Attached SCSI). Các ổ đĩa SATA (Serial ATA) hoặc FATA (Fibre Channel ATA) được dùng cho mức near-line và các băng từ được sử dụng cho mức off-line (Advanced Technology Attachment (ATA), còn được biết đến với tên gọi Intelligent Drive Electronics (IDE), là chuẩn của các ổ đĩa cứng được dùng trong máy tính cá nhân) .

Hình dưới trình bày sự so sánh mang tính định hướng về giá thành của các mức lưu trữ dữ liệu. Có thể thấy, khi chuyển từ dùng các thiết bị với ổ đĩa FC sang ổ đĩa SATA và ổ băng từ, chi phí sở hữu (đầu tư và vận hành, bảo quản) tính theo đơn vị dung lượng GigaByte có thể giảm xuống nhiều lần, đem lại mức chênh lệch rất lớn. Tuy nhiên sự giảm chi phí sở hữu có được là do các chỉ số về hiệu năng của từng công nghệ ổ đĩa giảm dần theo thứ tự ổ đĩa FC, SATA và FATA. Hiệu năng của ổ đĩa cứng được đánh giá dựa vào các yếu tố dung lượng, tốc độ quay (càng cao càng tốt vì tỷ lệ thuận với tốc độ đọc dữ liệu), thời gian trung bình để đọc/ghi dữ liệu, tốc độ truyền tải dữ liệu tối đa.

Cũng vì vậy, khi chọn lựa mức lưu trữ phù hợp cho dữ liệu, cần cân nhắc giữa mức quan trọng của dữ liệu, chi phí đầu tư cho phép và các chỉ số hiệu năng của từng loại

ổ đĩa. Tất nhiên việc phân loại giá trị của dữ liệu để xác định mức lưu trữ phù hợp mang tính chủ quan, phụ thuộc vào tính chất hoạt động của từng doanh nghiệp và vào từng trường hợp cụ thể.

Hình 2.22 So sánh các mức lưu trữ on-line, near-line và off-line Bảng 2.4.1 so sánh hiệu năng các công nghệ ổ đĩa cứng

SATA FATA FC FC tốc độ cao

Dung lượng (capacity)/1 đĩa 250,500 GB 500 GB 73,146,300 GB 73,146 GB Tốc độ quay (Rotational speed) 7,200 rpm (rotation per minute) 7,200 rpm 10,000 rpm 15,000 rpm Thời gian đọc trung bình 8,5 ms 8,5 ms 4,9 ms 3,5 ms

Bảng 2.4.2 so sánh hiệu năng các công nghệ ổ đĩa cứng

(Average Read) SATA FATA FC FC tốc độ cao

Thời gian ghi trung bình (Average Write) 9,5 ms 9,5 ms 5,5 ms 4,0 ms Tốc độ truyền tối đa (Max sustained data transfer rate)

2.7.2 Informate Lifecycle Management

Cùng với xu hướng phân mức lưu trữ tiered-storage là xu hướng tiến tới phương thức quản lý dữ liệu theo vòng đời của chúng, hay còn gọi là ILM (Information LifeCycle Management). ILM quản lý việc lưu trữ dữ liệu hợp lý tùy theo mức độ quan trọng và tùy theo từng thời điểm trong vòng đời của dữ liệu. Tầm quan trọng của dữ liệu trước hết phụ thuộc một cách chủ quan vào đối tượng sử dụng. Ví dụ trong một doanh nghiệp, đối với bộ phận nhân sự, bản danh sách chứa bảng lương cụ thể và cập nhật của tất cả các nhân viên trong doanh nghiệp có tầm quan trọng cao hơn hẳn so với thông tin hồ sơ của các cá nhân. Mặt khác, cùng một dữ liệu nhưng tại mỗi thời điểm khác nhau, nhu cầu sử dụng và truy cập, và theo đó là tầm quan trọng của dữ liệu sẽ khác nhau. Ví dụ văn bản (có giá trị thi hành theo từng năm) quy định mức độ đãi ngộ và bảo hiểm y tế của nội bộ công ty trong năm hiện tại, sẽ được nhiều nhân viên truy cập rất nhiều lần trong năm đó, nhưng 10 năm sau sẽ hầu như không được truy cập đến nữa.

Hình 2.23 Tầm quan trọng của dữ liệu thay đổi theo thời gian

Hình trên cho thấy mức độ quan trọng của dữ liệu, theo các thể loại email, kinh doanh, nghiên cứu, quảng bá, đều thay đổi theo dòng thời gian. Đồng thời Hình 2.16 cũng đề xuất các mức lưu trữ phù hợp gán cho dữ liệu trong từng thời điểm. Có thể thấy, tầm quan trọng của dữ liệu kinh doanh thể hiện sự biến thiên theo đường hình sin (đường màu đỏ) trong một giai đoạn nhất định. Trong giai đoạn này, on-line hoặc near-line là

phương thức lưu trữ hợp lý. Sau một thời gian, mức quan trọng của dữ liệu kinh doanh giảm dần một cách rõ rệt và khi đó nên được lưu trữ dưới dạng off-line, trước khi bị hủy bỏ hoàn toàn. Tầm quan trọng của dữ liệu thư điện tử (email) giảm nhanh chóng theo thời gian (đường màu vàng). Sự biến thiên cho các dữ liệu thể loại nghiên cứu, quảng cáo cũng có thể suy ra dễ dàng từ hình vẽ. Tại mỗi thời điểm, dữ liệu sẽ được lưu trữ tại mức (on-line, near-line hay off-line) phù hợp với tầm quan trọng của chúng. Như vậy có thể thấy tiered-storage là một biện pháp hỗ trợ thực hiện ILM.

Theo các kết quả thống kê trong thực tế trên thể giới, lượng dữ liệu của một doanh nghiệp có mức tăng trưởng từ 30 đến 70% theo từng năm. Với tốc độ tăng trưởng như vậy, cùng với sự phân hoá mức quan trọng của dữ liệu như đã phân tích ỏ trên, sẽ là bất hợp lý và gây lãng phí lớn nếu tất cả dữ liệu được chứa ở mức on-line, mức có chi phí sở hữu cao nhất. Tăng chi phí quản lý, tăng độ phức tạp trong quản trị dữ liệu của hệ thống, tăng các chi phí vận hành là những nhược điểm của biện pháp lưu trữ dữ liệu chỉ ở cùng 1 mức on-line.

ILM giải quyết vấn đề xác định đúng vị trí (mức) cần được lưu trữ của dữ liệu và giải quyết việc chuyển đổi vị trí dữ liệu khi cần thiết. Các quá trình xác định và chuyển đổi vị trí như vậy sẽ được tiến hành một cách tự động, tuân thủ theo những nguyên tắc được người quản trị hệ thống thiết lập sẵn.

Áp dụng ILM mang lại những lợi ích cơ bản như sau:

o Tạo phương pháp quản lý và kiểm soát được hệ thống lưu trữ dữ liệu cũng như quản lý và kiểm soát chi phí cho lưu trữ.

o Tăng độ linh hoạt cho hệ thống lưu trữ.

o Tự động hoá vị trí, mức lưu trữ cho dữ liệu phù hợp với yêu cầu, bắt đầu ngay từ thời điểm dữ liệu được tạo ra.

o Tăng hiệu quả sử dụng của hệ thống lưu trữ nhờ vào cách quản lý và kiểm soát tự động theo những quy tắc định trước.

Nhìn nhận được tầm quan trọng của ILM, các hãng sản xuất thiết bị lưu trữ (như IBM, HP, EMC, SUN…) nói chung đều có sự đầu tư phát triển những sản phẩm phục vụ dịch

khách hàng tập hợp các tính năng ILM. Một mặt, tiered-storage, nhân tố quan trọng hỗ trợ thực hiện ILM, được hầu hết các hãng sản xuất hỗ trợ bằng cách cung cấp các dải sản phẩm thiết bị lưu trữ đa dạng (với các ổ đĩa FC, SAS, SCSI, SATA, băng từ). Mặt khác, các hãng còn cung cấp thêm những sản phẩm phần mềm, hoặc sản phẩm tích hợp phần cứng và phần mềm phục vụ mục đích ILM. Ví dụ hãng IBM có các sản phẩm như IBM

TotalStorage SAN File System (sản phẩm tích hợp cả phần cứng và phần mềm, cho phép

thiết lập một hệ thống tập tin (file system) chung trong mạng SAN để thực hiện một cách tự động các nguyên tắc lưu trữ dữ liệu), hoặc IBM Tivoli Storage Manager (sản phẩm phần mềm quản trị quá trình sao lưu, bảo tồn, hoặc sử dụng dữ liệu cho dịch vụ phục hồi thảm họa).

2.8 SAO LƯU PHỤC HỒI DỮ LIỆU TRONG MẠNG LƯU TRỮ

Các mạng lưu trữ riêng biệt SAN sử dụng giao thức quang tốc độ cao đang trở nên phổ biến và được triển khai ngày càng rộng rãi. Thiết bị băng từ sẽ không nhất thiết phải kết nối trực tiếp đến máy chủ backup, mà được kết nối vào mạng SAN qua các thiết bị chuyển mạch (SAN switch).

Luồng dữ liệu sao lưu sẽ được chuyển tải qua mạng SAN, tách biệt với cơ sở hạ tầng dùng cho các luồng dữ liệu khác trong mạngdữ liệu điều khiển sao lưu (mũi tên màu xanh) là vẫn sử dụng mạng LAN, còn luồng dữ liệu sao lưu (mũi tên màu đỏ) thì đi qua mạng lưu trữ riêng biệt SAN sử dụng công nghệ truyền dẫn quang. Về mặt dung lượng, luồng dữ liệu điều khiển sao lưu là không đáng kể, do đó những hiệu ứng bất lợi được liệt kê trong trường hợp sao lưu qua mạng LAN vì sự chia sẻ đường truyền sẽ không còn tồn tại.

Hình 2.24 Sao lưu qua mạng SAN

Hình trên minh họa phương thức sao lưu qua mạng SAN, có thể thấy vai trò của các máy chủ trong cả quy trình sao lưu là rất lớn. Cả luồng dữ liệu điều khiển sao lưu (mũi tên màu xanh), cả luồng dữ liệu sao lưu (mũi tên màu đỏ) đều đi qua máy chủ cần được backup và máy chủ backup (tức là máy chủ có cài phần mềm quản lý sao lưu tập trung). Các máy chủ cần phải xử lý luồng dữ liệu đi qua nó, định tuyến cho luồng dữ liệu đến thiết bị băng từ. Nói cách khác, các máy chủ phải có đủ tài nguyên (CPU, memory, cache…) để xử lý luồng dữ liệu sao lưu. Lượng dữ liệu cần sao lưu càng nhiều thì yêu cầu về tài nguyên cho các máy chủ backup càng lớn. Nói cách khác, khi quá trình sao lưu đang diễn ra, tài nguyên của các máy chủ tham gia vào quá trình sẽ không còn nhiều cho các ứng dụng khác có nhu cầu sử dụng các máy chủ đó.

Hình 2.25 Sao lưu qua mạng SAN, giảm thiểu vai trò của máy chủ backup

Phương thức sao lưu qua mạng SAN, đồng thời giảm thiểu vai trò của máy chủ backup ra đời xuất phát từ nhu cầu giảm thiểu khối lượng công việc mà các máy chủ tham gia trong quá trình sao lưu phải xử lý. Như có thể thấy hình trên, trong biện pháp này, luồng dữ liệu sao lưu (mũi tên màu đỏ) không còn đi qua các máy chủ nữa. Thay vào đó luồng dữ liệu sao lưu sẽ được truyền tải trực tiếp từ thiết bị lưu trữ đến thiết bị băng từ thông qua một thiết bị trung gian chuyên dụng trong mạng SAN gọi là Data Mover. Thiết bị này có thể là một thiết bị vật lý riêng biệt (ví dụ Storage Router của hãng Crossroads hay SAN Data Gateway 2108-G07 của hãng IBM), nhưng cũng có thể được tích hợp sẵn trong các thiết bị chuyển mạch quang (ví dụ dòng SAN switch MDS 9000 của hãng Cisco).

Sự giảm tải đáng kể cho các máy chủ cho phép dành tài nguyên của các máy chủ đó để phục vụ thêm cho các ứng dụng khác. Nhưng bên cạnh đó, việc bắt buộc phải có thiết bị trung gian Data Mover cũng tương đương với việc tăng chi phí đầu tư ban đầu. Do đó cần tùy vào từng trường hợp thiết kế hệ thống sao lưu cụ thể để đánh giá lợi ích tựu chung có được do áp dụng phương thức sao lưu này, và từ đó quyết định có nên đầu tư đưa vào sử dụng hay không.

2.9 ẢO HÓA HỆ THỐNG LƯU TRỮ (STORAGE VIRTUALIZATION)

Lượng dữ liệu doanh nghiệp cần lưu trữ và sử dụng cho hoạt động của mình ngày càng tăng nhanh theo thời gian. Điều này đòi hỏi doanh nghiệp phải đầu tư, mua sắm các thiết bị lưu trữ để mở rộng và nâng cấp dung lượng khi có như cầu phát sinh. Do nhiều lý do khách quan như lịch sử hoạt động, năng lực đầu tư của doanh nghiệp tại thời điểm phát sinh nhu cầu, ảnh hưởng của hiện trạng công nghệ, của thị trường và thị phần lưu trữ tại thời điểm đầu tư vv…, tình trạng phổ biến là mỗi doanh nghiệp thường sở hữu nhiều loại thiết bị lưu trữ với dung lượng khác nhau, xuất xứ từ nhiều hãng sản xuất khác nhau, có nguyên lý hoạt động không giống nhau. Nói cách khác, hệ thống lưu trữ của doanh nghiệp mang nặng tính không đồng bộ, không thống nhất. Với thực trạng như vậy, bài toán đặt ra là phải làm thế nào để có thể sử dụng có hiệu quả nhất hệ thống lưu trữ đó?

Sáng kiến mang tính nền tảng để giải quyết cho bài toán ở trên là phải hợp nhất ở mức logic tất cả các dung lương lưu trữ trong hệ thống. Sao cho đối với người sử dụng, tất cả hệ thống lưu trữ được coi như một nguồn lưu trữ duy nhất mà trên đó người sử dụng có thể thực hiện các tác nghiệp về lưu trữ dữ liệu một cách thuận tiện.

Việc giải quyết hợp nhất ở mức logic các thiết bị lưu trữ khác nhau về phiên bản, xuất xứ, nguyên lý hoạt động thành một nguồn lưu trữ duy nhất, chính là quá trình ảo hoá lưu trữ. Gọi là ảo hoá, vì người sử dụng sẽ chỉ nhìn thấy một nguồn lưu trữ duy

nhất, trong khi thực tế về mặt vật lý thì không phải như vậy. Các thiết bị lưu trữ đã được ảo hoá, hợp nhất thành một nguồn lưu trữ chung. Người quản trị hệ thống sẽ có quyền điều khiển, quản lý nguồn lưu trữ được hợp nhất ở mức logic, tạo và sửa đổi vai trò của các thiết bị lưu trữ vật lý trong nguồn lưu trữ logic đó.

Ảo hoá lưu trữ thường được thực hiện bởi các phần mềm chuyên dụng. Phần mềm chuyên dụng có thể được cài đặt và tích hợp trực tiếp trên các máy chủ chạy ứng dụng của hệ thống hoặc cũng có thể cài đặt/tích hợp trên thiết bị lưu trữ. Tuy nhiên, xu hướng hiện nay là ảo hoá được thực hiện trong mạng SAN, trong đó phần mềm chuyên dụng được cài đặt vào các bộ chuyển mạch hoặc các máy chủ chuyên dụng. Trong các sản phẩm có mặt trên thị trường, nổi bật có thế nhắc đến SVC (SAN

Một phần của tài liệu Mô phỏng hệ thống SAN trên môi trường Cluster (Trang 57)

Tải bản đầy đủ (PDF)

(104 trang)