CHƢƠNG 2 CÔNG NGHỆ MẠNG LƢU TRỮ SAN
3.2. Thiết kế mạng lƣu trữ cho Kho lƣu trữ điện tử của VPTW
3.2.1. Hiện trạng công nghệ thông tin tại VPTW
- Hiện trạng cơ sở hạ tầng mạng và thiết bị lưu trữ:
Hiện tại, Kho lƣu trữ Trung ƣơng Đảng đặt tại Văn phòng Trung ƣơng (VPTW) đang thu thập và bảo quản một khối lƣợng lớn tài liệu của Trung
ƣơng Đảng trong suốt quá trình từ khi thành lập đến nay, tài liệu chủ yếu dƣới dạng các tài liệu giấy, băng từ và các đối tƣợng vật lý khác.
Thực hiện đề án tin hoá hoạt động các cơ quan Đảng, từ năm 2000 tại VPTW đã nghiên cứu đề án “Điện tử hoá Kho lƣu trữ Trung ƣơng Đảng”, đề án này đƣợc thực hiện trong nhiều giai đoạn. Trong giai đoạn đầu tiên (2001- 2005), VPTW đã tiến hành xây dựng dự án hệ thống cơ sở dữ liệu dùng chung và số hoá một phần tài liệu trong Kho lƣu trữ Trung ƣơng Đảng. Trong giai đoạn thứ hai (2006-2010), VPTW thực hiện Dự án xây dựng Kho lƣu trữ điện tử, trong đó tập trung vào một số mục tiêu sau: tiếp tục tiến hành số hoá một số lƣợng lớn tài liệu (khoảng hơn 1.000.000 trang tài liệu điện tử); xây dựng một kho lƣu trữ điện tử hiện đại có khả năng lƣu trữ lƣợng lớn tài liệu điện tử và nâng cấp hệ thống lƣu trữ hiện tại.
Về hiện trạng cơ sở hạ tầng mạng tại Văn phòng Trung ƣơng. Mạng VPTW là mạng máy tính cục bộ (LAN) kết nối với mạng diện rộng của Đảng (WAN). Mạng thông tin diện rộng của Đảng đƣợc nâng cấp sang sử dụng công nghệ IP kết nối tốc độ cao tới cấp huyện qua dịch vụ MegaWAN. Mô hình mạng LAN xây dựng dựa trên phƣơng thức chia sẻ tài nguyên dùng chung. Hệ thống mạng LAN của VPTW (gồm nhiều LAN nhỏ) có: hệ thống đƣờng truyền, hệ thống máy chủ và các máy trạm (khoảng 200 máy trạm). Hệ thống đƣờng truyền (cơ sở hạ tầng mạng) có 1 switch trung tâm và 9 switch con nằm tại các đơn vị trực thuộc VPTW, các switch nối với nhau bằng cáp quang (tốc độ gigabit), các máy trạm nối với switch bằng cáp xoắn (tốc độ 10/100 Mbps). Cơ sở hạ tầng mạng LAN hiện nay về cơ bản đã đáp ứng yêu cầu hiện tại và đáp ứng yêu cầu công nghệ đến năm 2010, nên dự án không cần đầu tƣ thêm về cơ sở hạ tầng mạng.
Hệ thống máy chủ gồm 2 hệ thống, hệ thống máy chủ mạng có chức năng quản lý và điều hành mạng, hệ thống máy chủ ứng dụng có chức năng chạy các phần mềm dùng chung (phần mềm quản lý cơ sở dữ liệu, phần mềm điều hành tác nghiệp). Mô hình giải pháp phần mềm là mô hình Client/Server
gồm hai phần: phần hoạt động trên máy phục vụ gọi là phần phía Server và phần hoạt động trên trạm làm việc gọi là phần phía Client. Hệ thống máy chủ ứng dụng theo mô hình giải pháp DAS gồm: hai máy chủ ứng dụng chạy theo cơ chế cluster và thiết bị lƣu trữ là hệ thống ổ cứng ngoài gắn trực tiếp với hệ thống máy chủ ứng dụng. Thiết bị lƣu trữ có tổng dung lƣợng 300 GB, lƣu trữ 60.000 tệp ảnh tài liệu định dạng BMP (5MB/ảnh) và JPG (500KB/ảnh). Hiện nay, hệ thống lƣu trữ đang đáp ứng các yêu cầu khai thác dữ liệu cho 50 cổng truy cập trực tiếp. Tuy nhiên, khả năng nâng cấp thiết bị lƣu trữ hay mở rộng dung lƣợng lƣu trữ (thay thế và mua thêm ổ cứng) là khó thực hiện do công nghệ sản xuất từ năm 2001 nên thiết bị thay thế không còn sản xuất, chi phí nâng cấp rất tốn kém. Khả năng đáp ứng hiệu suất khai thác không cao, hiệu suất đáp ứng của hệ thống DAS cho 50 cổng truy cập đồng thời đạt 21%.
Do vậy, dự án phải đầu tƣ xây dựng giải pháp lƣu trữ có khả năng lƣu trữ lƣợng lớn tài liệu số hoá (1.000.000 tài liệu), đáp ứng hiệu suất khai thác cao.
3.2.2. Mục tiêu của Dự án xây dựng Kho lưu trữ điện tử, phạm vi nghiên cứu của luận văn.
Thực hiện đề án tin học hóa hoạt động của các cơ quan Đảng giai đoạn 2006-2010, VPTW sẽ không tập trung đầu tƣ vào nâng cấp mạng cơ sở hạ tầng LAN mà tập trung vào xây dựng khối lƣợng thông tin lớn hơn phục vụ nhu cầu khai thác trên mạng, do đó dự án kho lƣu trữ điện tử đƣợc xây dựng.
Mục tiêu dự án xây dựng kho lưu trữ điện tử: Kho lƣu trữ điện tử (KLTĐT) là trung tâm dữ liệu tập hợp các nguồn tài nguyên số hoá từ các nguồn tài nguyên lƣu trữ để phục vụ tra cứu tập trung qua kỹ thuật truy cập điện tử, đồng thời là nơi bảo tồn các nguồn tài nguyên.
Nội dung của dự án. Dự án Kho lƣu trữ điện tử thực chất là xây dựng trung tâm dữ liệu với 3 nội dung hay 3 hạng mục công trình nhƣ sau:
<1> Xây dựng nguồn tài nguyên;
<2> Xây dựng mạng lƣu trữ cho kho lƣu trữ điện tử;
lý tài liệu đƣợc phát triển trên nền cơ sở dữ liệu.
<1> Xây dựng Nguồn tài nguyên cho Kho lƣu trữ điện tử: Số hoá khoảng 1.000.000 trang tài liệu giấy, 2000 tài liệu audio và video... . Tài liệu giấy đƣợc số hoá thành tệp ảnh có định dạng BMP và JPG (có dung lƣợng trung bình 5MB/1 tệp ảnh BMP và 500K/1 tệp ảnh JPG), tài liệu audio/video số hoá thành tệp media với dung lƣợng bình quân 500M/1 tệp media.
<2> Xây dựng mạng lƣu trữ (phần cứng). Để xây dựng một kho lƣu trữ điện tử, trƣớc hết, VPTW phải xây dựng cơ sở hạ tầng là mạng lƣu trữ hiện đại có các yêu cầu chính nhƣ sau: Lƣu trữ lƣợng dữ liệu điện tử lớn; đáp ứng yêu cầu khai thác hay truy cập dữ liệu tài liệu với hiệu suất cao; hệ thống thiết bị hoạt động ổn định, sẵn sàng cao, tối ƣu các giải pháp sao lƣu, phục hồi và an toàn dữ liệu, bảo mật dữ liệu hiệu quả…
<3> Xây dựng cơ sở dữ liệu nền (phần mềm). Xây dựng hệ cơ sở dữ liệu tài liệu và phần mềm quản lý thông tin về tài liệu, thông tin liên kết đến toàn văn tài liệu (ảnh tài liệu) lƣu trữ trong hệ thống lƣu trữ. Hệ cơ sở dữ liệu và phần mềm đƣợc cài đặt trên hệ thống các máy chủ ứng dụng. Hệ cơ sở dữ liệu và phần mềm phải đáp ứng đƣợc các giải pháp tra cứu thông tin bao gồm thông tin về tài liệu (trong cơ sở dữ liệu chạy trên máy chủ ứng dụng) và thông tin toàn văn tài liệu (tệp ảnh lƣu trong hệ thống lƣu trữ).
- Phạm vi nghiên cứu của luận văn:
Đối với Dự án xây dựng kho lưu trữ điện tử của VPTW, nội dung nghiên cứu của luận văn phù hợp với nội dung của hạng mục <2> Xây dựng mạng
lưu trữ. Tuy nhiên, phạm vi của luận văn chỉ tập trung vào nghiên cứu giải
pháp tối ưu cho mạng lưu trữ của Kho lưu trữ điện tử trong giai đoạn 2006-2010, đáp ứng các chỉ tiêu thiết kế sau:
+ Thiết bị lƣu trữ có khả năng lƣu trữ dung lƣợng 12 TB bao gồm:
TT Tài nguyên số hoá Số lƣợng Dung lƣợng 1 Tệp ảnh BMP (5MB/tệp ảnh) 1.000.000 ảnh ≈ 5TB 2 Tệp ảnh JPG (500KB/tệp ảnh) 1.000.000 ảnh ≈ 1TB
3 Tệp media (500MB/tệp) 2000 tệp ≈ 1TB 4 Dữ liệu: hệ thống, cơ sở dữ liệu, nguồn
dữ liệu số hoá đang xử lý…
≈ 4TB
5 Nguồn dữ liệu bổ sung sau 2010. ≈ 1TB
Bảng 3.1
+ Hệ thống máy chủ ứng dụng trong mạng lƣu trữ đáp ứng yêu cầu khai thác với số lƣợng lớn từ mạng LAN (WAN qua LAN), đáp ứng cho hiện tại là 50 cổng, có thể nâng lên 100 cổng truy cập trực tiếp.
3.2.3. Lựa chọn công nghệ cho mạng lưu trữ SAN
3.2.3.1. Các tiêu chí lựa chọn mạng lưu trữ SAN
Với các mục tiêu xây dựng hệ thống lƣu trữ cho Kho lƣu trữ điện tử đã đề ra, có nhiều giải pháp để xây dựng: Giải pháp thứ nhất là xây dựng hệ thống lƣu trữ DAS mới với dung lƣợng lƣu trữ lên 12TB. Tuy nhiên, mô hình DAS còn nhiều hạn chế nhƣ đã đề cập tại chƣơng1, trong đó hạn chế chính là giải pháp sao lƣu và phục hồi dữ liệu khi thiết bị sao lƣu và thiết bị lƣu trữ liên kết với nhau qua máy chủ và mạng LAN với băng thông thấp thấp, ảnh hƣớng đến lƣu thông trên mạng LAN và tăng xử lý trực tiếp từ CPU của máy chủ. Giải pháp thứ hai là xây dựng mạng lƣu trữ NAS cũng với dung lƣợng 12TB với chi phí không lớn hơn nhiều với giải pháp thứ nhất, khả năng triển khai mạng dẽ dàng và thân thiện bởi nó phát triển trên nền tảng mạng Ethernet quen thuộc. Tuy nhiên, mô hình NAS thiên về chia sẻ chung cho toàn mạng LAN, trong khi mục tiêu đề ra của dự án chỉ tập trung hệ thống lƣu trữ dữ liệu phục vụ chính cho hệ thống máy chủ chạy phần mềm ứng dụng dùng chung. Ngoài ra, NAS có hạn chế là thiết bị lƣu trữ, thiết bị sao lƣu không tách khỏi mạng LAN nên khi các thiết bị triển khai công việc lƣu trữ (sao lƣu, nâng cấp thiết bị lƣu trữ…) sẽ ảnh hƣớng đến lƣu thông trên mạng LAN và hiệu suất không cao bởi tốc độ truy suất thấp. Giải pháp thứ ba là xây dựng mạng lƣu trữ SAN có thể đáp ứng các mục tiêu đề ra bởi các đặc tính nổi trội, tuy nhiên chí phí cho đầu tƣ cao hơn giải pháp lƣu trữ DAS, NAS.
(SAN) bởi SAN sẽ cho phép dễ dàng quản lý và khai thác hệ thống dựa trên các chuẩn công nghệ mở, tƣơng thích với nhiều hệ điều hành, nhiều cơ sở dữ liệu, dẽ dàng phân luồng dữ liệu, bảo mật thông tin tốt nhất. Cụ thể:
- Mô hình mạng. SAN thiết lập một hệ thống lƣu trữ tách ra khỏi máy chủ và mạng LAN để tạo thành mạng cục bộ riêng với các thiết bị lƣu trữ và phần mềm quản lý lƣu trữ để đảm nhận các công việc lƣu trữ cho máy chủ, giảm thiểu các tác vụ lƣu trữ cho máy chủ. Đồng thời, SAN tạo ra một khu vực truy cập rộng cho các máy chủ, cho ngƣời sử dụng và cho các ứng dụng truy xuất hay trao đổi.
- Lưu trữ tập trung. Mạng lƣu trữ phải đƣợc thiết kế theo mô hình tập
trung bao gồm: tập trung dữ liệu, tập trung thiết bị lƣu trữ và sao lƣu của toàn mạng LAN. Qua đó, áp dụng thống nhất các biện pháp: quản lý dữ liệu, triển khai các ứng dụng chung, điều hành hệ thống mạng hoạt động, áp dụng các biện pháp bảo vệ dữ liệu an toàn, nâng cấp hệ thống, đầu tƣ tập trung...
- Chia sẻ dữ liệu. Dƣ̃ liê ̣u đƣợc lƣu trƣ̃ tập trung , thuận lợi cho chia sẻ dữ liệu ở mức đô ̣ sẵn sàng cao với nhiều máy chủ ứng dụng, chia sẻ chung cho tất cả các máy khách trên toàn mạng LAN thông qua máy chủ, giảm thiểu các phiên bản dữ liệu khác nhau đƣợc tạo ra trên toàn hệ thống;
- Tính năng hệ thống : SAN duy trì tính ổn định của hệ thống thông qua
khả năng điều hành và dự phòng linh hoạt. Các thiết bị có thể hiệu chỉnh trực tiếp mà không làm gián đoạn hoạt động của mạng, một số chi tiết của thiết bị đƣợc thiết kế với cấu trúc module cho phép dễ dàng nâng cấp bằng cách bổ sung các module mà không phải trang bị lại toàn bộ thiết bị, các thiết bị đƣợc thiết kế dƣ thừa để dành cho dự phòng. SAN xây dựng hệ thống dựa trên cơ sở các chuẩn mở có khả năng hỗ trợ nhiều giao thức, tích hợp với nhiều thiết bị và hệ điều hành khác nhau
- Hỗ trợ phần mềm và ứng dụng: SAN tăng cƣờng hiệu quả hoạt đô ̣ng của hệ thống bằng việc hỗ trơ ̣ đồng thời nhiều giao thức, hê ̣ điều hành , thiết bị và các ứng dụng , tƣơng thích với nhiều hệ thống phần cứng và phần mềm
khác nhau. Cung cấp nhiều dịch vụ cho các ứng dụng lựa chọn.
3.2.3.2. Các tiêu chí lựa chọn Fibre Channel cho SAN
Việc sử dụng công nghệ truyền dẫn nào cho mạng lƣu trữ SAN cũng là vấn đề cần xem xét. Với giải pháp IP SAN sẽ có những hạn chế nhƣ NAS, thêm vào đó là cơ sở hạ tầng mạng LAN (đƣờng truyền thông nhỏ, mạng phức tạp) là trở ngại chính cho mạng IP SAN truyền thông, trao đổi thông tin với máy chủ cũng nhƣ với mạng LAN. Trong tƣơng lai, khi cơ sở hạ tầng mạng phát triển, giải pháp FC SAN và IP SAN có thể kết hợp để mở rộng phạm vi hoạt động của mạng lƣu trữ SAN.
Tác giả đẽ xuất sử dụng công nghệ truyền dẫn Fibre Channel cho mạng lƣu trữ SAN bởi những đặc tính (đã đề cập tại mục 2.2.3) nhƣ sau:
- Hiệu suất cao: Công nghệ Fibre Channel sử dụng cho mạng lƣu trữ SAN cho phép những điểm kết nối cách xa tới 10km. Tốc độ truyền tải gigabit (2Gb, 4Gb, 10Gb) với hiệu suất truyền 100%.
- Hiệu quả cao. Công nghệ Fibre Channel đƣợc thiết kế để định hƣớng điều khiển truyền tải sử dụng chủ yếu trên phần cứng với phần mềm xử lý ban đầu hạn chế nên ít lỗi, xử lý ban đầu tối thiểu, độ trễ tối thiểu, quá trình vận chuyển dữ liệu có xác nhận truyền dữ liệu và kiểm soát lỗi. Vì vậy, công nghệ Fibre Channel đạt độ tin cậy cao. Hệ thống lƣu trữ có thể hiệu chỉnh trực tiếp, giảm thiểu sự gián đoạn trong hệ thống. Loại bỏ thời gian ngƣng hệ thống khi nâng cấp dung lƣợng.
- Khả năng kết nối linh hoạt. SAN có thể hỗ trợ nhiều cổng kết nối trong
một hệ thống bằng nhiều cấu trúc topo khác nhau. FC cung cấp các kết nối linh hoạt, nối đa cổng để có thể tạo ra kết nối đa đƣờng. Các công nghệ chuyển mạch phù hợp, vòng lặp chia sẻ, điểm-điểm chuyên dụng đáp ứng các yêu cầu ứng dụng, tích hợp hàng trăm máy chủ. Kết cấu fabric cho phép tạo một phƣơng thức tổ chức kết nối hoạt động thông minh và linh hoạt với các khả năng tạo kết nối đa đƣờng để khắc phục đƣợc các lỗi về tắc nghẽn hoặc thắt cổ chai trong truyền thông, nâng cao hiệu suất truyền và tính ổn định hay
tính sẵn sàng của hệ thống.
- Giải pháp an toàn thiết bị lưu trữ. Giải pháp RAID và công nghệ FC
cho phép tạo ra mạng dãy đĩa tạo ra dung lƣợng lƣu trữ lớn, đồng thời dãy đĩa thƣờng đƣợc thiết kế dự phòng các ổ đĩa để có thể thay thế nóng mà không làm gián đoạn hệ thống mạng hoạt động, cung cấp các mức an toàn cao cho dữ liệu và ổn định của thiết bị lƣu trữ.
3.2.3.3. Mô hình mạng lưu trữ
Tác giả đề xuất mô hình cơ bản của mạng lƣu trữ SAN sử dụng công nghệ Fibre Channel cho Kho lƣu trữ điện tử nhƣ sau:
Hình 3.1. Mô hình mạng lƣu trữ
3.2.4. Tính toán cấu hình cho cho mạng lưu trữ
Trên cơ sở phân tích hiện trạng mạng và mục tiêu của dự án, tác giả đề xuất các yêu cầu về thông số kỹ thuật cho xây dựng mạng lƣu trữ nhƣ sau:
- Dung lượng lưu trữ:
+ Dung lƣợng cho lƣu dữ liệu khoảng 12TB (chi tiết Bảng 3.1) + Dung lƣợng của thiết bị lƣu trữ đƣợc tính nhƣ sau:
Giả sử, thiết bị lƣu trữ là sản phẩm EVA4000 của hẵng HP có thông số: Dung lƣợng ổ cứng là 150GB (dung lƣợng thực không nén);
Dẫy đĩa đƣợc cấu hình theo công nghệ RAID với tỷ số giữa dung lƣợng lƣu trữ thực trên toàn bộ dung lƣợng của ổ đĩa nhƣ sau: RAID0 với tỷ lệ 1/1; RAID1 tỷ lệ 1/2, RAID5 tỷ lệ 2/3, 3/4, 4/5… Không gian lƣu trữ tối đa cho lƣu trữ dữ liệu 12TB theo cấu hình RAID5 theo tỷ lệ 4/5 đƣợc tính nhƣ sau: 12TB x 5/4 = 15TB
Số ổ đĩa cứng loại 146GB cần có là: 15.000GB / 150GB = 100 ổ đĩa Với 100 ổ đĩa đƣợc cấu hình thành mảng đĩa hay dãy đĩa sử dụng công nghệ RAID5 sẽ có 80 ổ cho lƣu trữ (4/5) và 20 ổ dự phòng cho thay thế nóng.
- Hiệu suất truyền của hệ thống mạng SAN:
Mô hình mạng SAN nên tổ chức kết nối theo cấu trúc topo Switched Fabric với kết cấu Fabric để tạo ra các kết nối điểm điểm qua SAN Switch