Inline và Post-Process Deduplication - Phương thức- 123docz.net

CHƯƠNG II: PHƯƠNG THỨC THỰC HIỆN DATA DEDUPLICATION VÀ GIẢI PHÁP CHO HỆ THỐNG EMAIL

2.1. Phương thức thực hiện Data Deduplication

2.1.2. Inline và Post-Process Deduplication

Trong kỹ thuật Target Deduplication, quá trình Data Deduplication được chia ra gồm xử lý dữ liệu trùng lặp theo thời gian thực (Inline) hoặc xử lý sau khi dữ liệu được lưu trữ trong thiết bị lưu trữ (post-process). [1]

2.1.2.1. Inline Deduplication

Inline Deduplication loại bỏ dữ liệu dư thừa theo thời gian thực như là khi dữ liệu đang được ghi vào thiết bị lưu trữ. Các sản phẩm phần mềm có xu hướng sử dụng quá trình Inline Deduplication vì các dữ liệu sao lưu không tập trung ở một ổ đĩa trước khi nó được loại bỏ sự trùng lặp.

Ưu điểm của kỹ thuật này là tăng hiệu quả tổng thể bởi vì dữ liệu chỉ được kiểm tra và xử lý một lần. Tuy nhiên, nhược điểm của kỹ thuật này là giảm mức độ trùng lặp ít hơn và chủ yếu được sử dụng theo cách tiếp cận các khối dữ liệu có chiều dài cố định (fixed-length block). [1],[5]

Hình 2.4. Mô tả kỹ thuật Inline Deduplication

Kỹ thuật này xét về phương diện nào đó khá giống với kỹ thuật Source Deduplication khi đều làm tăng lên quá trình xử lý của bộ vi xử lý (CPU) và giới hạn tổng lượng dữ liệu cuối cùng được gửi đến thiết bị sao lưu. Một số phần mềm sử dụng kỹ thuật Inline Deduplication: [5]

- Phần mềm Cloud Backup của Asigra Inc

- Phần mềm Simpana của CommVault Systems Inc 2.1.2.2. Post-process Deduplication

Kỹ thuật Post-Process Deduplication là hoạt động loại bỏ dữ liệu trùng lặp trên tập các dữ liệu đã được lưu trữ. Kỹ thuật này có các ưu và nhược điểm ngược lại so với kỹ thuật Inline Deduplication. [1],[5]

Trong kỹ thuật Post-Process Deduplication, quá trình Data Deduplication là tách biệt với quá trình sao lưu. Vì vậy, kỹ thuật này sẽ không làm giảm hiệu năng của quá trình sao lưu dữ liệu tới thiết bị lưu trữ. Tuy nhiên, do các bản sao dữ liệu đều được truyền tới thiết bị lưu trữ trước khi chúng được loại bỏ nên cần đảm bảo băng thông cho việc truyền tải dữ liệu và không gian đĩa đủ rộng để chứa tập tất cả các dữ liệu đầy đủ và để phục vụ quá trình Data Deduplication.

Hình 2.5. Mô tả kỹ thuật Post-Process Deduplication

Một số các sản phẩm sử dụng kỹ thuật Post-Process Deduplication của một số hãng nổi tiếng trên thế giới: [5]

- Sản phẩm StorageWorks StoreOnce của Hewlett-Packard

- Hệ thống sao lưu DXi series của Quantum Corp sử dụng cả hai kỹ thuật Inline và Post-Process Deduplication.

2.1.3. File và Sub-File Level

Các thuật toán loại bỏ dữ liệu trùng lặp có thể được áp dụng vào tập tin (file level) hoặc áp dụng vào từng khối dữ liệu bằng cách chia nhỏ tập tin (sub-file level).

[1],[5]

File Level cho phép loại bỏ dữ liệu trùng lặp một cách đơn giản bằng cách tính checksum (phổ biến nhất là MD5 và SHA-1) của tệp dữ liệu và so sánh với checksum của những tệp dữ liệu đã được sao lưu trước đó. Đây là cách đơn giản và nhanh chóng nhưng mức độ chống trùng lặp là ít hơn, cách này không giải quyết được trường hợp có sự trùng lặp tìm thấy bên trong các tệp dữ liệu.

Sub-File Level là kỹ thuật loại bỏ dữ liệu trùng lặp bằng cách chia nhỏ các tập tin thành các khối (blocks) có kích thước cố định (fixed size block) hoặc có kích thước độ dài thay đổi (variable size block), sau đó sử dụng một thuật toán băm (hash-based algorithm) tiêu chuẩn để tìm thấy các khối dữ liệu tương tự và loại bỏ chúng. [1],[5]

2.1.4. Fixed-Length Blocks và Variable-Length Data Segments

Fixed-length Blocks là hướng tiếp cận theo khối dữ liệu chiều dài cố định, tức là tiến hành chia tệp tin đầy đủ thành các khối có chiều dài cố định và thực hiện các hàm tính toán checksum (như MD5 hoặc SHA) để tìm thấy bản sao trùng lặp. Mặc dù phương pháp này cho phép tìm kiếm các khối dữ liệu lặp đi lặp lại nhưng có thể có nhiều hạn chế do trong các tệp dữ liệu có thể có những khối dữ liệu trùng nhau nhưng các phân đoạn dữ liệu không phải lúc nào cũng trùng nhau. Ví dụ như Hình 2.6, hai khối dữ liệu của hai tệp “file 1” và “file 2” có các khối dữ liệu tương tự nhưng lại khác vị trí (offset).

Hình 2.6. Khối dữ liệu tương tự nhau nhưng có thể khác vị trí

Bởi vậy, hạn chế lớn nhất của phương pháp này là hai bộ dữ liệu với một số lượng nhỏ của sự khác biệt có thể có rất ít khối chiều dài cố định giống hệt nhau.

Kỹ thuật Variable-Length Data Segment là một phương pháp phân chia các dòng dữ liệu thành các phân đoạn dữ liệu có chiều dài thay đổi được, phương pháp này cho phép tìm thấy các ranh giới khối giống nhau trong các ngữ cảnh và vị trí khác nhau. Điều này giúp cho việc phát hiện và loại bỏ các khối dữ liệu dư thừa được đầy đủ hơn. [1],[5],[17]