Phân loại

Một phần của tài liệu MÃ HOÁ NÉN DỮ LIỆU VÀ MÃ HOÁ CÓ KHẢ NĂNG PHÁT HIỆN SAI VÀ SỬA SAI (Trang 30 - 31)

Có hai phương pháp nén căn bản: nén có thất thoát, trong ñó một số dữ

liệu sẽ bị mất khi các tập tin ñược giải nén; nén bảo toàn, không làm mất dữ

liệu khi tập tin ñược phục hồi ñịnh dạng gốc.

2.2.3.1. Nén bo toàn thông tin

Kĩ thuật nén bảo toàn thông tin tức là nén mà không loại bỏ hay làm mất bất kì thông tin nào. Khi tài liệu gốc ñược giải nén, nó giữ nguyên thông tin ban ñầu ñến từng bit. [9]

Chương trình nén bảo toàn thông tin tìm dữ liệu thừa hoặc lặp lại trong toàn bộ tài liệu và sau ñó mã hoá. Ví dụ, một văn bản có chứa 200 khoảng trắng, 100 từ “in” và 50 từ “the defendant said” chương trình tìm những từ, ngữ, khoảng trắng lặp này và thay chúng bằng chuỗi bit hay kí hiệu số cho từng loại rồi lưu trong “từñiển”. Khi giải nén tập tin, chuỗi bit ñược giải mã và dữ liệu ñược phục hồi. Dữ liệu không bị mất hay thay ñổi. Giả sử ta có dữ

liệu nguồn là D và dữ liệu nén là D’, sau khi giải nén D’ thì ñược tập D’’ mà tập D’’ hoàn toàn giống với tập D ban ñầu. Có rất nhiều chương trình nén dữ

liệu như Stufflt (cho Macintosh) của Aladdin Systems, WinZip (cho Windows) của WinZip Computing và PKZip của PKWare. PKZip là một trong những chương trình nén phổ biến nhất cho DOS và Windows.

Sự phát triển của Internet cũng làm cho việc nén trở nên quan trọng vì dung lượng, băng thông chính là tiền bạc. Tài liệu thông thường như bảng tính Microsoft Excel hay Word hoặc PowerPoint có thể thu nhỏ một nửa kích thước ban ñầu, những tài liệu có nhiều con số và sự lặp lại có thể nén xuống còn 20% kích thước ban ñầu.

Với nén bảo toàn thông tin, nhiều thuật toán ñã ñược phát triển và có giá trị thực tế cao, có thể kể tên các thuật toán tiêu biểu: Huffman (do David. A. Huffman ñưa ra năm 1952), mã Fano-Shanon, LZ77 và LZ78 (do Jacov Ziv và Abraham Lempel giới thiệu năm 1977-1978), LZW (ñược Terry Welch phát triển trên cơ sở thuật toán của Jacov Ziv và Abraham và ñưa ra giới thiệu năm 1984).

2.2.3.2. Nén tht thoát thông tin

Bên cạnh nén bảo toàn thì người ta còn ñưa ra khái niệm nén không bảo toàn. Nén không bảo toàn là mô hình nén dữ liệu mà tính bảo toàn dữ liệu không ñược coi trọng, một số dữ liệu sẽ bị mất khi các tập tin ñược giải nén. Có nghĩa là nếu ta có tập dữ liệu D, tập nén D’ thì sau khi giải nén ta thu ñược tập tin D’’ khác tập tin D ban ñầu. ðối với tín hiệu âm thanh, hình ảnh, video có thể nén xuống còn 5% so với kích thước gốc. Tai và mắt người khó có thể

phát hiện ñược sự thất thoát dữ liệu này. Ví dụ hình ảnh bị mất thông tin có thể không sắc nét bằng hình ảnh gốc nên làm cho những lá cỏ dường như bị

mờ ñi.

Một phần của tài liệu MÃ HOÁ NÉN DỮ LIỆU VÀ MÃ HOÁ CÓ KHẢ NĂNG PHÁT HIỆN SAI VÀ SỬA SAI (Trang 30 - 31)