Silde trình bày về nội dung chương 3 (Nén dữ liệu) của bộ môn Lý thuyết thông tinNỘI DUNG CHƯƠNGI. Các định nghĩa về mã hóaII. Bất đẳng thức Kraft cho mã tức thờiIII. Các mã tối ưuIV. Các giới hạn chiều dài của mã tối ưuV. Bất đẳng thức Kraft cho mã tách được duy nhấtVI. Mã HuffmanVII. Định lý về sự tối ưu của mã hóa Huffman
LÝ THUYẾT THÔNG TIN CHƯƠNG 3: NÉN DỮ LIỆU NGUYỄN THỊ NGA NGUYỄN THANH DŨNG NGUYỄN THANH TÍNH NỘI DUNG CHƯƠNG I Các định nghĩa mã hóa II Bất đẳng thức Kraft cho mã tức thời III Các mã tối ưu IV Các giới hạn chiều dài mã tối ưu V Bất đẳng thức Kraft cho mã tách VI Mã Huffman VII Định lý tối ưu mã hóa Huffman I CÁC ĐỊNH NGHĨA VỀ MÃ HÓA * Các định nghĩa mã hóa liệu : - Tập hợp phép ánh xạ để biến ngẫu nhiên X nhận giá trị tập thành chuỗi có chiều dài xác định ký tự thuộc tập ký tự mã - Ví dụ : Biến ngẫu nhiên X thuộc tập ={A,H,N,T} Tập kí tự mã ={0,1} Bộ mã : phép ánh xạ => “NHAT” A H N T 10 110 111 110100111 *- C(x) : từ mã (codeword) tương ứng với giá trị x biến X - l(x) : chiều dài C(x) - Ví dụ: Biến ngẫu nhiên X thuộc tập ={A,H,N,T} Tập kí tự mã ={0,1} Các từ mã : Chiều dài: *-Chiều dài trung bình L(C) mã C cho biến ngẫu nhiên X tuân theo phân phối p(x) Chiều dài trung bình mã : -Ví dụ: Cho biến ngẫu nhiên X có: Suy ra: L(C) = 1,75 bit Nhận xét: L(C) = H(X) = 1,75 bit X A H N T P(X=x) 1/2 1/4 1/8 1/8 C(x) 10 110 111 * Bộ mã tách : - Bộ mã gọi tách tất giá trị X mã hóa thành chuỗi khác bảng mã - Ví dụ: Cho biến ngẫu nhiên X có: + Với chuỗi mã hóa có dạng : 0101100110 + Chuỗi sau mã hóa : ABABBAABBA CCDCD nhiều kết khác X A B C D C(x) 01 10 * Bộ mã mở rộng : - Bộ mã mở rộng C phép biến đổi chuỗi giá trị biến X thành chuỗi từ mã - Ví dụ: Cho => Bộ mã mở rộng Bộ mã tách nhất: - Một mã gọi tách mã mở rộng từ tách - Ví dụ: Giả sử dãy mã nhận (cần giải mã) là: 0010000101001 X a b 01 => Chuỗi sau giải mã là: abaaabbab C(x) Mã tức thời : - Một mã gọi tức thời không tồn từ mã tiền tố từ mã khác - Ví dụ: Cho biến ngẫu nhiên X có: Chuỗi cần mã hóa là: 0111011000 => Chuỗi sau giải mã: ABDCA X A B C D C(x) 11 100 101 MỐI QUAN HỆ GIỮA CÁC BỘ MÃ TẤT CẢ CÁC MÃ MÃ TÁCH ĐƯỢC MÃ TÁCH ĐƯỢC DUY NHẤT MÃ TỨC THỜI IV CÁC GIỚI HẠN CHIỀU DÀI CỦA MÃ TỐI ƯU: * Định lý chiều dài trung bình mã: a Định lý: - Chiều dài trung bình mã L mã tức thời bất ký từ bảng kí tự gồm D ký tự biến ngẫu nhiên X lớn entropy số D X: L - Dấu “ = “ xảy = b Chứng minh: - Cho phân phối ngẫu nhiên p i qi , ta có: *Ta có = = =0 Gọi chiều dài từ mã đặt : K= = Ta có : = Với =+ = + L *Nên Vì mã tức thời nên : => => Khi = pi => => * a Định lý : Định lý giới hạn chiều dài mã tối ưu: - Cho nguồn theo phân phối p, Bảng kí tự D, với * , * , chiều dài tối ưu từ mã T có định lý giới hạn chiều dài sau : L* +1 - Chiều dài trung bình mã tối ưu biến X: L = - Chiều dài khơng phải số ngun, ta làm trịn chiều dài thành số tự nhiên gần *-Ví dụ: Cho biến ngẫu nhiên X nhận giá trị X ={1,2,3} tập ký tự D = {0,1} - X P(X=i) 0.6 0.3 0.1 * - Ta có: b Chứng minh : li = => li* = () Nên : ≤ li* < + (1) (2) => ≤ li* < + => ≤ li* < + => HD(X) ≤ L* < HD(X) + V.BẤT ĐẲNG THỨC KRAFT CHO MÃ TÁCH ĐƯỢC DUY NHẤT : *- Xét tập nguồn X = {x , x Kraft ,……, x Bất đẳng thức McMillan - n } mã hóa thành mã tách từ tập D-ký tự - Chiều dài trung bình từ mã mã tách từ nguồn phải thỏa mãn bất đẳng thức sau : - Với li chiều dài từ mã tương ứng với tập nguồn X *- Xét độ dài từ mã kí tự từ tập nguồn X Với mã mở rộng ta có : Chứng minh bất đẳng thức : l(x1, x2 ,……, xn ) = - Mũ k vế trái bất đẳng thức ta : (= ( = - Trong chiều dài lớn từ mã số lượng chuỗi nguồn ánh xạ vào từ mã có chiều dài l * -Vì mã tách nên < = =>( = => -Vì bất đẳng thức với k N, nên với k-> => VI MÃ HÓA HUFFMAN Giới thiệu : - Mã hóa HUFFMAN thuật tốn mã hóa dùng để nén liệu - Nó dựa bảng tần suất xuất kí tự cần mã hóa để xây dựng mã nhị phân cho kí tự cho dung lượng sau mã hóa nhỏ Ứng dụng : - Máy tính IBM , MODEM, máy Fax, định dạng ZIP,… Thuật toán : - Bước 1: Sắp xếp kí tự nguồn theo thứ tự xác suất giảm dần - Bước 2: Ta kết hợp giá trị có xác suất thấp thành từ gốc với xác suất tổng xác suất thấp - Bước 3: Tiếp tục kết hợp hai giá trị có xác suất thấp tập giá trị gốc ta giá trị gốc với xác suất - Bước 4: Sau có mã HUFFMAN hoàn chỉnh , ta tiến hành gán kí tự 0, lên nhánh - Bước 5: Sắp xếp kí tự mã hóa từ gốc đến nhánh , ta có từ mã ứng với giá trị gốc ban đầu Ví dụ: - Xét tập nguồn X sau : X A B C D P(x) 0.15 0.25 0.4 0.2 C 0.4 C 0.4 ABD 0.6 B 0.25 AD 0.35 C 0.4 D 0.2 B 0.25 A 0.15 ABCD - Từ sơ đồ ta có HUFFMAN : ABCD C ABD B AD A D A 110 B 10 C D 111 VII.Định lý tối ưu mã hóa HUFFMAN * - Định lý : Mã hóa Huffman mã tối ưu : Nếu C* Huffman C mã tách bất ký, L(C*) L(C) -Bổ đề : Với phân phối ngẫu nhiên tồn mã tức thời tối ưu thỏa mãn điều sau : - Chiều dài từ mã tăng xác suất giảm - Hai từ mã dài có chiều dài - Hai từ mã dài khác ký tự cuối tương ứng với hai giá trị có xác suất thấp CẢM ƠN ĐÃ LẮNG NGHE ... k N, nên với k-> => VI MÃ HĨA HUFFMAN Giới thiệu : - Mã hóa HUFFMAN thuật tốn mã hóa dùng để nén liệu - Nó dựa bảng tần suất xuất kí tự cần mã hóa để xây dựng mã nhị phân cho kí tự cho dung lượng... Mã Huffman VII Định lý tối ưu mã hóa Huffman I CÁC ĐỊNH NGHĨA VỀ MÃ HÓA * Các định nghĩa mã hóa liệu : - Tập hợp phép ánh xạ để biến ngẫu nhiên X nhận giá trị tập thành chuỗi có chiều dài xác