Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 18 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
18
Dung lượng
2,77 MB
Nội dung
Chương Nén liệu (data compression) entropy ntnhut@hcmus.edu.vn Ví dụ “3.1” nén liệu • Chuỗi nhị phân, số ký tự ‘0’ nhiều gấp lần ‘1’: – P(‘0’) = 0.9, P(‘1’) = 0.1 • Chia chuỗi thành khối để mã hố • Trường hợp khối = ký tự: • Mã Huffman: • Độ dài mã TB: ntnhut@hcmus.edu.vn • Trường hợp byte = ký tự: – Cần TB khoảng 1.29 bits để mã hoá ký tự, hay 1.29/2 = 0.645 bits/ký tự • Trường hợp byte = ký tự: Câu hỏi: nén đến mức nào? Có thể nén 0.5 bits/ký tự hay không? ntnhut@hcmus.edu.vn Ý tưởng entropy • 1948, Claude E Shannon • Nén dựa vào tính cú pháp (syntactic) văn bản, khơng phải tính ngữ nghĩa (semantic) • Entropy nguồn thơng tin S, H(S): – H(S) = lượng thông tin cần thiết để xác định ký tự nguồn • Tính chất H(S): – H(S) = H(p1, p2, …, pn) – H(S) dương, liên tục, đối xứng ntnhut@hcmus.edu.vn Định nghĩa entropy Định nghĩa: Entropy nguồn thơng tin S có phân phối xác suất p1, …, pn là: Ví dụ: Tung đồng xu, xác suất mặt Entropy nguồn thông tin ntnhut@hcmus.edu.vn Entropy nhị phân đối xứng Chuỗi nhị phân, số ký tự ‘0’ nhiều gấp lần ‘1’ Nguồn thông tin với ký tự xác suất (p,1 – p): ntnhut@hcmus.edu.vn Entropy cực tiểu cực đại Định lý: (1) Entropy cực tiểu = S có ký tự (2) Entropy đạt cực đại = log2n bits xác suất ký tự = 1/n Chứng minh: (1) pi, log2(1/pi) ≥ ‘=’ pi = hay 1/pi = (2) (bài tập) ntnhut@hcmus.edu.vn Mở rộng nguồn thông tin Định nghĩa: Cho S nguồn thông tin {a1, …, an} Mở rộng bậc k S, ký hiệu Sk, nguồn thơng tin có ký tự dạng ‘ai1ai2…aik’ với xác suất P(ai1ai2…aik) = P(ai1)P(ai2) …P(aik) Trong đó, i1, i2, …, ik ∈{1, 2, …, n} Ví dụ 3.1 (tiếp): S: {0,1}; P(0) = 0.9; P(1) = 0.1 S2 S3: ntnhut@hcmus.edu.vn Mối liên hệ Entropy Độ dài mã trung bình Định lý: mã tức thời nhị phân nguồn S có độ dài mã trung bình khơng nhỏ entropy S: L ≥ H(S) Chứng minh: (bài tập) ntnhut@hcmus.edu.vn Định lý mã khơng nhiễu Shannon • Trong Ví dụ 3.1: – H(S) = 0.469 (bits) – Lmin(S2)/2 = 0.645 bits/symbol – Lmin(S3)/3 = 0.533 bits/symbol – … ≥ H(S) Định lý: Với nguồn S, độ dài mã Huffman nhị phân Lmin(S) thoả : H(S) ≤ Lmin(S) ≤ H(S) + Với mở rộng Sk nguồn S ta có: Chứng minh: (bài tập) ntnhut@hcmus.edu.vn 10 Tóm tắt Với nguồn S, entropy H(S) lượng thơng tin trung bình (tính bit) ký tự H(S) số bit trung bình tối ưu để nén S Mã Huffman Sk cách nén tối ưu Với bảng mã có r>2 ký tự mã: ntnhut@hcmus.edu.vn 11 Homework • Đọc lại: – Chương [1] – Chương [2] • Đọc trước: – Chương [1] ntnhut@hcmus.edu.vn 12 Bài tập • Một văn viết bảng ký tự {A, B, C, D}, ký tự A xuất nhiều gấp lần ký tự lại Tìm mã nhị phân sử dụng trung bình khơng q 1.4 bits/ký tự • Gợi ý: dùng mở rộng Sk ntnhut@hcmus.edu.vn 13 Bài tập • Tính entropy nguồn thơng tin sau • Bài tập Thực hành: Tính entropy nguồn thơng tin cho trước ntnhut@hcmus.edu.vn 14 Bài tập • Một kênh truyền ký tự đồng xác suất Tính xác suất nhận chuỗi ‘01101’ Tính entropy văn dùng chuỗi ký tự ntnhut@hcmus.edu.vn 15 Bài tập • Một nguồn thơng tin gồm 128 ký tự đồng xác suất Tính độ dài chuỗi có entropy 42 bits ntnhut@hcmus.edu.vn 16 Bài tập • Hiệu E(S) nguồn thơng tin S định nghĩa tỷ số entropy H(S) độ dài trung bình mã Huffman nhị phân Lmin(S) a) CMR: ≤ E(S) ≤ b) Nhận xét cực trị E(S) c) Tính E(S) nguồn sau ntnhut@hcmus.edu.vn 17 Bài tập • Một văn nhị phân dài chứa số ký tự ‘0’ nhiều gấp đơi ‘1’ Tìm mã nén: a) Sử dụng tối đa 0.94 bits/ký tự b) Sử dụng tối đa 0.9 bits/ký tự ntnhut@hcmus.edu.vn 18 ... ntnhut@hcmus.edu.vn Định nghĩa entropy Định nghĩa: Entropy nguồn thơng tin S có phân phối xác suất p1, …, pn là: Ví dụ: Tung đồng xu, xác suất mặt Entropy nguồn thông tin ntnhut@hcmus.edu.vn Entropy nhị phân... thông tin với ký tự xác suất (p,1 – p): ntnhut@hcmus.edu.vn Entropy cực tiểu cực đại Định lý: (1) Entropy cực tiểu = S có ký tự (2) Entropy đạt cực đại = log2n bits xác suất ký tự = 1/n Chứng... khơng? ntnhut@hcmus.edu.vn Ý tưởng entropy • 1948, Claude E Shannon • Nén dựa vào tính cú pháp (syntactic) văn bản, khơng phải tính ngữ nghĩa (semantic) • Entropy nguồn thơng tin S, H(S): – H(S)