Chương 3. Nén dữ liệu (data compression) và entropy

18 141 0
Chương 3. Nén dữ liệu (data compression) và entropy

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Chương Nén liệu (data compression) entropy ntnhut@hcmus.edu.vn Ví dụ “3.1” nén liệu • Chuỗi nhị phân, số ký tự ‘0’ nhiều gấp lần ‘1’: – P(‘0’) = 0.9, P(‘1’) = 0.1 • Chia chuỗi thành khối để mã hố • Trường hợp khối = ký tự: • Mã Huffman: • Độ dài mã TB: ntnhut@hcmus.edu.vn • Trường hợp byte = ký tự: – Cần TB khoảng 1.29 bits để mã hoá ký tự, hay 1.29/2 = 0.645 bits/ký tự • Trường hợp byte = ký tự: Câu hỏi: nén đến mức nào? Có thể nén 0.5 bits/ký tự hay không? ntnhut@hcmus.edu.vn Ý tưởng entropy • 1948, Claude E Shannon • Nén dựa vào tính cú pháp (syntactic) văn bản, khơng phải tính ngữ nghĩa (semantic) • Entropy nguồn thơng tin S, H(S): – H(S) = lượng thông tin cần thiết để xác định ký tự nguồn • Tính chất H(S): – H(S) = H(p1, p2, …, pn) – H(S) dương, liên tục, đối xứng ntnhut@hcmus.edu.vn Định nghĩa entropy Định nghĩa: Entropy nguồn thơng tin S có phân phối xác suất p1, …, pn là: Ví dụ: Tung đồng xu, xác suất mặt Entropy nguồn thông tin ntnhut@hcmus.edu.vn Entropy nhị phân đối xứng Chuỗi nhị phân, số ký tự ‘0’ nhiều gấp lần ‘1’ Nguồn thông tin với ký tự xác suất (p,1 – p): ntnhut@hcmus.edu.vn Entropy cực tiểu cực đại Định lý: (1) Entropy cực tiểu = S có ký tự (2) Entropy đạt cực đại = log2n bits xác suất ký tự = 1/n Chứng minh: (1) pi, log2(1/pi) ≥ ‘=’ pi = hay 1/pi = (2) (bài tập) ntnhut@hcmus.edu.vn Mở rộng nguồn thông tin Định nghĩa: Cho S nguồn thông tin {a1, …, an} Mở rộng bậc k S, ký hiệu Sk, nguồn thơng tin có ký tự dạng ‘ai1ai2…aik’ với xác suất P(ai1ai2…aik) = P(ai1)P(ai2) …P(aik) Trong đó, i1, i2, …, ik ∈{1, 2, …, n} Ví dụ 3.1 (tiếp): S: {0,1}; P(0) = 0.9; P(1) = 0.1 S2 S3: ntnhut@hcmus.edu.vn Mối liên hệ Entropy Độ dài mã trung bình Định lý: mã tức thời nhị phân nguồn S có độ dài mã trung bình khơng nhỏ entropy S: L ≥ H(S) Chứng minh: (bài tập) ntnhut@hcmus.edu.vn Định lý mã khơng nhiễu Shannon • Trong Ví dụ 3.1: – H(S) = 0.469 (bits) – Lmin(S2)/2 = 0.645 bits/symbol – Lmin(S3)/3 = 0.533 bits/symbol – … ≥ H(S) Định lý: Với nguồn S, độ dài mã Huffman nhị phân Lmin(S) thoả : H(S) ≤ Lmin(S) ≤ H(S) + Với mở rộng Sk nguồn S ta có: Chứng minh: (bài tập) ntnhut@hcmus.edu.vn 10 Tóm tắt Với nguồn S, entropy H(S) lượng thơng tin trung bình (tính bit) ký tự H(S) số bit trung bình tối ưu để nén S Mã Huffman Sk cách nén tối ưu Với bảng mã có r>2 ký tự mã: ntnhut@hcmus.edu.vn 11 Homework • Đọc lại: – Chương [1] – Chương [2] • Đọc trước: – Chương [1] ntnhut@hcmus.edu.vn 12 Bài tập • Một văn viết bảng ký tự {A, B, C, D}, ký tự A xuất nhiều gấp lần ký tự lại Tìm mã nhị phân sử dụng trung bình khơng q 1.4 bits/ký tự • Gợi ý: dùng mở rộng Sk ntnhut@hcmus.edu.vn 13 Bài tập • Tính entropy nguồn thơng tin sau • Bài tập Thực hành: Tính entropy nguồn thơng tin cho trước ntnhut@hcmus.edu.vn 14 Bài tập • Một kênh truyền ký tự đồng xác suất Tính xác suất nhận chuỗi ‘01101’ Tính entropy văn dùng chuỗi ký tự ntnhut@hcmus.edu.vn 15 Bài tập • Một nguồn thơng tin gồm 128 ký tự đồng xác suất Tính độ dài chuỗi có entropy 42 bits ntnhut@hcmus.edu.vn 16 Bài tập • Hiệu E(S) nguồn thơng tin S định nghĩa tỷ số entropy H(S) độ dài trung bình mã Huffman nhị phân Lmin(S) a) CMR: ≤ E(S) ≤ b) Nhận xét cực trị E(S) c) Tính E(S) nguồn sau ntnhut@hcmus.edu.vn 17 Bài tập • Một văn nhị phân dài chứa số ký tự ‘0’ nhiều gấp đơi ‘1’ Tìm mã nén: a) Sử dụng tối đa 0.94 bits/ký tự b) Sử dụng tối đa 0.9 bits/ký tự ntnhut@hcmus.edu.vn 18 ... ntnhut@hcmus.edu.vn Định nghĩa entropy Định nghĩa: Entropy nguồn thơng tin S có phân phối xác suất p1, …, pn là: Ví dụ: Tung đồng xu, xác suất mặt Entropy nguồn thông tin ntnhut@hcmus.edu.vn Entropy nhị phân... thông tin với ký tự xác suất (p,1 – p): ntnhut@hcmus.edu.vn Entropy cực tiểu cực đại Định lý: (1) Entropy cực tiểu = S có ký tự (2) Entropy đạt cực đại = log2n bits xác suất ký tự = 1/n Chứng... khơng? ntnhut@hcmus.edu.vn Ý tưởng entropy • 1948, Claude E Shannon • Nén dựa vào tính cú pháp (syntactic) văn bản, khơng phải tính ngữ nghĩa (semantic) • Entropy nguồn thơng tin S, H(S): – H(S)

Ngày đăng: 20/12/2017, 08:49

Tài liệu cùng người dùng

Tài liệu liên quan