MỘT SỐ KHÁI NIỆM Nén dữ liệu Data Compression –Là quá trình giảm lượng thông tin dư thừa trong dữ liệu gốc.. –Lượng thông tin thu được sau khi nén nhỏ hơn rất nhiều so với dữ liệu gốc
Trang 3GIỚI THIỆU
Lý do cần nén dữ liệu
–Dữ liệu được lưu trữ, trao đổi trên các phương tiện
xử lý và truyền tải thông tin.
–Quá trình xử lý dữ liệu đặt ra cho chúng ta những
yêu cầu sau:
Yêu cầu về lưu trữ là phải chính xác và tiết kiệm.
Yêu cầu về truyền tải phải nhanh chóng, hiệu quả.
–Nén dữ liệu là một yêu cầu tất yếu được đặt ra trong thời đại bùng nỗ thông tin.
Trang 4MỘT SỐ KHÁI NIỆM
Nén dữ liệu (Data Compression)
–Là quá trình giảm lượng thông tin dư thừa trong dữ liệu gốc.
–Lượng thông tin thu được sau khi nén nhỏ hơn rất
nhiều so với dữ liệu gốc.
–Nén dữ liệu còn có cách gọi khác là: giảm độ dư thừa thông tin, mã hóa ảnh gốc.
–Trong phần này chúng ta đề cập đến việc nén dữ liệu ảnh.
Trang 5–Độ dư thừa dữ liệu được tính theo công thức:
Trang 60 10
1
=
d
Trang 7–Dư thừa nội tại điểm ảnh
–Dư thừa tâm sinh lý nhìn
Trang 8DƯ THỪA MÃ
Giả sử các cấp xám là các đại lượng ngẫu nhiên,
nk là số lượng điểm ảnh có giá trị cấp xám là k, n
là tổng số điểm ảnh trong ảnh Khi đó xác suất
để xảy ra cấp xám thứ k là:
Trong đó: L là số cấp xám của ảnh
1 , ,
2 , 1 , 0 ,
)
n
n k
Trang 9DƯ THỪA MÃ
Gọi l(k) là số bit để biểu diễn điểm ảnh có cấp xám bằng k Khi đó, số bit trung bình để biểu diễn một điểm ảnh là:
Vậy, tổng số bit cần để biểu diễn ảnh có kích thước M×N là:
L
k avg l k p k L
Trang 1203.0(6)
06.0(5)
08.0(4)
16.0
(
3
)21.0(2)
25.0(2)
19.0(2)
()(
7 0
2
=+
++
++
++
Trang 13DƯ THỪA NỘI TẠI ĐIỂM ẢNH
Một điểm ảnh nào đó có thể được dự báo từ các điểm ảnh xung quanh
Để giảm độ dư thừa trong điểm ảnh, người ta biến đổi dạng 2 chiều dùng cho việc biểu diễn ảnh thành một dạng khác có hiệu quả hơn
Chẳng hạn, có thể sử dụng sự khác nhau giữa hai điểm ảnh kề nhau để biểu diễn ảnh
Trang 14DƯ THỪA TÂM SINH LÝ NHÌN
Mắt người không thể đáp ứng được với tất cả độ nhạy ánh sáng.
Thông tin đơn giản có tầm quan trọng ít hơn những
thông tin khác trong vùng nhìn thấy.
Những thông tin không chủ yếu có thể loại bỏ được mà không ảnh huởng đến hình ảnh nhận thức của con
người.
Số lượng màu mà mắt người có thể phân biệt được là rất ít so với các màu có trong tự nhiên.
Trang 15DƯ THỪA TÂM SINH LÝ NHÌN
Ví dụ: Mắt người không thể phân biệt được một số màu đỏ gần nhau
Nghĩa là, chúng ta ánh xạ một khoảng rộng các
giá trị cấp xám đầu vào thành một khoảng hẹp
các giá trị cấp xám đầu ra
255,10,10 255,20,10 255,10,20
Trang 17MÃ HÓA LOẠT DÀI - RLC
Được áp dụng cho ảnh đen trắng (có 2 mức xám, màu đen (0), màu trắng (1)), chẳng hạn như văn bản trên nền trắng, bản vẽ kỹ thuật, …
Ý tưởng cơ bản là phát hiện dãy các bit lặp,
chẳng hạn như bit 0 nằm giữa hai bit 1, hoặc bit
1 nằm giữa hai bit 0 (dãy này gọi là mạch)
Thay thế chuỗi đó bởi một chuỗi mới gồm hai
thông số: chiều dài của chuỗi và bit lặp
Trang 18MÃ HÓA LOẠT DÀI - RLC
Ví dụ:
000000000000000000000111111111111 → 33
Thay thế chuỗi bit 0 bằng: 000101010
Thay thế chuỗi bit 1 bằng: 000011001
Kết quả ta có: 000101010000011001 → 18
21 bit 0 12 bit 1
Trang 19MÃ HÓA LOẠT DÀI - RLC
Nếu chuỗi lặp có độ dài lớn hơn 255, thì ta tách chuỗi lặp đó ra thành nhiều chuỗi
Các chuỗi đầu có độ dài là 255
Chuỗi cuối cùng có độ dài là số bit còn lại
Trang 20MÃ HÓA LOẠT DÀI - RLC
Đối với ảnh không phải là ảnh nhị phân, chúng ta cũng thực hiện tương tự
Thay loạt các giá trị cấp xám giống nhau bằng
hai thông tin
–Số điểm ảnh có giá trị bằng nhau (count).
–Giá trị cấp xám (value).
Trang 21(3,6) (3,5) (2,3) (5,1) (3,2)
Count ≤ 5 → Count sử dụng 3 bit để biểu diễn.
Value ≤ 9 → Value sử dụng 4 bit để biểu diễn.
Số loạt sau mã hóa: 10 → số bit là: 10 × 7=70 bit
Mỗi điểm ảnh sử dụng 4 bit để biểu diễn → Số bit là: 32 × 4=128 bit
Số bit cho 1 loạt là: 3+4=7
Trang 22MÃ HÓA HUFFMAN
Huffman là một trong những phương pháp mã hóa thông tin được sử dụng nhiều trong việc
giảm kích thước dữ liệu và truyền tin
Kỹ thuật mã hóa Huffman được đề nghị vào năm 1952
Phương pháp này có thể áp dụng trong việc nén
dữ liệu tổng quát
Trang 23MÃ HÓA HUFFMAN
Nguyên tắc của phương pháp mã hóa Huffman:
–Là phương pháp dựa vào mô hình thống kê để tính tần suất xuất hiện của các tín hiệu.
–Gán cho những tín hiệu có tần suất xuất hiện cao một từ mã có độ dài bé.
–Gán cho những tín hiệu có tần suất xuất hiện thấp một từ mã có độ dài lớn.
→ Làm giảm độ dài trung bình của từ mã.
Trang 24MÃ HÓA HUFFMAN
Thuật toán: Gồm 2 bước chính
1.Duyệt tập tin gốc để tính xác suất xuất hiện của mỗi tín hiệu, sau đó sắp xếp các tín hiệu này theo thứ tự
giảm dần của xác suất Duyệt bảng xác suất từ cuối lên đầu để thực hiện ghép hai phần tử có xác suất thấp
thành một phân tử mới Phần tử này có xác suất bằng tổng xác suất hai phần tử thành phần và loại bỏ hai
thành phần này Lặp lại quá trình cho đến khi chỉ còn
hai phần tử.
Trang 25MÃ HÓA HUFFMAN
Thuật toán: Gồm 2 bước chính
2.Xây dựng cây nhị phân, với gốc là một phần tử giả Các cây con trái và cây con phải tương ứng là hai phần
tử có xác suất lớn nhất Và cứ tiếp tục như vậy cho các phần tử tiếp theo cho đến khi hoàn chỉnh Tiến hành mã hóa cho các tín hiệu Bắt đầu gốc, nếu đi xuống cây con trái thì thêm vào bit 0, cây con phải thì thêm vào bit 1 Quá trình kết thúc khi tất cả các nút lá đều được gán
mã.
Trang 26VÍ DỤ MÃ HÓA HUFFMAN
Cho ảnh 8 cấp xám (3 bit) kích thước 100×100
Trang 28VÍ DỤ MÃ HÓA HUFFMAN
Cho ảnh 8 cấp xám (3 bit) kích thước 100×100
Trang 30PHƯƠNG PHÁP LZW
có tần suất xuất hiện cao trong ảnh.
chuỗi đó có xuất hiện trong ảnh.
lần đọc một ký tự ở dữ liệu đầu vào.
Trang 31CẤU TRÚC CỦA TỪ ĐIỂN
chứa các số nguyên từ 0 đến 255 Đây là
mã của 256 ký tự ASCII cơ bản.
xóa (CC-Clear Code)
Information)
thường lặp lại trong ảnh.
Trang 32CẤU TRÚC CỦA TỪ ĐIỂN
Trang 34A(65) A đã có trong từ điển → Đọc tiếp
B(66) 65 Thêm vào từ điển mã 258 đại diện cho chuỗi AB C(67) 66 Thêm vào từ điển mã 259 đại diện cho chuỗi BC
B 67 Thêm vào từ điển mã 260 đại diện cho chuỗi CB
C BC đã có trong từ điển → Đọc tiếp
A 259 Thêm vào từ điển mã 261 đại diện cho chuỗi BCA
B AB đã có trong từ điển → Đọc tiếp
C 258 Thêm vào từ điển mã 262 đại diện cho chuỗi ABC
A 67 Thêm vào từ điển mã 263 đại diện cho chuỗi CA
B AB đã có trong từ điển → Đọc tiếp
C ABC đã có trong từ điển → Đọc tiếp
D 262 Thêm vào từ điển mã 264 đại diện cho chuỗi ABCD
Trang 36Website LZW
compression/
http://marknelson.us/1989/10/01/lzw-data- http://www.cs.cf.ac.uk/Dave/Multimedia/node214.html