Khái quát hoá thuọ̃t toán LZ.

Một phần của tài liệu Hệ thống kiến thức về nén văn bản thông qua minh họa cụ thể và lý thuyết xác suất, từ đó đưa ra giới hạn nén của văn bản (Trang 71 - 73)

1 Để cho đơn giản ta gọi tắt nửa đoạn dạng [x,y) là khoảng.

4.1.2.Khái quát hoá thuọ̃t toán LZ.

Văn bản z1...zkzk+1....

Từ điờ̉n tĩnh là mụ̣t xõu có dạng s1s2s3...sn gụ̀m n ký tự lṍy từ cùng mụ̣t bảng chữ cái tạo nờn văn bản z1...zkzk+1....

n←1

Tìm L là sụ́ lớn nhṍt có thờ̉ sao cho tụ̀n tại m mà

Lm m 2 m 1 m L n 2 n 1 n z ...z s s ...s z + + + = + + +

Đoạn văn bản znzn+1...zn+L tương đương với (L,m). Thay n←n+L

Kờ́t quả s1s2s3...sn và (m1, L1) (m2, L2)(m3, L3)... (mr, Lr) được gọi là bản mã nén củaz1...zkzk+1...

Từ điờ̉n đụ̣ng

Văn bản z1...zkzk+1.... n←n0,

Tìm L là sụ́ lớn nhṍt có thờ̉ sao cho tụ̀n tại m < n mà

Lm m 2 m 1 m L n 2 n 1 n z ...z z z ...z z + + + = + + + .

Khi đó văn bản z1...znzn+1...zn+L tương đương với z1...zn và (L,m). Thay n←n+L

Lặp lại quá trình cho đờ́n hờ́t văn bản.

Dãy z1z2...zn0 và (m1,L1) (m2,L2)(m3,L3)... (mr,Lr) được coi là bản mã nén của văn bản.

Sau khi sử dụng các thuọ̃t toán trờn người ta tiờ́n hành mã các cặp (m,L) bằng các đoạn bit 0/1 phõn tách và nờ́u có thờ̉ thì thực hiợ̀n thụ́ng kờ tõ̀n sụ́ đờ̉ tìm ra các mã bit 0/1 đó theo mụ̣t trong sụ́ các cách như ta đã xét (Huffman, Fano,...).

4.1.3. Các cụng đoạn thực hiợ̀n khi mã bằng LZ.

Mã thuụ̣c họ LZ được tiờ́n hành thụng qua 3 giai đoạn. Giai đoạn 1 là cắt khúc văn bản theo mụ̣t nguyờn lý nào đó. Giai đoạn 2 ký mã các khúc. Giai đoạn 3 là sử dụng mụ̣t tọ̃p phõn tách đờ̉ mã. Khụng thờ̉ có mụ̣t cơ sở lý luọ̃n chắc chắn nào cho phép tìm thuọ̃t toán cắt khúc tụ́t nhṍt. Ta cho rằng nờ́u xuṍt phát từ viợ̀c tìm lại sự tương tự như trong quá khứ thì nờn tìm sự tương tự nào gõ̀n giụ́ng nhṍt. Chính vì thờ́ mà các khúc khi cắt ra từ văn bản nguụ̀n nờn được tính toán sao cho chúng là các phõ̀n dài nhṍt có thờ̉ tìm thṍy trong quá khứ. Thuọ̃t toán cắt khúc (parsing algorithm) đóng mụ̣t vai trò quan trọng trong các thuọ̃t toán LZ.

1. Cắt khúc và toạ đụ̣ hoá theo từ điờ̉n.

2. Mã hoá dãy toạ đụ̣ thu được bằng mụ̣t mã nén đó.

Một phần của tài liệu Hệ thống kiến thức về nén văn bản thông qua minh họa cụ thể và lý thuyết xác suất, từ đó đưa ra giới hạn nén của văn bản (Trang 71 - 73)