CHƯƠNG 3 NHỮNG KẾT QUẢ CƠ BẢN TỪ LÝ THUYẾT THÔNG TIN
3.2 Nguồn tĩnh rời rạc
3.2.2 Mã hóa của Bảng chữ cái Nguồn
Đối với một nguồn nhất định, chúng ta có thể tính toán nội dung thông tin của mỗi biểu tượng trong bảng chữ cái nguồn và entropy của bảng chữ cái riêng của mình. Giả sử bây giờ nếu chúng ta muốn truyền tải mỗi biểu tượng bằng cách sử dụng một kênh nhị phân.
Trước khi được chuyển giao cho các kênh, mỗi biểu tượng phải được đại diện bởi một chuỗi hữu hạn các chữ số, được gọi là từ mã. Gác lại những vấn đề lỗi kênh có thể, hiệu quả thông tin liên lạc liên quan đến việc truyền một biểu tượng trong thời gian ngắn nhất có thể, trong đó, lần lượt, có nghĩa là đại diện cho nó với một mã code càng ngắn càng tốt. Như thường lệ, chúng tôi đang quan tâm đến số lượng trung bình, vì vậy mục tiêu của chúng ta sẽ là giảm thiểu độ dài trung bình của một từ mã.
{ }
n @E n = (3.10)
trong đó n là chiều dài (số chữ số) của từ mã đại diện cho Xj biểu tượng, và n là các biến ngẫu nhiên đại diện cho chiều dài của nó (ví dụ, giả sử giá trị với xác suất , i =1,2, ...,M).
Tối giản hóa (3.10) phải được thực hiện theo một ràng buộc quan trọng được đặt trên sự phân công của từ mã những biểu tượng bảng chữ cái. Ví dụ, hãy xem xét các mã sau:
Kí tự Mã code
0 01 10 100
chuỗi nhị phân 010010 có thể tương ứng với bất kỳ một trong năm mẩu tin hoặc . Mã này khụng rừ ràng hoặc khụng duy nhất cú thể đọc ra. Sau đú nú cú vẻ tự nhiờn để yờu cầu mó duy nhất có thể đọc ra, có nghĩa là tất cả các dãy hữu hạn các số nhị phân tương ứng với, nhiều nhất, một tin nhắn. Một điều kiện đảm bảo duy nhất có thể đọc ra là yêu cầu mà không có từ mã là một tiền tố của một từ mã dài hơn. Các mã được mô tả trong phần tiếp theo đáp ứng hạn chế này.
Một biểu diễn rất hữu ích để một mã đáp ứng các hạn chế tiền tố là liên kết cho mỗi từ mã một nút thiết bị đầu cuối trong một cây nhị phân, giống như một trong những hình 3.4.
Bắt đầu từ gốc của cây, hai nhánh dẫn đến các nút lệnh đầu tiên tương ứng với sự lựa chọn
giữa 0 và 1 chữ số đầu tiên trong từ mã. Hai nhánh xuất phát từ mỗi lần của các nút lệnh đầu tiên tương ứng với
Hình 3.4 Cây nhị phân được liên kết với một mã nguồn nhị phân
Chữ số thứ hai của từ mã, và như vậy. Kể từ khi từ mã được gán chỉ có các nút thiết bị đầu cuối, không có từ mã có thể là một tiền tố của một từ mã khác. Một câyđược cho có thứ tự n nếu nó có chứa nút lên thứ tự thứ n. Một điều kiện cần và đủ cho một mã số để đáp ứng các hạn chế tiền tố được đưa ra trong các định lý sau đây.
Định lý 3.2 Gói bất bình đẳng, mã nhị phân đáp ứng các hạn chế tiền tố với độ dài từ ,..., nM tồn tại khi và chỉ khi
(3.11) Chúng ta phải chứng minh đầu tiên (3.11) là một điều kiện cần thiết.Khi mã này đáp ứng các hạn chế tiền tố, nó được gắn vào một cây thứ tự n = max (,..., nM).Sự hiện diện trong cây của một nút thiết bị đầu cuối của để loại bỏ các nút có thể có của n hàng. Như vậy, với các mã được nhúng vào trong cây, tổng của tất cả các nút để n loại bỏ bằng các nút thiết bị đầu cuối kết hợp với các từ mã phải nhỏ hơn hoặc bằng số lượng các nút n trong cây, có nghĩa là:
(3.12)
Chia cả hai mặt của bất đẳng thức cuối cùng cho 2 (3.11).Để chứng minh rằng (3.11) là một điều kiện đủ cho một mã để đáp ứng các hạn chế tiền tố, chúng ta hãy giả định rằng Hj được sắp xếp theo thứ tự giảm dần,.Chọn thiết bị đầu cuối là nút đầu tiên trong cây mã bất kỳ nút
lớn hơn hoặc bằng vẫn có sẵn để sử dụng thiết bị đầu cuối như các nút trong cây mã, ngoại trừ cho phần bắt nguồn từ nút c.họn Tiếp theo, chọn bất kỳ nút để thiết bị đầu cuối là nút tiếp theo trong cây mã. Tất cả các nút trong cây của mỗi hàng lớn hơn hoặc bằng n2 vẫn còn trừ cho phần mà xuất phát từ một trong hai nút được chọn. Tiếp tục theo cách này, sau khi chuyển thiết bị đầu cuối của nút thứ j trong. mã cây, phần nhỏ các nút loại bỏ bằng cách lựa chọn trước là . Từ (3.11), phần này luôn luôn là lớn hơn 1 để j <M, và do đó có luôn luôn là một nút được gán cho từ mã tiếp theo.
Do chúng ta đang sử dụng một mã nhị phân, nội dung thông tin tối đa của mỗi chữ số trong từ mã là 1 bit. Vì vậy, nội dung thông tin trung bình trong mỗi từ mã, nhiều nhất, bằng n. Mặt khác, để xác định duy nhất một biểu tượng của bảng chữ cái nguồn, chúng ta cần một số trung bình của thông tin bằng H (X) bit. Do đó, chúng ta bằng trực giác có thể kết luận rằng
(3.12)
So sánh các định nghĩa (3.10) và (3,5) của n và H (X), nó có thể được nhìn thấy rằng các điều kiện (3.12) có thể thoả mãn với các dấu bằng khi và chỉ khi
, i= 1,2,....,M (3.13)
Trong trường hợp này, (3.11) cũng trở thành một đẳng thức.
Ví dụ 3.2
Sau đây là một ví dụ của một mã thỏa mãn (3.12) với các dấu bằng và sự ràng buộc tiền tố :
Ký hiệu Từ mã
1 00 010 0110 0111
Tính toán giá trị của được định nghĩa trong (3.10), người ta có được : = H(X) = .
Nói chung, điều kiện (3.13) với số nguyên không thỏa mãn.Vì vậy, chúng ta không thể hy vọng sẽ đạt được giới hạn thấp hơn cho như trong ví dụ trước.Tuy nhiên, một mã đáp ứng các hạn chế tiền tố có thể được tìm thấy có tuân theo định lý sau đây :
H(X) < H(X) +1 (3.14)
Một bằng chứng trực quan của các ràng buộc thấp hơn đã được đưa ra khi giới thiệu (3.12) Bây giờ chúng ta lựa chọn cho các từ mã đại diện cho ký hiệu cho một số bit tương ứng với số nguyên nhỏ nhất lớn hơn hoặc bằng I(.Vì vậy, chúng ta có :
I() < I() +1 (3.15)
Nhân (3.15) của và tổng hợp trong i, chúng ta có được : H(X) < H(X) +1
Để hoàn tất chứng minh định lý, chúng ta vẫn phải để cho thấy rằng mã đáp ứng các hạn chế tiền tố, đó là độ dài là các mã từ tuân theo bất đẳng đẳng thức Kraft (3.11) Nhắc lại định nghĩa (3.4) của I(), bên trái bất đẳng thức (3.5) dẫn đến , như vậy, tổng hợp đối với i, chúng ta nhận được :
=1
Bước cuối cùng trong phần mô tả của chúng ta về cách mã hóa bảng chữ cái nguồn là xây dựng một mã duy nhất có thể đọc ra là giảm chiều dài từ mã trung bình; chúng ta sẽ giới thiệu một phương pháp để xây dựng mã tối ưu do Huffman chứng minh tối ưu sẽ lược bỏ. Tiếp tục lại sử dụng Huffman sẽ được mô tả từng bước người đọc được gọi hình 3.5, trong đó các bước có thể dễ phát hiện trong cây nguồn bởi các thủ tục mã.
Hình 3.5 : Cây tạo ra bởi sử dụng mã hóa Huffman cho một nguồn với sáu ký hiệu
Bước 1 : Sắp xếp các ký hiệu M với xác suất giảm dần từ trên xuống
Bước 2 :Nhóm 2 ký hiệu cuối cùng được ký hiệu tương ứng với xác suất bằng tổng + Bước 3 :Lặp lại bước 1 và 2 cho đến khi chỉ còn lại 1 ký hiệu
Bước 4 : Nhìn cây có nguồn gốc theo các bước trên (xem hinh 3.5 ), kết hợp các ký hiệu nhị phân 0 và 1 cho mỗi cặp của các nhánh khởi hành từ các nút trung gian.Từ mã của mỗi biểu tượng có thể được đọc như chuỗi nhị phân được tìm thấy khi bắt đầu từ gốc của cây và đến các nút cuối của ký hiệu
Từ hình 3.5 từ mã thu được bằng khi sử dụng phương pháp mã hóa huffman như sau
Chiều dài trung bình và entropy H(X) tương ứng là 2.1 số/ký hiệu và 2.09 bit/ký hiệu,không mã nào có thể làm tốt hơn Ví dụ 3.3 Cho các mã như hình 3.5sử dụng cây để giải mã chuỗi 1100101100110 Bắt đầu từ gốc của cấy,chúng ta theo các nhánh tại mỗi nút trung gian theo dãy nhị phân nhận được,cho đến khi 1 nút thiết bị đầu cuối đạt được (và đó cũng là 1 ký hiêu).Sau đó làm lại từ đầu,ta được
Ký hiệu Từ mã
0 100 101 110 1110 1111
Khi làm ví dụ 3.3, giả sử rằng lỗi ở vị trí đầu tiên. Điều này cho chúng ta có thế xác định tác động nghiêm trọng của lỗi trong khi truyền các từ mã có độ dài thay đổi. Mục tiêu của các mã hóa nguồn là giảm sự dư thừa của bảng chữ cái nguồn, và không phải là bảo vệ chống lại các lỗi kênh. Đây là trong phạm vi mã hóa kênh, chúng ta sẽ thấy trong Chương 9.
Cho đến nay, chúng ta đã thấy làm thế nào một từ mã có thể được hiệu quả giao cho mỗi ký hiệu của bảng chữ cái nguồn X. Kết quả chính được biểu diễn bởi (3.14). Trên thực tế, giới hạn thấp hơn (3.14) có thể được đạt đến gần như mong muốn nếu chúng tôi được phép mã hóa một khối các ký hiệu thay vì các ký hiêu duy nhất. Giả sử chúng ta quan sát một X độc lấp và gán một từ mã nhóm của các biểu tượng. Nói cách khác, chúng ta xây dựng một mã cho một bảng chữ cái mới Y có chứa M các ký hiệu . Sau đó, xác suất của được đưa ra bởi tích của các xác suất tương ứng với các ký hiệu v củaX chỉ định Bởi định lý 3.3, chúng ta có thể xây dựng một mã cho Y có chiều dài từ mã trung bình thỏa mãn:
H(Y) < H(Y) +1 (3.16)
Nhưng tất cả các biểu tượng trong Y được thực hiện bởi v biểu tượng độc lập của X bảng chữ cái ban đầu, do đó, entropy của Y là H (Y) = vH (X) (thấy vấn đề 3.2) . Do đó, từ (3.16) chúng ta nhận được :
H(X) H(X) + (3.17)
nhưng là số trung bình của các chữ số/ ký hiệu của X ; do đó, từ (3.17) sau đó nó có thể được thực hiện tùy ý gần H (X) bằng cách chọn v đủ lớn.
Hiệu quả của một mã được định nghĩa là : Và độ dư thừa của nó là ( 1 - )
Ví dụ 3.4
Cho bảng chữ cái nguồn X = {},với =0,2 ; chúng ta muốn xây dựng các bảng chữ cái mới Y = ={} ;thu được bằng cách nhóm 2 ký hiệu với nhau .
Nhóm ký hiệu Xác suất P( P() )P() ,25 P(0,15
P( 0,15 P( 0,09 P( 0,1 P( 0,1
P( 0,04 P( 0,06 P( 0,06