Nguyên Lý Toán Học Về Truyền Tin

Dịch và biên soạn từ Tạp chí kỹ thuật của Bell System, bởi nhóm VNTelecom (http://vntelecom.org) Tập. 27, trang 379-423, 623-656, tháng Bảy, năm 1948 NGUYÊN LÝ TOÁN HỌC VỀ TRUYỀN TIN C. E. SHANNON MỞ ĐẦU Sự phát triển gần đây của một loạt các phương pháp điều chế như PCM (Pulse Code Modulation - Điều chế mã xung - ND) và PPM (Pulse Position Modulation - Điều chế vị trí xung - ND) đánh đổi độ rộng băng tín hiệu lấy tỷ số tín hiệu trên nhiễu đã làm tăng mạnh mẽ mối quan tâm về một nguyên lý truyền tin tổng quát. Một cơ sở cho một lý thuyết như thế nằm trong các bài báo quan trọng của Nyquist1 và Hartley2 về vấn đề này. Trong bài báo này, chúng tôi sẽ mở rộng thêm lý thuyết đó bao gồm một số các yếu tố mới, đặc biệt là về tác động của nhiễu trên kênh và những tiết kiệm có thể đạt được nhờ cấu trúc thống kê của bản tin gốc cũng như nhờ bản chất của đích đến cuối cùng của thông tin. Vấn đề cơ bản của truyền tin là vấn đề tái tạo lại, hoặc chính xác hoặc gần đúng, tại một điểm này một bản tin đã được chọn ra ở một điểm khác. Thường thường thì các bản tin có nghĩa; nghĩa là chúng liên quan hoặc có quan hệ tương ứng tới một số hệ thống với các thực thể vật lý hoặc khái niệm nào đó. Các khía cạnh ngữ nghĩa này của việc truyền tin thì không liên quan tới vấn đề kỹ thuật. Khía cạnh có ý nghĩa quan trọng là chuyện bản tin thực sự thì được chọn ra từ một tập các bản tin khả dĩ. Hệ thống nhất thiết phải được thiết kế để làm việc đối với từng lựa chọn khả dĩ chứ không chỉ với mỗi một cái mà nó sẽ thực sự được lựa chọn bởi vì điều này là không biết được vào lúc thiết kế. Nếu số các bản tin trong tập là hữu hạn thì con số này hay bất kỳ một hàm đơn điệu nào của số này đều có thể được xem như một độ đo của thông tin được tạo ra khi một bản tin được chọn ra từ tập đó, với tất cả các lựa chọn đều có khả năng như nhau. Như đã được Hartley chỉ ra, lựa chọn tự nhiên nhất (về hàm số đơn điệu hình thành nên độ đo - ND) là hàm logarit. Mặc dù định nghĩa này nhất thiết phải được tổng quát hoá một cách rõ ràng khi chúng ta xem xét ảnh hưởng của các số liệu thống kê của bản tin đó hay khi ta có một dải liên tục các bản tin. Trong mọi trường hợp chúng ta sẽ vẫn sử dụng một độ đo về căn bản là một hàm logarit. Độ đo logarit thuận tiện hơn do một số lý do sau: 1. Về mặt thực tế thì nó hữu ích hơn. Các thông số quan trọng về kỹ thuật như thời gian, độ rộng băng, số các rơ-le... có xu hướng thay đổi tuyến tính theo logarit của số các khả năng. Ví dụ như việc thêm một cái rơ-le vào một nhóm các rơ-le thì làm tăng gấp đôi số các trạng thái có thể có của nhóm các rơ-le đó. Cái đó cộng thêm 1 vào logarit cơ số 2 của số các trạng thái ấy. Việc tăng gấp đôi thời gian sẽ gần như bình phương số các bản tin khả dĩ, nói cách khác là tăng gấp đôi giá trị hàm logarit, vân vân. 2. Nó gần gũi hơn với cảm nhận trực giác của chúng ta về một độ đo đúng đắn. Điều này thì liên hệ gần gũi với mục (1) do chúng ta đo lường các thực thể một cách trực giác bằng việc so sánh tuyến tính với các chuẩn mực chung. Ví dụ như ta cảm thấy rằng hai cái bìa đục lỗ thì có lẽ có gấp đôi dung lượng so với một cái về phương diện lưu trữ thông tin, và hai kênh như nhau thì có gấp đôi dung lượng truyền tin so với một kênh. 3. Nó thích hợp hơn về mặt toán học. Nhiều phép toán giới hạn sẽ thật đơn giản nếu dùng hàm logarit song nếu như ta dùng (trực tiếp) số các khả năng thì có lẽ phải cần đến những diễn giải khá lòng vòng. Việc chọn một cơ số logarit tương ứng với việc chọn một đơn vị đo thông tin. Nếu cơ số 2 được sử dụng thì các đơn vị có được có thể được gọi là các số nhị phân, hay vắn tắt hơn là các bit, một từ được đề xuất bởi J. W. Tukey. Một thiết bị với hai trạng thái ổn định, như một rơ-le hay một mạch tri-gơ, có thể trữ được một bit thông tin. N thiết bị như thế có thể lưu giữ N bit, do tổng số các trạng thái khả dĩ là 2N và log2 (2N ) = N. 1 Nyquist, H., “Certain Factors Affecting Telegraph Speed,” Bell System Technical Journal, April 1924, p. 324; “Certain Topics in Telegraph Transmission Theory,” A.I.E.E. Trans., v. 47, April 1928, p. 617. 2 Hartley, R. V. L., “Transmission of Information,” Bell System Technical Journal, July 1928, p. 535. 1 Dịch và biên soạn bởi VNTelecom NGUỒN TIN MÁY THU MÁY PHÁT TÍN HIỆU ĐÍCH ĐẾN TÍN HIỆU NHẬN ĐƯỢC BẢN TIN BẢN TIN NGUỒN TẠP ÂM Hình 1 — Sơ đồ khối của một hệ thống truyền tin tổng quát. Nếu cơ số 10 được sử dụng thì các đơn vị có thể gọi là các số thập phân. Do log2 M = log10 M/ log10 2 = 3.32 log10 M, một số thập phân thì bằng khoảng 3 13 bit. Một bánh xe số trên một máy tính để bàn (máy tính cơ khí quay tay thời của Shannon - ND) có mười vị trí ổn định và do đó nó có khả năng lưu trữ một số thập phân. Trong tính toán giải tích bao gồm các phép tính tích phân và vi phân thì cơ số e đôi khi là hữu dụng. Các đơn vị đo thông tin khi đó sẽ được gọi là các đơn vị tự nhiên. Việc đổi từ cơ số a sang cơ số b chỉ cần nhân với logb a. (Nếu cơ số logarit là 2 thì đơn vị đo thông tin là bit. Nếu cơ số logarit là 10 thì đơn vị đo thông tin là Hartley. Nếu cơ số logarit là e thì đơn vị đo thông tin là nat (đọc là [neit])-ND). Với thuật ngữ một hệ thống thông tin, chúng tôi muốn nói đến một hệ thống thuộc loại được chỉ ra bằng sơ đồ khối trên hình vẽ 1. Hệ thống này về cơ bản gồm 5 phần sau: 1. Một nguồn tin tạo ra một bản tin hoặc một chuỗi các bản tin định truyền tới đầu cuối thu. Bản tin có thể có nhiều kiểu: (a) Một chuỗi các chữ cái như trong một bản điện tín trong hệ thống điện báo; (b) Một đơn hàm theo thời gian f (t) như trong ra-đi-ô hay điện thoại; (c) Một hàm của thời gian và các biến khác như trong truyền hình đen-trắng — trong đó bản tin có thể xem như một hàm f (x; y,t) của hai toạ độ không gian và thời gian, cường độ sáng tại điểm (x; y) và thời gian t trên một phiến của đèn píc-cớp; (d) Hai hay nhiều hơn các hàm theo thời gian, ta hãy gọi là f (t), g(t), h(t) — là trường hợp trong phát thanh "ba chiều" (lập thể) hay trong trường hợp khi hệ thống dự định dùng để phục vụ một số kênh riêng lẻ trong ghép kênh; (e) Một số hàm nhiều biến — trong truyền hình màu thì bản tin gồm 3 hàm f (x; y,t), g(x; y,t), h(x : y,t) xác định trong một tập vô hạn (continuum) ba chiều — ta cũng có thể xem ba hàm này như thể các thành phần của một trường véc-tơ xác định trong một miền — tương tự vậy, một số nguồn tivi đen-trắng có lẽ cũng tạo ra các "bản tin" gồm một số các hàm ba biến; (f) Các bản tin hỗn hợp cũng có thể xảy ra, ví dụ như trong truyền hình có kênh âm thanh đi kèm. 2. Một máy phát xử lý bản tin theo một số cách nhằm tạo ra một tín hiệu thích hợp với việc truyền đi trên kênh. Trong điện thoại thì thao tác này chỉ đơn thuần gồm việc biến đổi áp suất âm thanh thành một dòng điện tỷ lệ với áp suất âm thanh. Trong điện báo, chúng ta có một thao tác mã hoá cho ra một dãy các chấm, gạch và dấu cách trên kênh tương ứng với bản tin. Trong một hệ thống PCM có ghép kênh, các hàm tiếng nói khác nhau nhất thiết phải được lấy mẫu, nén, lượng tử hoá rồi mã hoá và cuối cùng thì được ghép xen nhau một cách đúng đắn nhằm tạo ra tín hiệu. Các hệ thống mã hoá nguồn phát thanh, truyền hình và phát thanh điều tần (phát thanh FM) là những ví dụ khác về các thao tác phức tạp được áp dụng với các bản tin để có được tín hiệu. 3. Kênh đơn thuần chỉ là môi trường được sử dụng để truyền tín hiệu từ máy phát tới máy thu. Nó có thể là một đôi dây xoắn, một cáp đồng trục, một dải các tần số vô tuyến, một chùm sáng, vân vân. 2 Dịch và biên soạn bởi VNTelecom 4. Máy thu tuần tự thực hiện các thao tác ngược với các thao tác đã được thực hiện bởi máy phát nhằm tái tạo lại bản tin từ tín hiệu. 5. Đích đến là con người (hoặc vật) mà bản tin định truyền đến. Chúng tôi muốn xem xét các vấn đề tổng quát nhất định, liên quan tới hệ thống truyền tin. Để làm được điều này trước hết cần biểu diễn các phần tử liên quan khác nhau dưới dạng các thực thể toán học được lý tưởng hoá một cách phù hợp từ hai bộ phận vật lý tương ứng của chúng. Chúng ta có thể phân loại thô các hệ thống thông tin thành ba loại chính: rời rạc, liên tục và hỗn hợp. Nói một hệ thống rời rạc là chúng tôi muốn nói đến một hệ thống mà trong chúng cả bản tin lẫn tín hiệu đều là một chuỗi các ký tự (symbol) rời rạc. Một trường hợp tiêu biểu là điện báo trong đó bản tin là một chuỗi các chữ cái còn tín hiệu là một chuỗi các chấm, gạch và dấu cách. Một hệ thống liên tục là một hệ thống trong đó cả bản tin lẫn tín hiệu đều được xử lý như các hàm liên tục, như ra-đi-ô hay tivi chẳng hạn. Một hệ thống hỗn hợp là hệ thống trong đó cả các biến liên tục lẫn rời rạc đều có, ví dụ như truyền tiếng nói PCM. Trước hết, chúng tôi sẽ xem xét trường hợp rời rạc. Trường hợp này có các ứng dụng không chỉ trong lý thuyết truyền tin mà còn cả trong lý thuyết máy tính, trong thiết kế các tổng đài điện thoại và các lĩnh vực khác nữa. Ngoài ra, trường hợp rời rạc hình thành nên một nền tảng cơ sở cho các trường hợp liên tục cũng như hỗn hợp, sẽ được đề cập đến trong nửa sau của bài báo. PHẦN I: HỆ THỐNG RỜI RẠC KHÔNG NHIỄU 1. KÊNH TRUYỀN RỜI RẠC KHÔNG NHIỄU Điện báo và điện tín là hai ví dụ đơn giản của một kênh rời rạc để truyền thông tin. Một cách tổng quát, một kênh rời rạc sẽ có nghĩa là một hệ thống trong đó một chuỗi các lựa chọn từ một tập hữu hạn các ký hiệu nguyên tố S1 , . . . , Sn có thể được truyền từ một điểm này đến điểm khác. Mỗi ký hiệu Si được giả định là có độ dài ti giây nào đó (không nhất thiết giống nhau cho các ký hiệu Si khác nhau, chẳng hạn như các chấm và gạch trong điện tín). Cũng không yêu cầu tất cả các chuỗi khả dĩ của các ký hiệu Si có thể được truyền trên hệ thống; chỉ một số chuỗi đã biết mới có thể được cho phép. Đây sẽ có thể là những tín hiệu cho kênh truyền. Do đó trong điện báo, giả sử các ký hiệu: (1) Một chấm tạo bởi một đường đóng trong một đơn vị thời gian và sau đó là một đường mở trong cùng một đơn vị thời gian; (2) Một gạch dài tạo bởi ba đơn vị thời gian đóng và một đơn vị thời gian mở; (3) Một dấu cách ký tự tạo bởi ba đơn vị đường mở; (4) dấu cách từ tạo bởi sáu đơn vị đường mở. Chúng ta có thể đặt ra giới hạn đối với các chuỗi cho phép như không có khoảng trống liên tiếp (đối với hai dấu cách ký tự kề nhau, nó cũng hoàn toàn tương đương với một dấu cách từ). Câu hỏi chúng ta quan tâm bây giờ là làm thế nào để đo được dung lượng của một kênh truyền tin như vậy. Trong trường hợp điện báo, tất cả các ký hiệu đều có cùng một độ dài (về thời gian) và bất kỳ chuỗi nào có 32 ký hiệu thì đều được phép, câu trả lời nói chung là dễ dàng. Mỗi ký hiệu được đại diện bởi 5 bit thông tin. Nếu hệ thống truyền n ký hiệu trong một giây, một cách tự nhiên thì chúng ta cũng tìm được dung lượng kênh là 5n bit/giây. Điều đó không có nghĩa là kênh điện báo luôn truyền thông tin ở tốc độ này. Nó là tốc độ tối đa có thể và tốc độ thực tế có đạt được tốc độ tối đa này hay không thì lại phụ thuộc vào nguồn tin mà đưa thông tin vào kênh, như sẽ được xem xét ở phần sau. Trong các trường hợp chung với các độ dài ký hiệu khác nhau cũng như các ràng buộc khác nhau trên các chuỗi cho phép, chúng ta đưa ra định nghĩa sau : Định nghĩa: Dung lượng C của một kênh rời rạc được cho bởi: log N(T ) T →∞ T C = Lim trong đó N(T ) là số tín hiệu cho phép có độ dài T . Có thể dễ dàng nhận ra rằng trong trường hợp điện báo, công thức này đưa đến kết quả trước đó. Cũng dễ thấy giới hạn cần tìm sẽ tồn tại như một số hữu hạn trong hầu hết các trường hợp nghiên cứu. Giả sử tất cả các chuỗi ký hiệu S1 , . . . , Sn đều được phép truyền và các ký hiệu này có độ dài t1 , . . . ,tn . Dung lượng của 3 Dịch và biên soạn bởi VNTelecom kênh trong trường hợp này là bao nhiêu? Nếu N(t) đại diện cho số các chuỗi với khoảng thời gian t, chúng ta có: N(t) = N(t − t1 ) + N(t − t2 ) + · · · + N(t − tn ). Tổng này sẽ bằng tổng các số lượng chuỗi kết thúc bởi ký hiệu S1 , S2 , . . . , Sn và các số này lần lượt là N(t −t1 ), N(t −t2 ), . . . , N(t −tn ). Theo một kết quả đã biết của các vi sai hữu hạn N(t) sẽ tiệm cận tới X0t khi t lớn với X0 là nghiệm thực lớn nhất của phương trình đặc trưng: X −t1 + X −t2 + · · · + X −tn = 1 và do đó C = log X0 . Trong trường hợp có các giới hạn áp đặt trên các chuỗi cho phép, chúng ta vẫn thường có thể nhận được một phương trình vi sai loại này và tìm C từ phương trình đặc trưng. Trong trường hợp điện báo đề cập ở trên: N(t) = N(t − 2) + N(t − 4) + N(t − 5) + N(t − 7) + N(t − 8) + N(t − 10) như chúng ta thấy nhờ đếm các chuỗi ký hiệu dựa theo ký hiệu cuối hoặc áp cuối xuất hiện trong chuỗi. Do đó C bằng − log µ0 với µ0 là nghiệm dương của phương trình 1 = µ2 + µ4 + µ5 + µ7 + µ8 + µ10 . Giải phương trình này ta tìm được C = 0.539. Một loại giới hạn chung nhất mà có thể áp đặt trên các chuỗi ký hiệu cho phép như sau: Chúng ta hình dung một số trạng thái khả dĩ a1 , a2 , . . . , am . Với mỗi trạng thái thì chỉ có một số lượng nhất định ký hiệu nào đó trong tập ký hiệu S1 , . . . , Sn có thể được truyền đi (các tập con khác nhau cho các trạng thái khác nhau). Khi một trong số tập con này được truyền đi, trạng thái hiện tại sẽ thay đổi sang trạng thái mới phụ thuộc cả vào trạng thái cũ lẫn ký hiệu đặc biệt được truyền. Nếu vậy, khi đó chỉ một chấm hoặc một gạch có thể được gửi tiếp theo và trạng thái luôn hay đổi. Nếu không, bất kỳ ký hiệu nào có thể được truyền và trạng thái thay đổi nếu một dấu cách được gửi đi nếu không thì nó sẽ vẫn như cũ. Các điều kiện có thể được trình bày trong đồ thị tuyến tính như Hình 2. GẠCH CHẤM CHẤM CÁCH KÝ TỰ GẠCH CÁCH TỪ Hình 2 — Biểu diễn đồ thị các ràng buộc trên ký hiệu điện báo. Các điểm liên kết tương ứng với các trạng thái và các đường mũi tên biểu thị các ký hiệu có thể trong một trạng thái và trạng thái kết quả tương ứng. Phụ lục 1 cho thấy các điều kiện áp đặt trên các chuỗi cho phép có thể được mô tả trong dạng C sẽ tồn tại và có thể được tính toán theo các kết quả sau: (s) Định lí 1: Cho bi j là khoảng thời gian của ký hiệu thứ s, là ký hiệu được phép ở trạng thái i và dẫn đến chuyển sang trạng thái j. Khi đó, dung lượng C của kênh sẽ bằng logW với W là nghiệm thực lớn nhất của phương trình định thức (s) ∑ W −bi j − δi j = 0 s với δi j = 1 nếu i = j = 0 trong các trường hợp còn lại. Ví dụ, trong trường hợp điện báo (Hình 2), định thức là: −1 (W −3 +W −6 ) (W −2 +W −4 ) = 0. (W −2 +W −4 − 1) Khai triển định thức sẽ đưa đến phương trình cho phía trên trong trường hợp này. 4 Dịch và biên soạn bởi VNTelecom 2. NGUỒN TIN RỜI RẠC Chúng ta đã thấy trong các điều kiện rất chung, hàm logarit của số các tín hiệu khả dĩ trong một kênh rời rạc tăng tuyến tính theo thời gian. Dung lượng truyền tin có thể được xác định bằng cách gán cho tốc độ tăng một số lượng bit trên đơn vị thời gian cần thiết để xác định một tín hiệu riêng được sử dụng. Bây giờ, chúng ta xem xét về nguồn tin. Làm thể nào để mô tả một nguồn tin bằng công cụ toán học và lượng thông tin theo bít/giây được tạo ra từ một nguồn tin cho trước? Vấn đề chính là tác động của hiểu biết có tính thống kê về nguồn tin trong việc giảm dung lượng kênh cần thiết bằng cách sử dụng phương pháp mã hóa thông tin hợp lý. Trong điện báo chẳng hạn, các bản tin được truyền gồm các chuỗi chữ cái. Tuy nhiên, các chuỗi này lại không phải ngẫu nhiên. Nói chung, chúng hình thành các câu và có cấu trúc thông kê, ví dụ, của tiếng Anh. Chữ cái E xuất hiện thường xuyên hơn Q và tổ hợp TH thường xuyên hơn XP, v..v.. Sự tồn tại của cấu trúc này cho phép một ai đó có thể tiết kiệm thời gian (hay dung lượng kênh) bằng cách mã hóa hợp lý các chuỗi bản tin thành các chuỗi tín hiệu. Việc này đã được thực hiện đến một chừng mực nào đó trong điện báo bằng việc sử dụng các ký hiệu kênh ngắn nhất, chấm, cho các các chữ cái tiếng Anh thường xuyên xuất hiện như E trong khi các chữ cái ít xuất hiện hơn, như Q, X, Z, được diễn tả bởi các chuỗi chấm-gạch dài hơn. Ý tưởng này còn được sử dụng trong một số mã thương mại, khi đó các từ và các câu thông dụng được diễn tả bởi các nhóm mã bốn hoặc năm chữ, đạt được một mức tiết kiệm đáng kể về thời gian trung bình. Các bức điện tín chúc mừng hay kỷ niệm thường dùng hằng ngày mở rộng điều này bằng việc mã hóa một hoặc hai câu thành một chuỗi các số tương đối ngắn. Chúng ta có thể nghĩ đến một nguồn rời rạc tạo ra bản tin, ký hiệu nối tiếp ký hiệu. Nói chung, nó sẽ chọn các ký hiệu liên tiếp dựa trên các xác suất nào đó phụ thuộc vào các lựa chọn trước đó cũng như các ký hiệu riêng biệt định phát. Một hệ thống vật lý hay một mô hình toán học của một hệ thống mà tạo ra chuỗi ký hiệu như vậy chịu chi phối bởi một tập hợp xác suất, được biết tới là quá trình ngẫu nhiên.3 Do đó, chúng ta có thể xem xét một nguồn rời rạc được mô tả bởi một quá trình ngẫu nhiên. Ngược lại, bất kỳ quá trình ngẫu nhiên mà tạo ra một chuỗi rời rạc các ký hiệu được chọn từ một tập hợp hữu hạn có thể được coi như một nguồn rời rạc. Điều này bao gồm các trường hợp sau: 1. Ngôn ngữ viết tự nhiên như tiếng Anh, tiếng Đức, tiếng Trung Quốc. 2. Các nguồn tin liên tục được rời rạc hóa bởi quá trình lượng tử hóa. Ví dụ như lời nói được lượng tử hóa từ bộ phát PCM hoặc tín hiệu TV đã được lượng tử hóa. 3. Các trường hợp toán học mà chúng ta định nghĩa đơn thuần một cách trừu tượng một quá trình ngẫu nhiên tạo ra một chuỗi ký hiệu. Dưới đây là ví dụ cho loại nguồn cuối cùng. (A) A. Giả sử chúng ta có 5 chữ cái A, B, C, D, E, mỗi chữ có xác suất được chọn là 0.2, các lựa chọn liên tiếp là độc lập. Điều này có thể dẫn đến một dãy mà dưới đây là ví dụ điển hình: BDCBCECCCADCBDDAAECEEA A B B D A E E C A C E E B A E E C B C E A D. Chuỗi này được xây dựng dựa trên việc sử dụng một bảng số ngẫu nhiên.4 (B) Cũng vẫn sử dụng 5 chữ cái đó nhưng với các xác suất lần lượt là 0.4, 0.1, 0.2, 0.2, 0.1, các lựa chọn liên tiếp là độc lập. Một bản tin điển hình từ nguồn này là: AAACDCBDCEAADADACEDA E A D C A B E D A D D C E C A A A A A D. (C) Chúng ta có để nhận được một cấu trúc phức tạp hơn nếu các ký hiệu liên tiếp không được chọn một cách độc lập nhưng các xác suất của chúng lại phụ thuộc vào các chữ cái trước đó. Trong trường hợp đơn giản nhất của loại này một lựa chọn chỉ phụ thuộc vào chữ cái đứng trước nó mà không phụ thuộc vào các chữ cái đứng trước chữ cái trước nó. Khi đó, cấu trúc thống kê có thể được mô tả bởi một tập các xác suất chuyển đổi pi ( j), là xác suất là chữ cái j đứng trước chữ cái i. Các chỉ số i, j chạy dọc tất cả các ký hiệu khả dĩ. Một cách thứ hai tương đương để xác định 3 Tham khảo, ví dụ, S. Chandrasekhar, “Stochastic Problems in Physics and Astronomy,” Reviews of Modern Physics, v. 15, No. 1, January 1943, p. 1. 4 Kendall and Smith, Tables of Random Sampling Numbers, Cambridge, 1939. 5 Dịch và biên soạn bởi VNTelecom cấu trúc này là vẽ một "digram" xác suất p(i, j), giả như tần số tương đối của digram i j. Các tần số xuất hiện chữ cái p(i) (xác suất xuất hiện của chữ cái i), các xác suất chuyển đổi pi ( j) và các xác suất digram p(i, j) liên hệ với nhau theo công thức sau: p(i) = ∑ p(i, j) = ∑ p( j, i) = ∑ p( j)p j (i) j j j p(i, j) = p(i)pi ( j) ∑ pi ( j) = ∑ p(i) = ∑ p(i, j) = 1. j i i, j Lấy một ví dụ cụ thể, giả sử ba chữ cái A, B, C với bảng phân bố xác suất: pi ( j) A A 0 i B 12 C 12 j B 4 5 1 2 2 5 i p(i) p(i, j) C 1 5 0 1 10 A B C 9 27 16 27 2 27 A i B C A 0 8 27 1 27 j B 4 15 8 27 4 135 C 1 15 0 1 135 Một bản tin tiêu biểu phát bởi nguồn này có thể có dạng như sau: ABBABABABABABABBBABBBBBABABABABABBBACACAB B A B B B B A B B A B A C B B B A B A. Bước tiếp theo chúng ta sẽ tăng độ phức tạp bằng cách có thể thêm vào các tần số trigram. Việc lựa chọn một chữ cái có thể phụ thuộc vào hai chữ cái đứng trước nó nhưng không phụ thuộc vào bản tin trước thời điểm lựa chọn. Một tập các tần số trigram p(i, j, k) hay nói cách tương đương, một tập các xác suất chuyển đổi pi j (k) có thể sẽ cần thiết. Cứ theo cách này, chúng ta có thể nhận được các quá trình ngẫu nhiên phức tạp hơn một cách liên tiếp. Trong trường hợp tổng quát n-gram, một tập các xác suất n-gram p(i1 , i2 , . . . , in ) hay một tập các xác suất chuyển đổi pi1 ,i2 ,...,in−1 (in ) là cần thiết để xác định cấu trúc thống kê. (D) Các quá trình ngẫu nhiên có thể cũng được định nghĩa là quá trình sinh ra một đoạn văn bản gồm một chuỗi các “từ”. Giả định có 5 chữ cái A, B, C, D, E và 16 “từ” trong ngôn ngữ văn bản với các xác suất tương ứng: .10 A .04 ADEB .05 ADEE .01 BADD .16 BEBE .04 BED .02 BEED .05 CA .11 CABED .05 CEED .08 DAB .04 DAD .04 DEB .15 DEED .01 EAB .05 EE Giả sử các từ liên tiếp được chọn độc lập và được cách nhau bởi ký tự trống. Một bản tin điển hình có thể là: DAB EE A BEBE DEED DEB ADEE ADEE EE DEB BEBE BEBE BEBE ADEE BED DEED DEED CEED ADEE A DEED DEED BEBE CABED BEBE BED DAB DEED ADEB. Nếu tất cả các từ đều có độ dài hữu hạn thì quá trình này tương đương với một trong số các dạng quá trình đã nói ở trên nhưng việc mô tả có vẻ như đơn giản hơn trên phương diện cấu trúc từ và xác suất. Chúng ta có thể tổng quát hóa ở đây và đưa ra xác suất chuyển đổi giữa các từ, v.v. Các ngôn ngữ nhân tạo này rất hữu dụng trong việc xây dựng các vấn đề và ví dụ đơn giản để minh họa các khả năng khác nhau. Chúng ta cũng có thể xấp xỉ gần đến ngôn ngữ tự nhiên bằng cách xâu chuỗi các ngôn ngữ nhân tạo đơn giản. Phương pháp xấp xỉ bậc không đạt được bằng cách chọn tất cả các chữ với các xác suất như nhau và độc lập. Xấp xỉ bậc nhất đạt được bằng cách chọn các chữ cái liên tiếp một cách độc lập nhưng mỗi chữ cái có xác suất như xác suất của các chữ cái trong ngôn ngữ tự nhiên.5 Do đó, trong xấp 5 Tần số chữ cái, digram và trigram được cho trong Secret and Urgent by Fletcher Pratt, Blue Ribbon Books, 1939. Tần số từ được thống kế trong Relative Frequency of English Speech Sounds, G. Dewey, Harvard University Press, 1923. 6 Dịch và biên soạn bởi VNTelecom xỉ bậc nhất ngôn ngữ tiếng Anh, E được chọn với xác suất 0.12 (tần số xuất hiện của chữ cái E trong tiếng Anh thông thường) và W với xác suất 0.02 nhưng không hề có ảnh hưởng giữa hai chữ cái cạnh nhau và không có xu hướng hình thành các digram ưu tiên như TH, ED, v..v.. Trong xấp xỉ bậc hai, chúng ta áp dụng cấu trúc digram. Sau khi một chữ cái được chọn, chữ tiếp theo được chọn theo tần số của chữ cái đi ngay sau chữ cái đầu tiên. Điều này yêu cầu một bảng tần số digram pi ( j). Trong xấp xỉ bậc ba, chúng ta sử dụng cấu trúc trigram. Mỗi chữ cái được lựa chọn với các xác suất phụ thuộc vào hai chữ cái trước nó. 3. CÁC DÃY XẤP XỈ NGÔN NGỮ TIẾNG ANH Để đưa ra một ý tưởng trực quan về việc làm thế nào để dãy các quá trình này đạt gần đến một ngôn ngữ, chúng ta xây dựng các dãy đặc trưng trong quá trình xấp xỉ tới tiếng Anh như dưới đây. Trong mọi trường hợp, chúng ta đã giả định bảng chữ cái 27 ký tự alphabet gồm 26 chữ cái truyền thống và một dấu cách trắng. 1. Xấp xỉ bậc không (các ký hiệu độc lập và đồng xác suất) XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD QPAAMKBZAACIBZLHJQD. 2. Xấp xỉ bậc nhất (các ký hiệu độc lập nhưng với tần số xác định theo ngôn ngữ tiếng Anh). OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI ALHENHTTPA OOBTTVA NAH BRL. 3. Xấp xỉ bậc hai (cấu trúc digram như trong tiếng Anh). ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY ACHIN D ILONASIVE TUCOOWE AT TEASONARE FUSO TIZIN ANDY TOBE SEACE CTISBE. 4. Xấp xỉ bậc ba (cấu trúc trigram như trong tiếng Anh). IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID PONDENOME OF DEMONSTURES OF THE REPTAGIN IS REGOACTIONA OF CRE. 5. Xấp xỉ từ bậc nhất, thay vì tiếp tục với cấu trúc tetragram, . . . , cấu trúc n-gram, chắc sẽ dễ dàng hơn và tốt hơn nếu chúng ta chuyển sang đơn vị từ. Ở đây, các từ được chọn độc lập nhưng với các tần số thích hợp. REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME CAN DIFFERENT NATURAL HERE HE THE A IN CAME THE TO OF TO EXPERT GRAY COME TO FURNISHES THE LINE MESSAGE HAD BE THESE. 6. Xấp xỉ từ bậc hai. Các xác suất chuyển đổi từ đã chuẩn nhưng không sử dụng thêm cấu trúc nào THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF THIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERS THAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED. Sự giống nhau so với văn bản tiếng anh chuẩn tăng đáng kể ở mỗi bước kể trên. Chú ý rằng các mẫu thử này có cấu trúc hợp lý hơn khoảng hai lần so với phạm vi đã được xem xét trong việc xây dựng mẫu. Do đó trong bước (3), quá trình thống kê đảm bảo một đoạn văn bản hợp lý với các dãy hai chữ cái, nhưng các dãy bốn chữ cái của mẫu có thể được làm cho phù hợp với các câu có nghĩa. Trong (6) chuỗi 4 từ hoặc nhiều hơn có thể dễ dàng đặt vào trong câu mà không gặp phải câu vô nghĩa hay gượng ép. Chuỗi đặc biệt gồm 10 từ “attack on an English writer that the character of this” cũng không hoàn toàn không hợp lý. Có vẻ như lúc đó một quá trình ngẫu nhiên đủ phức tạp sẽ đưa ra một biểu diễn thỏa đáng của một nguồn rời rạc. Hai mẫu đầu tiên được xây dựng nhờ sử dụng một quyển sách các số ngẫu nhiên cùng với bảng các tần số xuất hiện của chữ cái (ví dụ 2). Phương pháp này có thể được tiếp tục sử dụng cho (3), (4), và (5) do digram, trigram và bảng tần số xuất hiện từ sẵn có nhưng chúng ta đã sử dụng phương pháp tương đương đơn giản 7 Dịch và biên soạn bởi VNTelecom hơn. Để xây dựng (3) chẳng hạn, một người mở một quyển sách ở một trang ngẫu nhiên, chọn một chữ cái ngẫu nhiên trên trang đấy. Chữ cái này được ghi lại. Quyển sách lại tiếp tục được mở ở trang khác và người đó đọc cho đến khi gặp lại chữ cái này. Chữ cái kế tiếp chữ này lại được ghi lại. Giở sang trang khác, chữ cái thứ hai này lại được tìm kiếm và chữ cái tiếp theo chữ cái thứ hai này lại được ghi nhận v.v. Quá trình tương tự được sử dụng cho (4), (5), và (6). Có lẽ sẽ thú vị hơn nếu các quá trình xấp xỉ hơn nữa được xây dựng nhưng công việc cần thiết sẽ trở nên vô cùng lớn cho các bước tiếp theo. 4. BIỂU DIỄN ĐỒ THỊ CỦA MỘT QUÁ TRÌNH MARKOFF Các quá trình ngẫu nhiên của loại đươc mô tả ở trên được biết đến trong toán học như là các quá trình Markoff rời rạc và đã được nghiên cứu rộng rãi trong nhiều tài liệu.6 Trường hợp tổng quát có thể được mô tả như sau: Cho một số hữu hạn các “trạng thái” khả dĩ của một hệ thống: S1 , S2 , . . . , Sn . Thêm vào đó là một tập các xác suất chuyển đổi; pi ( j) là xác suất mà nếu hệ thống ở trạng thái Si , tiếp theo nó sẽ chuyển sang trạng thái S j . Để đặt quá trình Markoff này vào trong một nguồn tin, chúng ta chỉ cần giả sử rằng một chữ cái được tạo ra mỗi khi hệ thống chuyển từ trạng thái này sang trạng thái khác. Các trạng thái này sẽ tương ứng với “thặng dư ảnh hưởng” từ các chữ cái trước đó. Điều này có thể được minh họa bằng đồ thị như trong hình 3, 4 và 5. Các "trạng thái" là các điểm nối A .1 .4 B .2 E .1 C D .2 Hình 3 — Đồ thị tương ứng với nguồn trong ví dụ B. trong đồ thị, các xác suất và các chữ cái được tạo ra ứng với một chuyển đổi được cho bên cạnh các đường mũi tên tương ứng. Hình 3 là minh họa cho ví dụ B ở Phần 2, trong khi hình 4 tương ứng với ví dụ C. Trong B C A .5 .5 C .8 A .2 B .4 B .5 .1 Hình 4 — Đồ thị tương ứng với nguồn trong ví dụ C. hình 3 chỉ có một trạng thái do các chữ cái liên tiếp là độc lập. Trong hình 4, số lượng trạng thái nhiều như số lượng chữ cái. Nếu một ví dụ trigram được xây dựng thì cần tối thiểu n2 trạng thái tương ứng với các cặp chữ cái khả dĩ đi trước một chữ cái sẽ được chọn. Hình 5 là đồ thị cho trường hợp cấu trúc từ trong ví dụ D. Ở đây, S tương ứng với ký tự cách trắng. 5. ERGODIC VÀ NGUỒN HỖN HỢP Như chúng ta đã chỉ ra ở trên, một nguồn rời rạc cho mục đích của chúng ta có thể được xem như được mô tả bởi một quá trình Markoff. Trong số các quá trình Markoff rời rạc khả dĩ, có một nhóm với các thuộc tính 6 Về chi tiết có thể tham khảo tài liệu M. Fréchet, Méthode des fonctions arbitraires. Théorie des événements en chaˆıne dans le cas d’un nombre fini d’états possibles (Phương pháp hàm ngẫu nhiên. Lý thuyết các chuỗi sự kiện với các trạng thái khả dĩ hữu hạn). Paris, Gauthier-Villars, 1938. 8 Dịch và biên soạn bởi VNTelecom đặc biệt quan trọng trong lý thuyết truyền tin. Lớp đặc biệt này bao gồm các quá trình “ergodic” và chúng ta sẽ gọi các nguồn tương ứng này là nguồn ergodic. Mặc dù một định nghĩa chính xác hơn về quá trình ergodic cũng cần được đề cập đến một chút, song ý tưởng chung thì đơn giản. Trong một quá trình ergodic, mỗi chuỗi được tạo ra bởi quá trình thì giống nhau về các thuộc tính thống kê. Do vậy, các tần số xuất hiện các chữ cái, các tần số xuất hiện của digram v..v.., nhận được từ các chuỗi riêng biệt sẽ tiến gần đến giới hạn xác định độc lập của các chuỗi riêng biệt khi chiều dài của chuỗi tăng. Thực tế điều này không đúng với mọi chuỗi nhưng tập các chuỗi cho kết quả không đúng lại có xác suất bằng 0. Đại khái thuộc tính ergodic nghĩa là đồng nhất thống kê. Tất cả các ví dụ về ngôn ngữ nhân tạo ở trên đều là ergodic. Thuộc tính này có liên hệ với cấu trúc của đồ thị tương ứng. Nếu đồ thị có hai thuộc tính7 sau đây thì quá trình tương ứng với nó sẽ có tính ergodic: 1. Đồ thị không bao gồm 2 phần tách biệt A và B sao cho không thể đi từ các điểm nối ở phần A tới các điểm nối ở phần B dọc theo các đường chuyển trạng thái của đồ thị theo hướng mũi tên và cũng không thể đi từ các điểm nối ở phần B tới các điểm nối ở phần A. 2. Một dãy đóng của các đường chuyển trạng thái trong đồ thị sẽ có tất cả các mũi tên trên đường chuyển trạng thái chỉ cùng một hướng sẽ được gọi là một mạch kín. "Chiều dài" mạch là số đường chuyển trạng thái trong mạch. Do đó trong hình 5, dãy BEBES là một mạch kín có chiều dài 5. Thuộc tính thứ hai yêu cầu rằng ước số chung lớn nhất của các chiều dài của tất cả các mạch kín trong đồ thị phải là 1. E D E S A B E A S B C A E D E D B D B E D E E B E A B D B E E A S Hình 5 — Đồ thị tương ứng với nguồn trong ví dụ D. Nếu điều kiện đầu tiên được thỏa mãn nhưng điều kiện thứ hai bị vi phạm do có ước số chung lớn nhất bằng d > 1, các chuỗi có một loại cấu trúc tuần hoàn nào đó. Các chuỗi khác nhau rơi vào d các lớp khác nhau mà các lớp này thì giống nhau về mặt thống kê ngoại trừ một thay đổi dịch vị trí của gốc (ví như chữ cái nào trong chuỗi được gọi là chữ cái số 1). Bằng cách dịch từ 0 tới d − 1, bất kỳ chuỗi nào có thể được tạo tương đương thống kê với bất kỳ chuỗi còn lại. Một ví dụ đơn giản với d = 2 như sau: có 3 chữ cái có khả dĩ là a, b, c. Chữ cái a được theo sau bởi hoặc b hoặc c với xác suất lần lượt 31 và 23 . Hoặc b hoặc c sẽ được theo sau bởi chữ cái a. Do đó một chuỗi đặc trưng sẽ là: a b a c a c a c a b a c a b a b a c a c. Loại hình này thì cũng không quá quan trọng trong nghiên cứu của chúng ta. 7 Chúng là những phát biểu lại dưới dạng đồ thị điều kiện cho bởi Fréchet. 9 Dịch và biên soạn bởi VNTelecom Nếu điều kiện thứ nhất bị vi phạm, đồ thị có thể bị chia thành một tập các đồ thị con mà mỗi đồ thị con lại thỏa mãn điều kiện thứ nhất. Chúng ta giả định rằng điều kiện hai cũng sẽ được thỏa mãn với các đồ thị con. Trong trường hợp này chúng ta có cái mà được gọi là nguồn "hỗn hợp", hình thành bởi một số các thành phần nguyên chất. Các thành phần tương ứng với các đồ thị con khác nhau. Nếu L1 , L2 , L3 , . . . là các nguồn thành phần, chúng ta có thể viết: L = p1 L1 + p2 L2 + p3 L3 + · · · với pi là xác suất của nguồn thành phần Li . Cụ thể, tình huống này được biểu diễn như sau: Có nhiều nguồn khác nhau L1 , L2 , L3 , . . . mà đều có cấu trúc thống kê đồng nhất (nghĩa là có tính ergodic). Chúng ta không biết trước nguồn nào được sử dụng nhưng khi các chuỗi bắt đầu được tạo ra ở một nguồn thành phần nguyên chất Li , nó tiếp tục mãi mãi theo cấu trúc thống kê của thành phần đó. Ví du, ai đó có thể lấy hai trong số các quá trình được định nghĩa ở trên và giả sử p1 = 0.2 và p2 = 0.8. Môt chuỗi từ nguồn hỗn hợp L = 0.2L1 + 0.8L2 có thể đạt được bằng cách đầu tiên chọn L1 hoặc L2 với các xác suất 0.2 và 0.8 và sau đó lựa chọn này sinh ra một chuỗi từ bất cứ cái nào được chọn. Ngoại trừ khi điều ngược lại xảy ra, chúng ta sẽ giả sử một nguồn là ergodic. Giả định này cho phép xác định trung bình dọc theo một dãy với trung bình trên cả tập hợp các chuỗi khả dĩ (xác suất của mâu thuẫn bằng 0). Chẳng hạn tần số tương đối của chữ cái A trong một dãy vô hạn cụ thể sẽ bằng với tần số tương đối của nó trong tập hợp các dãy với xác suất 1. Nếu Pi là xác suất của trạng thái i và pi ( j) là xác suất chuyển đổi trạng thái từ i sang j, khi đó, với quá trình được gọi là tĩnh thì rõ ràng Pi phải thỏa mãn các điều kiện cân bằng: Pj = ∑ Pi pi ( j). i Trong trường hợp ergodic, có thể cho thấy là với bất kỳ điều kiện khởi đầu nào, các xác suất Pj (N) ở trạng thái j sau N ký hiệu tiến tới giá trị cân bằng khi N → ∞. 6. SỰ LỰA CHỌN, TÍNH BẤT ĐỊNH VÀ ENTROPY Chúng ta đã trình bày về nguồn tin rời rạc như một quá trình Markoff. Liệu chúng ta có thể định nghĩa một đại lượng mà có thể đo, theo một nghĩa nào đó, có bao nhiêu lượng thông tin được tạo ra bởi quá trình như vậy, hoặc tốt hơn, ở tốc độ nào thông tin được tạo ra? Giả sử chúng ta có một tập các sự kiện có thể xảy ra với xác suất là p1 , p2 , . . . , pn . Các xác suất này được biết trước nhưng đó là tất cả những gì chúng ta biết liên quan đến sự kiện nào sẽ xảy ra. Liệu chúng ta có thể tìm một phép đo số các “lựa chọn” trong việc chọn một sự kiện hay mức độ “bất định” của kết quả thu được ở đầu ra?. Nếu có một phép đo như vậy, giả sử là H(p1 , p2 , . . . , pn ), cũng hợp lý nếu yêu cầu nó phải có các đặc tính sau: 1. H phải liên tục theo pi . 2. Nếu các xác suất là như nhau (pi = n1 ) thì H phải là hàm đơn điệu tăng theo n. Với các sự kiện mà xác suất xảy ra bằng nhau thì sẽ có nhiều lựa chọn, hay tính bất định, khi có nhiều sự kiện có khả năng xảy ra 3. Nếu một sự lựa chọn được chia thành hai lựa chọn liên tiếp nhau, đại lượng H của sự kiện gốc phải là tổng trọng số của hai giá trị thành phần của H. Nghĩa của điều này được minh họa trong Hình 6. Ở hình vẽ bên trái, chúng ta có ba khả năng với xác suất p1 = 12 , p2 = 13 , p3 = 16 . Ở hình vẽ bên phải chúng ta trước hết chọn giữa hai khả năng, mỗi khả năng ứng với xác suất 12 . Và nếu khả năng thứ hai xảy ra làm thành một lựa chọn với mỗi xác suất thành phần lần lượt 23 và 31 . Các kết quả cuối cùng có cùng xác suất như cho trước. Chúng ta yêu cầu, trong trường hợp đặc biệt này, như sau: H( 12 , 13 , 16 ) = H( 12 , 12 ) + 21 H( 23 , 13 ). 10 Dịch và biên soạn bởi VNTelecom 1/2 1/2 1/2 1/3 2/3 1/3 1/2 1/6 1/3 1/6 Hình 6 — Phân tách một sự lựa chọn từ ba khả năng. Hệ số là 1 2 bởi vì lựa chọn thứ hai chỉ xảy ra ở một nửa thời gian. Trong Phụ lục 2, kết quả sau được thiết lập: Định lí 2: Đại lượng H duy nhất thỏa mãn ba giả thiết trên phải có dạng n H = −K ∑ pi log pi i=1 với K là hằng số dương. Định lí này và các giả định trên cần thiết cho chứng minh của nó thì tuyệt nhiên không cần thiết cho lý thuyết được đề cập trong bài báo này. Nó được đưa ra chủ yếu để cho thấy sự hợp lý trong một số định nghĩa sẽ được đề cập đến ở phía sau. Tuy nhiên, tính đúng đắn của các định nghĩa này lại nằm ngay trong chính ẩn ý của chúng. Các đại lượng ở dạng H = −∑ pi log pi (hằng số K chỉ đơn thuần có nghĩa là một lựa chọn đơn vị đo) đóng vai trò trung tâm trong lý thuyết thông tin như độ đo thông tin, lựa chọn và tính bất định. Dạng của H sẽ được công nhận như entropy được định nghĩa trong một số công thức của cơ học thống kê8 ở đó pi là xác suất của hệ thống trong tế bào i trong không gian pha của nó. Ví dụ, H khi đó là H trong định lý H nổi tiếng của Boltzmann. Chúng ta sẽ gọi H = − ∑ pi log pi là entropy của tập các xác suất p1 , . . . , pn . Nếu x là một biến cơ hội, chúng ta sẽ viết H(x) cho entropy của nó; do đó x không phải argument của một hàm nhưng là nhãn cho một số, để phân biệt nó với H(y), là entropy của biến cơ hội y. Entropy trong trường hợp của hai khả năng với xác suất p và q = 1 − p được tính: H = −(p log p + q log q) được vẽ trong hình 7 như là hàm của p. Đại lượng H có một số tính chất thú vị mà sẽ chứng minh nó là một đại lượng đo hợp lý cho lựa chọn hay thông tin. 1. H = 0 khi và chỉ khi tất cả các pi , trừ một xác suất có giá trị đơn vị, đều bằng 0. Do đó chỉ khi chúng ta chắc chắn về kết quả thì H mới triệt tiêu. Nếu không thì H có giá trị dương. 2. Cho trước n, H cực đại và bằng log n khi tất cả các pi đều bằng nhau (tức là bằng n1 ). Một cách trực giác, đây cũng là trường hợp có tính bất định nhất. 3. Giả sử có hai sự kiện, x và y, đang xem xét với m khả năng cho sự kiện thứ nhất và n cho sự kiện thứ hai. Đặt p(i, j) là xác suất chung xảy ra của khả năng i với sự kiện thứ nhất và j với sự kiện thứ hai. Entropy của sự kiện chung được tính: H(x, y) = − ∑ p(i, j) log p(i, j) i, j trong đó H(x) = − ∑ p(i, j) log ∑ p(i, j) i, j j H(y) = − ∑ p(i, j) log ∑ p(i, j). i, j 8 Tham i khảo, ví dụ, R. C. Tolman, Principles of Statistical Mechanics, Oxford, Clarendon, 1938. 11 Dịch và biên soạn bởi VNTelecom 1.0 .9 .8 .7 H BITS .6 .5 .4 .3 .2 .1 0 0 .1 .2 .3 .4 .5 p .6 .7 .8 .9 1.0 Hình 7 — Entropy trong trường hợp của hai khả năng với xác suất p và q = 1 − p. Dễ dàng chứng minh được H(x, y) ≤ H(x) + H(y) Dấu = xảy ra khi các sự kiện độc lập (tức p(i, j) = p(i)p( j)). Tính bất định của sự kiện chung sẽ nhỏ hơn hoặc bằng tổng của các bất định thành phần. 4. Bất kỳ thay đổi nào theo hướng cân bằng của các xác suất p1 , p2 , . . . , pn đều làm tăng H. Do đó nếu p1 < p2 và chúng ta tăng p1 , giảm p2 một lượng bằng nhau làm sao cho p1 và p2 tiến gần đến giá trị bằng nhau, khi đó H sẽ tăng. Một cách chung nhất, nếu chúng ta thực hiện bất kỳ phép toán “trung bình” lên trên pi ở dạng pi = ∑ ai j p j j trong đó ∑i ai j = ∑ j ai j = 1, và tất cả ai j ≥ 0, khi đó H tăng (trừ trường hợp đặc biệt nếu phép biến đổi này chỉ là phép hoán vị không hơn không kém các p j với H tất nhiên vẫn giữ nguyên). 5. Giả giử có hai sự kiện cơ hội x và y như trong 3, không nhất thiết phải độc lập. Với bất kỳ giá trị i riêng biệt nào mà x có thể nhận thì có xác suất có điều kiện pi ( j) mà y có giá trị j được xác định bởi công thức: p(i, j) pi ( j) = . ∑ j p(i, j) Chúng ta định nghĩa entropy có điều kiện của y, Hx (y) như là trị trung bình của entropy của y với mỗi giá trị của x, trọng số dựa theo xác suất nhận được một giá trị x riêng biệt. Nghĩa là: Hx (y) = − ∑ p(i, j) log pi ( j) . i, j Đại lượng này đo độ bất định trung bình của y khi biết về x. Thay thế giá trị của pi ( j), chúng ta thu được Hx (y) = − ∑ p(i, j) log p(i, j) + ∑ p(i, j) log ∑ p(i, j) i, j i, j j = H(x, y) − H(x) 12 Dịch và biên soạn bởi VNTelecom Hoặc H(x, y) = H(x) + Hx (y). Độ bất định (hay entropy) của sự kiện chung x, y bằng độ bất định của x cộng thêm độ bất định của y khi đã biết về x. 6. Từ 3 và 5, ta có H(x) + H(y) ≥ H(x, y) = H(x) + Hx (y). Do vậy H(y) ≥ Hx (y). Độ bất định của y sẽ không bao giờ tăng theo hiểu biết về x. Nó sẽ giảm trừ phi x và y là các sự kiện độc lập, trong trường hợp này nó không thay đổi. 7. ENTROPY CỦA MỘT NGUỒN TIN Xem xét một nguồn rời rạc của dạng trạng thái hữu hạn đã nêu ở trên. Với mỗi trạng thái khả dĩ i sẽ có một tập các xác suất pi ( j) của việc tạo ra các ký hiệu khả dĩ khác nhau j. Do đó có một entropy Hi với mỗi trạng thái. Entropy của nguồn sẽ được định nghĩa như giá trị trung bình của các Hi đo theo xác suất xuất hiện của các trạng thái đang xem xét. H = ∑ Pi Hi i = − ∑ Pi pi ( j) log pi ( j) . i, j Đây là entropy của nguồn theo mỗi ký hiệu của văn bản. Nếu quá trình Markoff theo đuổi ở một tốc độ nhất định theo thời gian thì cũng sẽ có entropy trên giây H = ∑ fi Hi i trong đó fi là tần số trung bình (số lần xuất hiện trên một giây) của trạng thái i. Rõ ràng H = mH với m là số lượng trung bình các ký hiệu được tạo ra trong một giây. H hay H đo lượng thông tin tạo ra bởi nguồn trên ký hiệu hoặc nguồn trên giây. Nếu cơ số của hàm logarit là 2, chúng sẽ đại diện cho tốc độ bit trên ký hiệu hoặc trên giây. Nếu các ký hiệu liên tiếp nhau độc lập với nhau thì H chỉ đơn giản là − ∑ pi log pi với pi là xác suất của ký hiệu thứ i. Giả sử trong trường hợp này chúng ta xem xét một bản tin dài gồm N ký hiệu. Nó sẽ chứa, với xác suất cao, khoảng p1 N sự kiện ký hiệu đầu tiên xảy ra, p2 N sự kiện ký hiệu thứ hai xảy ra, v..v.. Do đó xác suất của bản tin cụ thể này sẽ vào khoảng: p N p N p = p1 1 p2 2 · · · pnpn N Hoặc . log p = N ∑ pi log pi i . log p = −NH . log 1/p H= . N Do đó H xấp xỉ logarit của xác suất nghịch đảo của một chuỗi dài đặc trưng được chia bởi số các ký hiệu trong chuỗi. Kết quả tương tự đúng với bất kỳ nguồn nào. Nói chính xác hơn ta có (xem Phụ lục 3): 13 Dịch và biên soạn bởi VNTelecom Định lí 3: Cho bất kỳ > 0 và δ > 0, chúng ta có thể tìm thấy một N0 sao cho các chuỗi có độ dài bất kỳ N ≥ N0 thuộc vào hai loại sau: 1. Một tập hợp mà tổng xác suất của nó nhỏ hơn . 2. Phần dư, tất cả các tập mà phần tử của nó có xác suất thỏa mãn bất đẳng thức: log p−1 − H < δ. N log p−1 tiến gần tới H với N đủ lớn. N Một kết quả quan hệ mật thiết khác tính đến số các dãy với xác suất khác nhau. Xem xét lại các dãy có chiều dài N và sắp xếp chúng theo thứ tự giảm dần của xác suất. Chúng ta định nghĩa n(q) là số mà chúng ta sẽ lấy từ tập này bắt đầu với cái có khả năng xảy ra cao nhất để lũy tiến một xác suất tổng q cho những cái đã được lấy. Định lí 4: log n(q) Lim =H N→∞ N khi q khác 0 và 1. Chúng ta có thể xem log n(q) là số bit cần thiết để xác định chuỗi khi chúng ta chỉ xem xét các chuỗi log n(q) có khả năng xảy ra nhất với một xác suất tổng q. Khi đó là số bit trên ký hiệu để xác định được N lại chuỗi. Định lí phát biểu rằng với một số N lớn, nó sẽ độc lập với q và bằng với H. Tốc độ tăng của hàm logarit của số các chuỗi có khả năng xảy ra được cho bởi H, bất luận các giải thích của chúng ta về “khả năng xảy ra”. Theo kết quả này, được chứng minh ở Phụ lục 3, hoàn toàn có thể, cho hầu hết các mục đích, xem xét các chuỗi dài mặc dù chỉ có 2HN trong số đó với mỗi cái có xác suất 2−HN . Hai định lí tiếp theo chỉ ra rằng H và H có thể được xác định bằng cách hạn chế các phép toán trực tiếp từ thống kê các chuỗi bản tin, mà không tham chiếu tới các trạng thái và xác suất chuyển đổi giữa các trạng thái. Định lí 5: Cho p(Bi ) là xác suất của chuỗi ký hiệu Bi lấy từ một nguồn. Cho Nói cách khác, chúng ta hầu như chắc chắn nhận được GN = − 1 p(Bi ) log p(Bi ) N∑ i trong đó tổng tính trên tất cả các chuỗi Bi gồm N ký hiệu. Khi đó, GN là hàm đơn điệu giảm theo N và Lim GN = H. N→∞ Định lí 6: Cho p(Bi , S j ) là xác suất của chuỗi Bi theo sau bởi ký hiệu S j và pBi (S j ) = p(Bi , S j )/p(Bi ) là xác suất có điều kiện của S j sau Bi . Cho FN = − ∑ p(Bi , S j ) log pBi (S j ) i, j trong đó tổng tính trên tất cả các khối Bi gồm N − 1 ký hiệu và trên tất cả các ký hiệu S j . Khi đó hàm FN đơn điệu giảm theo N , FN = NGN − (N − 1)GN−1 , GN = 1 N ∑ Fn , N n=1 FN ≤ GN , và LimN→∞ FN = H . 14 Dịch và biên soạn bởi VNTelecom Các kết quả này được dẫn ra từ trong Phụ lục 3. Chúng cho thấy một dãy các xấp xỉ đến H có thể nhận được bằng cách chỉ xem cấu trúc thống kê của các chuỗi trải trên toàn bộ 1, 2, . . . , N ký hiệu. FN là xấp xỉ tốt hơn. Trên thực tế FN chính là entropy của xấp xỉ bậc N với nguồn thuộc loại đã được nghiên cứu ở trên. Nếu không có các ảnh hưởng thống kê trải trên nhiều hơn N ký hiệu, nghĩa là nếu xác suất có điều kiện của ký hiệu tiếp theo khi biết N − 1 ký hiệu trước đó sẽ không bị thay đổi bởi hiểu biết về bất kỳ cái gì trước đó, khi đó FN = H. FN rõ ràng là entropy có điều kiện của ký hiệu tiếp theo khi N − 1 ký hiệu trước đó đã được biết, trong khi GN là entropy theo ký hiệu của các khối gồm N ký hiệu. Tỉ số của entropy của nguồn với giá trị cực đại nó có thể có trong khi vẫn giới hạn với các ký hiệu giống nhau được gọi là entropy tương đối. Đây là mức nén tối đa có thể khi chúng ta mã hóa sang cùng một bộ chữ cái. Lấy 1 trừ đi entropy tương đối sẽ là phần dư thông tin (redundancy). Phần dư của tiếng Anh chuẩn, không xem xét tới cấu trúc thống kê trên các khoảng cách lớn hơn 8 chữ cái, thì xấp xỉ 50%. Điều này nghĩa là, khi chúng ta viết tiếng Anh, một nửa những gì chúng ta viết được xác định bởi cấu trúc của ngôn ngữ và nửa còn lại thì được lựa chọn tự do. Con số 50% được tìm thấy bởi vài phương pháp độc lập mà tất cả đều cho một kết quả sát nhau. Một là bằng cách tính entropy của xấp xỉ tới tiếng Anh. Phương pháp thứ hai là xóa một phần nào đó các chữ cái từ một đoạn văn bản mẫu tiếng anh và đưa cho ai đó cố gắng khôi phục lại nó. Nếu nó có thể được khôi phục khi mà 50% đã bị xóa mất thì phần dư thông tin chắc hẳn sẽ lớn hơn 50%. Phương pháp thứ ba phụ thuộc và một số kết quả đã biết đến trong mật mã. Hai điểm cực trong dư thông tin ở văn xuôi của tiếng Anh được trình bày trong “Tiếng anh cơ bản” và trong sách của James Joyce “Finnegans Wake”. Từ vựng tiếng Anh cơ bản được giới hạn tới 850 từ và phần dư thông tin rất cao. Điều này được phản ánh trong phần mở rộng khi một đoạn văn được dịch sang tiếng Anh chuẩn. Joyce mặt khác mở rộng từ vựng và được cho là đã đạt đến được một bản nén về nội dung ngữ nghĩa. Dư thông tin của một ngôn ngữ liên quan đến sự tồn tại của trò chơi ô chữ. Nếu mà dư thông tin là 0 bất kỳ dãy chữ cái nào cũng là một văn bản hợp lý trong ngôn ngữ và bất kỳ mảng hai chiều các chữ cái nào cũng hình thành một ô đố chữ. Nếu dư thông tin quá lớn, ngôn ngữ đặt ra quá nhiều hạn chế cho các ô đố chữ lớn để có thể giải được. Một phân tích chi tiết đã chỉ ra rằng nếu chúng ta giả thiết các ràng buộc do ngôn ngữ áp đặt này có bản chất ngẫu nhiên và lộn xộn, các ô đố chữ lớn chỉ có thể giải được khi dư thông tin là 50%. Nếu dư thông tin là 33% thì các ô đố chữ 3 chiều cũng có thể giải được v.v. 8. BIỂU DIỄN CÁC THAO TÁC MÃ HOÁ VÀ GIẢI MÃ Chúng ta chưa biểu diễn một cách toán học các thao tác thực hiện bởi máy phát và máy thu trong quá trình mã hoá và giải mã thông tin. Cả hai máy này đều được gọi là máy biến năng rời rạc. Đầu vào của máy biến năng là chuỗi ký hiệu vào và đầu ra là một chuỗi ký hiệu ra. Máy biến năng có thể có một bộ nhớ trong để đầu ra phụ thuộc không chỉ vào ký hiệu vào hiện tại mà còn phụ thuộc vào các ký hiệu vào trước đó. Chúng ta giả định rằng bộ nhớ trong là hữu hạn, nghĩa là, tồn tại một số hữu hạn m trạng thái khả dĩ của máy biến năng, và đầu ra là một hàm của trạng thái hiện tại và ký hiệu đầu vào hiện tại. Trạng thái kế tiếp sẽ là một hàm thứ hai của hai đại lượng này. Do đó, một máy biến năng có thể được biểu diễn bởi hai hàm: yn = f (xn , αn ) αn+1 = g(xn , αn ) trong đó xn là ký hiệu vào thứ n, αn là trạng thái của máy biến năng khi nhận ký hiệu vào thứ n yn là ký hiệu ra (hoặc chuỗi ký hiệu ra) được tạo ra khi xn được đặt ở đầu vào nếu trạng thái là αn . Nếu các ký hiệu ra của một máy biến năng có thể được dẫn vào một máy biến năng thứ hai, chúng có thể ghép nối tiếp với nhau, và kết quả thu được cũng sẽ là một máy biến năng. Nếu tồn tại một máy biến năng thứ hai hoạt động ngay trên đầu ra của máy biến năng đầu và phục hồi lại đầu vào gốc, thì máy thứ nhất được gọi là không suy biến và máy thứ hai sẽ được gọi là nghịch đảo của máy thứ nhất. 15 Dịch và biên soạn bởi VNTelecom Định lí 7: Đầu ra của một máy biến năng trạng thái hữu hạn được điều khiển bởi một nguồn thống kê trạng thái hữu hạn là một nguồn thống kê có trạng thái hữu hạn, có entropy (trong một đơn vị thời gian) nhỏ hơn hoặc bằng entropy của đầu vào. Nếu máy biến năng không suy biến, thì chúng bằng nhau. Gọi α là trạng thái của nguồn tạo ra chuỗi ký hiệu xi ; và gọi β là trạng thái của máy biến năng tạo ra các khối ký hiệu y j tại đầu ra của nó. Hai hệ thống được kết hợp và biểu diễn bằng một “không gian trạng thái tích” của cặp (α, β). Hai điểm trong không gian này (α1 , β1 ) và (α2 , β2 ), được nối bởi một đường thẳng nếu α1 có thể tạo ra một giá trị x mà thay đổi β1 thành β2 , và đường thẳng này được cho xác suất của giá trị x đó trong trường hợp này. Đường thẳng được gán với khối ký hiệu y j tạo ra bởi máy biến năng. Entropy của đầu ra có thể được tính bởi tổng trọng số của tất cả các trạng thái. Nếu chúng ta tính tổng của β trước tiên, mỗi kết quả thu được sẽ nhỏ hơn hoặc bằng tổng tương ứng của α, bởi vì entropy không tăng. Nếu máy biến năng không suy biến, chúng ta nối đầu ra với máy biến năng nghịch đảo. Giả sử H1 , H2 và H3 là các entropy đầu ra của nguồn, lần lượt của máy biến năng thứ nhất và thứ hai, thì H1 ≥ H2 ≥ H3 = H1 và do đó H1 = H2 . Giả sử chúng ta có một hệ thống các ràng buộc về các chuỗi khả dĩ mà có thể được biểu diễn bằng một (s) đồ thị tuyến tính ở Hình 2. Nếu các xác suất pi j được gán cho các đường thẳng nối trạng thái i đến trạng thái j, hệ thống này sẽ trở thành một nguồn. Có một cách gán đặc biệt để cực đại hoá entropy thu được (xem Phụ lục 4). Định lí 8: Gọi hệ thống các ràng buộc ở trên là một kênh truyền có dung lượng C = logW . Nếu chúng ta gán (s) Bj (s) pi j = W − i j Bi trong đó (s) ij là thời gian để ký hiệu thứ s chuyển từ trạng thái i sang trạng thái j và Bi thoả mãn điều kiện Bi = ∑ B jW − (s) ij s, j khi đó H sẽ đạt cực đại và bằng C. Bằng cách gán giá trị thích hợp cho các xác suất chuyển đổi, entropy các ký hiệu trên một kênh truyền có thể đạt giá trị cực đại bằng với dung lượng kênh. 9. ĐỊNH LÍ CƠ BẢN CHO KÊNH TRUYỀN KHÔNG CÓ NHIỄU Bây giờ chúng ta sẽ chứng minh cách diễn giải H của chúng ta như là tốc độ sinh ra thông tin bằng cách chứng minh rằng H xác định dung lượng kênh truyền được yêu cầu với hầu hết các mã hoá hiệu quả. Định lí 9: Gọi một nguồn có entropy H (bit trên ký hiệu) và một kênh truyền có dung lượng C (bit trên C giây). Khi đó, chúng ta có thể mã hoá đầu ra của nguồn theo một cách để truyền với tốc độ trung bình − H C ký hiệu trên giây trên một kênh truyền mà nhỏ tùy ý. Ta không thể truyền với tốc độ trung bình lớn hơn . H C Phần đảo của định lí nói rằng không thể bị vượt qua, có thể được chứng minh nhờ vào nhận xét entropy H của đầu vào của kênh truyền trên một giây bằng với giá trị đó của nguồn, bởi vì máy phát phải không suy biến, và ngoài ra entropy này không được vượt quá dung lượng kênh truyền. Do đó H ≤ C và số ký hiệu trên một giây = H /H ≤ C/H. Phần đầu của định lí sẽ được chứng minh theo hai cách. Cách thứ nhất là xem xét một tập hợp tất cả các chuỗi N ký hiệu sinh bởi nguồn. Với N lớn, chúng ta có thể chia tập này thành hai nhóm, một chứa ít hơn 2(H+η)N phần tử và nhóm thứ hai chứa ít hơn 2RN phần tử (ở đó R là logarít của số các ký hiệu khác nhau) và có xác suất tổng nhỏ hơn µ. Khi N tăng, η và µ tiến gần đến 0. Số tín hiệu có khoảng thời gian T trên kênh truyền lớn hơn 2(C−θ)T với θ nhỏ khi mà T lớn. Nếu chúng ta chọn T= H +λ N C 16 Dịch và biên soạn bởi VNTelecom thì sẽ có một số lượng đủ các chuỗi ký hiệu kênh cho nhóm xác suất cao khi mà N và T đủ lớn (cho dù λ nhỏ), ngoài ra còn có thêm vài chuỗi phụ khác. Nhóm xác suất cao được mã hoá bằng một ánh xạ một-một bất kì vào trong tập hợp này. Các chuỗi còn lại được biểu diễn bằng các chuỗi lớn hơn, bắt đầu và kết thúc bởi một trong những chuỗi không được dùng trong nhóm xác suất cao. Chuỗi đặc biệt này dùng như tín hiệu khởi đầu và kết thúc cho một mã khác. Giữa đó sẽ có thời gian đủ cho phép các chuỗi đủ khác nhau cho mọi bản tin xác suất thấp. Điều này yêu cầu R T1 = +ϕ N C trong đó ϕ nhỏ. Tốc độ truyền các ký hiệu bản tin trên một giây tính theo trung bình sẽ lớn hơn (1 − δ) T1 T +δ N N −1 = (1 − δ) H R +λ +δ +ϕ C C −1 . C . H Một cách khác để tiến hành việc mã hoá này, và từ đó chứng minh định lí, có thể trình bày như sau: Sắp xếp các bản tin có chiều dài N theo thứ tự xác suất giảm và giả sử xác suất của chúng là p1 ≥ p2 ≥ p3 · · · ≥ pn . Đặt Ps = ∑s−1 1 pi ; nghĩa là Ps xác suất tích lũy tiến đến, nhưng không chạm, ps . Trước tiên chúng ta mã hoá thành một hệ thống nhị phân. Mã nhị phân cho bản tin s thu được bằng cách khai triển Ps thành một số nhị phân. Sự khai triển chiếm ms vị trí, trong đó ms là số nguyên thoả mãn: Khi N tăng δ, λ và ϕ tiến đến không và tốc độ tiến đến log2 1 1 ≤ ms < 1 + log2 . ps ps Do đó các bản tin có xác suất cao được biểu diễn bởi các mã ngắn, các bản tin có xác suất thấp được biểu diễn bởi mã dài. Từ các bất đẳng thức này chúng ta có 1 1 ≤ ps < m −1 . m s 2 2 s Mã cho Ps sẽ khác với tất cả các mã tiếp theo ở một hoặc nhiều hơn trong số ms vị trí, bởi tất cả Pi còn lại lớn hơn ít nhất 2m1 s và khai triển nhị phân của chúng do đó sẽ khác nhau ở ms vị trí đầu tiên. Do vậy mọi mã đều khác nhau, và có thể phục hồi lại bản tin từ mã của nó. Nếu các chuỗi kênh chưa phải là các dãy số nhị phân, chúng có thể được gán bằng các số nhị phân tùy ý, và mã nhị phân do vậy sẽ được dịch ra tín hiệu phù hợp với kênh truyền. Giá trị trung bình H của các số nhị phân sử dụng trong một ký hiệu của bản tin gốc có thể được ước lượng dễ dàng. Chúng ta có 1 H = ∑ ms ps . N Nhưng, 1 1 1 1 1 log2 ps ≤ ∑ ms ps < ∑ 1 + log2 ps N∑ ps N N ps và do đó, GN ≤ H < GN + 1 N Khi N tăng, GN tiến tới H, entropy của nguồn, và H tiến tới H. Từ đây chúng ta thấy sự thiếu hiệu quả của mã hoá khi chỉ có một trễ hữu hạn của N ký hiệu được dùng, yêu cầu không lớn hơn N1 cộng với hiệu của entropy thực H và entropy GN được tính cho các chuỗi có chiều dài N. Phần trăm thời gian thừa so với thời gian cần thiết lí tưởng do đó nhỏ hơn 1 GN + − 1. H HN 17 Dịch và biên soạn bởi VNTelecom Cách mã hoá này về căn bản giống với cách được tìm ra độc lập bởi R. M. Fano.9 Phương pháp của ông là sắp xếp các bản tin chiều dài N theo thứ tự xác suất giảm dần. Chia chuỗi này thành hai nhóm có xác suất gần bằng nhau nhất có thể được. Nếu bản tin nằm trong nhóm đầu, bit đầu tiên của nó là 0, ngược lại, là 1. Các nhóm được chia tương tự thành các tập con có xác suất gần bằng nhau và tập con riêng biệt xác định chữ số nhị phân thứ hai. Quá trình tiếp tục cho đến khi mỗi tập con chỉ chứa một bản tin. Dễ thấy rằng ngoại trừ một số khác biệt nhỏ (thường ở chữ số cuối), cách này cho kết quả giống với tiến trình số học được mô tả ở trên. 10. THẢO LUẬN VÀ MỘT SỐ VÍ DỤ Để đạt được công suất lớn nhất từ máy phát đến tải, cần đưa vào một máy biến thế để máy phát có một trở tải. Tình huống ở đây cũng tương tự. Máy biến năng thực hiện phần mã hoá cần làm cho nguồn phù hợp với kênh truyền, theo nghĩa thống kê. Nguồn, được nhìn thấy từ kênh truyền thông qua máy biến năng cần có cùng cấu trúc thống kê với nguồn tăng tối đa entropy trong kênh truyền. Nội dung của Định lí 9 là, mặc dù sự phù hợp hoàn toàn nói chung không thực hiện được, nhưng chúng ta có thể xấp xỉ với độ chính xác theo ý muốn. Tỉ số của tốc độ truyền trên dung lượng C có thể được gọi là hiệu suất của hệ thống mã hoá. Tỉ số này đương nhiên bằng với tỉ số giữa entropy thực sự của các kí hiệu kênh truyền trên entropy lớn nhất có thể đạt được. Nói chung, mã hoá lí tưởng hoặc gần lí tưởng đòi hỏi độ trễ lớn ở máy phát và máy thu. Trong trường hợp không có nhiễu như chúng ta đã xem xét ở trên, chức năng chính của độ trễ này là để cho phép tương thích một cách phù hợp các xác suất với các độ dài chuỗi tương ứng. Với một mã tốt, lô-ga-rít của xác suất tương hỗ của một bản tin dài phải tỉ lệ với thời gian của tín hiệu tương ứng. Tóm lại log p−1 −C T phải nhỏ cho tất cả các bản tin, ngoại trừ một phần nhỏ các bản tin dài. Nếu một nguồn chỉ có thể tạo ra một bản tin riêng biệt, entropy của nó bằng không, và không cần phải có kênh truyền. Ví dụ, một máy tính được thiết lập để tính các chữ số liên tiếp của π tạo ra một chuỗi xác định, không có phần tử biến cố. Không cần kênh truyền để “truyền” thông tin này đến một điểm khác. Người ta có thể chế tạo một máy thứ hai để tính toán cùng một dãy tại một điểm khác. Tuy nhiên, điều này có thể phi thực tế. Trong một tình huống như vậy, chúng ta có thể chọn để bỏ qua một vài hoặc tất cả hiểu biết thống kê về nguồn. Chúng ta có thể xem rằng các chữ số của π là một chuỗi ngẫu nhiên, trong đó chúng ta xây dựng một hệ thống có khả năng truyền bất kì chuỗi chữ số nào. Bằng một cách tương tự, chúng ta có thể chọn sử dụng một vài trong những hiểu biết thống kê của tiếng Anh để xây dựng một mã, nhưng không phải tất cả. Trong trường hợp đó, chúng ta xem như nguồn có entropy cực đại thoả các điều kiện thống kê mà chúng ta mong muốn giữ lại. Entropy của nguồn này xác định dung lượng cần và đủ của kênh truyền. Trong ví dụ về π, thông tin duy nhất chúng ta giữ lại đó là các chữ số được chọn trong tập hợp 0, 1, . . . , 9. Trong trường hợp ngôn ngữ tiếng Anh, người ta có thể muốn dùng hiểu biết thống kê về tần số xuất hiện các chữ cái, ngoài ra không còn gì khác. Nguồn có entropy cực đại sẽ là xấp xỉ đầu tiên của tiếng Anh, và entropy của nó xác định dung lượng cần thiết của kênh truyền. Dưới đây là một ví dụ đơn giản từ các kết quả trên. Xét một nguồn tạo ra chuỗi các chữ cái được chọn trong A, B, C, D với xác suất 21 , 14 , 18 , 18 , các ký hiệu liên tiếp được chọn độc lập với nhau. Ta có H =− = 7 4 1 2 log 12 + 14 log 14 + 28 log 18 bit trên ký hiệu. Do đó chúng ta có thể xấp xỉ một hệ thống mã hoá để mã hoá các bản tin từ nguồn này thành các chữ số nhị phân, với trung bình 74 chữ số trên một ký hiệu. Trong trường hợp này, thực tế chúng ta có thể đạt được giá 9 Technical Report No. 65, The Research Laboratory of Electronics, M.I.T., March 17, 1949. 18 Dịch và biên soạn bởi VNTelecom trị giới hạn bằng mã sau (có được bằng phương pháp trong cách chứng minh thứ hai của Định lí 9): A B C D 0 10 110 111 Số trung bình của các chữ số nhị phân sử dụng trong mã hoá của một chuỗi N ký hiệu sẽ là N 1 2 × 1 + 14 × 2 + 2 × 3 = 74 N. 8 Dễ thấy rằng các chữ số nhị phân 0, 1 có xác suất 12 , 12 do đó H cho chuỗi được mã hoá là một bit trên một ký hiệu. Bởi vì tính trung bình chúng ta có 47 ký hiệu nhị phân cho một chữ cái gốc, entropy tính theo thời gian cũng như vậy. Entropy khả dĩ cực đại cho tập hợp gốc là log 4 = 2, xảy ra khi A, B, C, D có các xác suất 1 1 1 1 7 4 , 4 , 4 , 4 . Do đó entropy tương đối là 8 . Chúng ta có thể dịch các chuỗi nhị phân này trở lại thành tập hợp ký hiệu gốc theo chuẩn hai-một nhờ bảng sau: 00 01 10 11 A B C D Tiến trình kép này sau đó mã hoá bản tin gốc thành các ký hiệu giống nhau nhưng với tỉ lệ nén trung bình là 7 8. Ví dụ thứ hai, xét một nguồn tạo một chuỗi các A và B với xác suất p cho A và q cho B. Nếu p q chúng ta có H = − log p p (1 − p)1−p = −p log p(1 − p)(1−p)/p e . = p log . p Trong trường hợp đó, người ta có thể xây dựng một bộ mã bản tin khá tốt trên một kênh truyền 0, 1 bằng cách gửi một chuỗi đặc biệt, ví dụ 0000, cho ký hiệu không thường xuyên A và sau đó một chuỗi biểu thị số lượng B theo sau nó. Điều này có thể được chỉ ra bằng biểu diễn nhị phân trong đó mọi số chứa chuỗi đặc biệt sẽ bị xoá. Mọi số, cho đến 16 được biểu diễn theo cách thông thường, riêng số 16 được biểu diễn bằng số kế tiếp không chứa bốn số không liên tiếp, nghĩa là 17 = 10001, v.v. Có thể thấy rằng khi p → 0 mã hoá trên sẽ tiến đến lí tưởng với điều kiện độ dài của chuỗi đặc biệt được điều chỉnh thích hợp. PHẦN II: KÊNH RỜI RẠC CÓ NHIỄU 11. BIỂU DIỄN CỦA KÊNH RỜI RẠC CÓ NHIỄU Bây giờ ta xem xét trường hợp mà tín hiệu bị rối loạn bởi nhiễu trong quá trình truyền hay tại các thiết bị đầu cuối. Có nghĩa là, tín hiệu thu không nhất thiết phải bằng tín hiệu phát ở máy phát. Có thể phân ra thành hai trường hợp: nếu một tín hiệu được truyền dẫn riêng biệt luôn tạo ra cùng một tín hiệu thu, hay tín hiệu thu là một hàm xác định của tín hiệu phát, khi đó ảnh hưởng có thể được gọi là méo dạng. Nếu hàm này tồn tại hàm ngược, nghĩa là không có hai tín hiệu phát nào tạo ra cùng một tín hiệu thu, thì méo dạng tín hiệu có thể được sửa chữa, ít nhất về mặt lí thuyết, bằng việc thực hiện đơn thuần một quá trình ngược lại lên tín hiệu thu. 19 Dịch và biên soạn bởi VNTelecom Trường hợp cần quan tâm ở đây là trường hợp mà trong đó tín hiệu không phải luôn chịu cùng một thay đổi trong quá trình truyền. Trong trường hợp này, ta có thể giả thiết tín hiệu thu E là một hàm của tín hiệu phát S và một biến thứ hai, nhiễu N. E = f (S, N) Nhiễu cũng được xem như một biến cơ hội như bản tin ở trên. Nói chung, nhiễu có thể được đặc trưng bởi một quá trình ngẫu nhiên phù hợp. Dạng phổ biến nhất của kênh rời rạc có nhiễu mà ta sẽ xem xét là một sự tổng quát hóa của kênh không nhiễu trạng thái hữu hạn như mô tả ở trên. Chúng ta giả thiết một số lượng hữu hạn các trạng thái và một tập các xác suất: pα,i (β, j). Đây là xác suất nếu kênh ở trạng thái α và ký hiệu i được phát đi, bên thu nhận được ký hiệu j và kênh chuyển sang trạng thái β. Do vậy α và β chạy dọc theo các trạng thái khả dĩ của kênh, i thuộc tập các tín hiệu phát khả dĩ và j thuộc tập các tín hiệu thu khả dĩ. Trong trường hợp các ký hiệu liên tiếp bị tác động bởi nhiễu một cách độc lập, thì chỉ có một trạng thái của kênh, và kênh được mô tả bởi một tập các xác suất chuyển đổi pi ( j), chính là xác suất phát đi ký hiệu i và nhận được ký hiệu j. Nếu một kênh có nhiễu được cấp từ một nguồn có hai quá trình thống kê làm việc: nguồn và nhiễu. Do vậy, có một số entropy có khả năng tính được. Thứ nhất, đó là entropy H(x) của nguồn hay entropy của đầu vào kênh (các entropy này là bằng nhau nếu máy phát là không suy biến). Entropy của đầu ra của kênh, nghĩa là tín hiệu thu, được kí hiệu là H(y). Trong trường hợp kênh không có nhiễu thì H(x) = H(y). Entropy đồng thời của đầu vào và đầu ra là H(xy). Cuối cùng, hai dạng entropy có điều kiện Hx (y) và Hy (x) là entropy của đầu ra khi đã biết đầu vào và ngược lại. Giữa các đại lượng này, ta có biểu thức quan hệ: H(x, y) = H(x) + Hx (y) = H(y) + Hy (x). Tất cả các entropy này có thể được đo theo đơn vị trên giây hoặc trên ký hiệu 12. ĐỘ MẬP MỜ VÀ DUNG LƯỢNG KÊNH Nếu kênh có nhiễu, nói chung không thể khôi phục lại bản tin gốc hay tín hiệu phát với một độ tin cậy nào đó bằng bất cứ cách xử lí nào trên tín hiệu thu E. Tuy nhiên, vẫn có phương pháp phát thông tin tối ưu hóa trong việc chống nhiễu. Đây là vấn đề mà bây giờ chúng ta xem xét. Giả thiết có hai ký hiệu 0 và 1 được phát đi với tốc độ 1000 ký hiệu mỗi giây, xác suất phát là p0 = p1 = 12 . Do vậy, nguồn tin tạo thông tin với tốc độ 1000bit/giây. Trong quá trình truyền thông tin, nhiễu tạo ra lỗi, trung bình cứ 100 bit nhận thì có một bit không chính xác (phát 0 nhận 1 hoặc phát 1 nhận 0). Vậy tốc độ phát tin là bao nhiêu? Nói chung sẽ thấp hơn 1000bit/giây do có khoảng 1% ký hiệu thu được là không chính xác. Phản ứng đầu tiên của chúng ta có thể là: tốc độ truyền tin là 990 bit/giây, đơn thuần chỉ trừ đi số lỗi ước tính có thể xảy ra. Kết quả này là không hợp lí, do đã không tính tới khả năng phía thu không biết vị trí xảy ra các lỗi. Chúng ta có thể đưa nó vào trường hợp xấu nhất và giả thiết rằng nhiễu lớn tới mức các ký hiệu thu hoàn toàn độc lập với các ký hiệu đã phát. Xác suất thu được 1 là 12 cho dù ký hiệu phát đi là 1 hay 0, và cũng tương tự khi thu được ký hiệu 0. Do đó, có khoảng một nửa số ký hiệu thu được là chính xác do cơ may độc lập, và chúng ta có thể đưa ra hệ thống truyền thông tin tin cậy với tốc độ 500bit/giây, trong khi thực tế là không có thông tin nào được truyền đi. Một truyền dẫn tốt có thể đạt được bằng việc gieo một đồng xu xấp ngửa tại điểm thu mà không cần tính đến kênh truyền. Hiển nhiên, một hiệu chỉnh hợp lí đối với tổng lượng thông tin được truyền đi sẽ chính bằng lượng tin bị mất ở tín hiệu thu, hay chính là độ bất định về tín hiệu thực sự được phát khi ta biết tín hiệu thu. Từ phần thảo luận trước của chúng ta về entropy như một đơn vị đo độ bất định, dường như cũng hợp lí nếu coi entropy có điều kiện của bản tin, được biết đến như là tín hiệu thu, là độ đo của lượng thông tin bị tổn thất. Đây quả thực là một định nghĩa hợp lí, và sẽ được làm rõ dần về sau. Theo ý tưởng đó, tốc độ truyền tin thực tế R có thể thu được bằng cách lấy tốc độ phát tin (entropy của nguồn) trừ đi tốc độ trung bình của entropy có điều kiện R = H(x) − Hy (x) Entropy có điều kiện Hy (x), để ngắn gọn, sẽ được gọi là độ mập mờ (equivocation). Nó đo lường sự không rõ ràng tính theo trung bình của tín hiệu thu. 20 Dịch và biên soạn bởi VNTelecom Trong ví dụ ở trên, nếu bit thu được là 0 thì xác suất hậu nghiệm ứng với sự kiện bit 0 đã được phát đi là 0.99 và bit 1 đã được phát đi là 0.01. Các kết quả này ngược lại nếu bit thu được là 1. Do đó Hy (x) = −[0.99 log 0.99 + 0.01 log 0.01] = 0.081 bit/ký hiệu hay 81bit/giây. Ta có thể phát biểu rằng hệ thống đó truyền tin với tốc độ 1000 − 81 = 919 bít/s. Trong trường hợp xấu nhất, khi bit 0 đều có thể được thu như thể bit 0 hoặc 1, tương tự cho bit 1, thì xác suất hậu nghiệm là 12 , 12 và Hy (x) = − 1 2 log 12 + 21 log 12 = 1 bit/ký hiệu hay 1000 bit/giây. Tốc độ truyền tin do vậy bằng 0 như mong đợi. Định lí sau đây cho một cách hiểu trực giác về độ mập mờ và cũng dùng để chứng tỏ nó là đơn vị đo lường thích hợp duy nhất. Giả thiết có một hệ thống truyền tin và một người quan sát (hay thiết bị bổ trợ) có thể quan sát cả tín hiệu được phát và được phục hồi (với các lỗi do nhiễu gây ra). Người quan sát này đánh dấu các lỗi trong bản tin đã được khôi phục và phát dữ liệu đi tới một điểm thu qua "kênh sửa lỗi" để cho phép máy thu sửa các lỗi này. Tình huống này được miêu tả bằng lược đồ như trên hình 8. DỰ LIỆU SỮA LỖI QUAN SÁT VIÊN M NGUỒN M M MÁY THU MÁY PHÁT THIẾT BỊ SỬA LỖI Hình 8 — Lược đồ hệ thống sửa lỗi. Định lí 10: Nếu kênh sửa lỗi có dung lượng bằng Hy (x), ta có thể mã hóa dữ liệu sửa lỗi để gửi qua kênh này và hiệu chỉnh tất cả các lỗi, trừ một phần nhỏ tùy ý . Điều này là không thể nếu dung lượng kênh nhỏ hơn Hy (x). Nói đại khái thì Hy (x) là tổng thông tin bổ sung phải được cấp trong mỗi giây tại điểm thu nhằm sửa lại bản tin thu. Để chứng minh phần thứ nhất, giả thiết có một số chuỗi dài trong bản tin thu M tương ứng với bản tin gốc M. Có thể tìm ra theo cách logarit T Hy (x) bản tin nguồn M mà có khả năng tạo ra một cách hợp lí mỗi bản tin M . Do vậy ta có T Hy (x) số nhị phân được gửi đi trong mỗi T giây. Điều này có thể được thực hiện với tần số lỗi trên kênh có dung lượng Hy (x). Phần thứ hai được chứng minh như sau: với các biến xác suất rời rạc x,y, z bất kì ta có: Hy (x, z) ≥ Hy (x). Khai triển vế trái, ta có: Hy (z) + Hyz (x) ≥ Hy (x) Hyz (x) ≥ Hy (x) − Hy (z) ≥ Hy (x) − H(z). 21 Dịch và biên soạn bởi VNTelecom Nếu ta gán x là đầu ra nguồn tin, y là tín hiệu thu và z là tín hiệu truyền qua kênh sửa lỗi, thì vế phải chính là độ mập mờ trừ đi tốc độ phát tín hiệu qua kênh sửa lỗi. Nếu dung lượng kênh này nhỏ hơn độ bất định, vế phải sẽ lớn hơn 0 và Hyz (x) > 0. Nhưng đó lại là độ bất định của thông tin phát khi biết tín hiệu thu và tín hiệu sửa lỗi. Nếu độ mập mờ này lớn hơn 0, tần số lỗi sẽ không thể nhỏ tùy ý. Ví dụ: Giả sử lỗi xảy ra ngẫu nhiên trong chuỗi số nhị phân; xác suất số nhị phân sai là p và đúng là q = 1 − p. Các lỗi này có thể sửa nếu biết vị trí. Do vậy kênh sửa lỗi chỉ có nhiệm vụ truyền thông tin vị trí các lỗi. Vấn đề này chung quy lại cũng chỉ là truyền tín hiệu từ một nguồn tạo ra các số nhị phân với xác suất truyền bit 1 là p (không chính xác) và bit 0 là q (chính xác). Do vậy dung lượng kênh cần thiết là −[p log p + q log q] Đây chính là độ mập mờ của hệ thống gốc. Tốc độ truyền tin R có thể viết dưới hai dạng khác nữa theo các đặc tính chú ý ở trên. Ta có: R = H(x) − Hy (x) = H(y) − Hx (y) = H(x) + H(y) − H(x, y). Biểu thức định nghĩa thứ nhất được phát biểu chính bằng tổng lượng tin phát trừ đi độ bất ngờ của nó. Biểu thức thứ hai tính tổng lượng tin thu trừ đi phần bị nhiễu. Biểu thức thứ ba là tổng 2 lượng tin trừ đi entropy đồng thời, và theo nghĩa nào đó chính là tốc độ bit trên giây chung với cả 2 đầu cuối. Cả 3 biểu thức trên đều có mức quan trọng nhất định. Dung lượng kênh truyền có nhiễu C tốt nhất là bằng tốc độ truyền tin tối đa cho phép, nghĩa là, tốc độ khi nguồn tin hoàn toàn phù hợp với kênh truyền. Do đó ta có biểu thức tính dung lượng kênh: C = Max H(x) − Hy (x) trong đó, phép toán Max ứng với mọi nguồn tin có thể dùng như đầu vào của kênh truyền. Nếu kênh không có nhiễu, Hy (x) = 0. Định nghĩa do vậy sẽ tương đương với biểu thức cho kênh không nhiễu, vì entropy cực đại với kênh truyền chính là dung lượng của nó. 13. ĐỊNH LÍ CƠ BẢN CHO KÊNH RỜI RẠC CÓ NHIỄU Có vẻ khá bất ngờ nếu ta phải định nghĩa dung lượng kênh C cho một kênh có nhiễu khi ta có thể không bao giờ gửi được một thông tin nào đó trên kênh này. Tuy nhiên rõ ràng là bằng cách gửi thừa thông tin, xác suất lỗi có thể giảm được phần nào. Ví dụ, bằng cách lặp đi lặp lại một bản tin nhiều lần, và nhờ vào nghiên cứu thống kê các phiên bản khác nhau của bản tin thu, xác suất lỗi có thể còn rất nhỏ. Nếu người ta muốn xác suất lỗi giảm về 0, độ dư trong thông tin phải tăng đến mức không xác định, và tốc độ truyền do đó tiến tới 0, điều này là hoàn toàn không thể. Nếu có, ta sẽ không thể xác định cụ thể dung lượng kênh, mà chỉ xác định được dung lượng ứng với một tần số lỗi cho trước, hay độ mập mờ cho trước; dung lượng kênh sẽ giảm khi mà các yêu cầu về lỗi trở nên nghiêm ngặt hơn. Thực tế dung lượng kênh C định nghĩa ở trên có tầm quan trọng rõ rệt. Ta có thể truyền thông tin với tốc độ C qua kênh với tần số lỗi hay độ mập mờ mong muốn nhờ vào một mã hóa hợp lí. Phát biểu này không đúng cho bất kỳ tốc độ nào lớn hơn C. Nếu ta cố thử phát đi với tốc độ lớn hơn C, giả dụ C + R1 , thì sẽ cần thêm độ mập mờ lớn hơn hoặc bằng lượng vượt quá R1 đó. Giá phải trả khi đòi hỏi một độ mập mờ quá cao như thế là ta thực sự không nhận được thông tin chính xác có tốc độ cao hơn C. Tình huống được miêu tả trên hình 9. Tốc độ truyền tin trên kênh được biểu thị theo chiều ngang và độ mập mờ theo chiều dọc. Bất kỳ điểm nào ở trên đường kẻ đậm trong vùng bóng là có thể đạt được còn những điểm ở phía dưới là không thể. Các điểm nằm ngay trên đường đậm, nói chung, là không thực hiện được, thông thường trừ hai điểm trên đó là có thể. Các kết quả trên là các luận điểm chính cho định nghĩa dung lượng kênh C và sẽ được chứng minh ngay sau đây. 22 Dịch và biên soạn bởi VNTelecom Định lí 11: Cho một kênh rời rạc có dung lượng C và nguồn rời rạc có lượng entropy trên giây là H . Nếu H ≤ C, tồn tại một hệ mã hóa sao cho đầu ra của nguồn tin có thể được truyền trên kênh với tần số lỗi nhỏ tùy ý (hay độ mập mờ nhỏ tùy ý). Nếu H > C, ta có thể mã hóa nguồn sao cho độ mập mờ nhỏ hơn H −C + , trong đó nhỏ tùy ý. Không có phương pháp mã hóa nào cho độ mập mờ nhỏ hơn H −C. Phương pháp chứng minh phần thứ nhất của định lí không phải bằng việc chỉ ra một phương pháp mã hóa có các đặc tính mong muốn, mà phải chứng minh rằng tồn tại một mã như thế trong một nhóm mã nào đó. Trên thực tế, ta sẽ lấy trung bình tần số lỗi trên nhóm mã này và chỉ ra số trung bình đó có thể nhỏ hơn VÙNG ĐẠT ĐƯỢC Đ Ộ D Ố C = 1. 0 Hy (x) C H(x) Hình 9 — Độ mập mờ có thể tương ứng với entropy đầu vào cho trước của một kênh truyền. . Nếu trung bình cộng của một tập hợp nhỏ hơn , thì phải tồn tại ít nhất một thành phần nhỏ hơn . Điều này sẽ thiết lập kết quả mong muốn. Dung lượng C của một kênh truyền có nhiễu đã được định nghĩa như sau: C = Max H(x) − Hy (x) trong đó x là đầu vào, còn y là đầu ra kênh. Cực đại được tính trên tất cả các nguồn mà có thể được sử dụng như đầu vào của kênh. Cho S0 là một nguồn tin mà cho phép đạt dung lượng kênh cực đại C. Nếu không tồn tại nguồn tin nào thỏa mãn điều kiện này, khi đó S0 được giả thiết là nguồn tin cho tốc độ xấp xỉ tốc độ cực đại. Giả thiết S0 được dùng như đầu vào kênh. Ta xét các chuỗi có thể được phát và thu trong khoảng thời gian T . Các luận điểm sau đây là đúng: 1. Các chuỗi phát này thuộc 2 nhóm, một nhóm có xác suất cao gồm khoảng 2T H(x) phần tử và nhóm gồm các chuỗi còn lại có tổng xác suất nhỏ . 2. Tương tự, các chuỗi thu gồm tập hợp xác suất cao của khoảng 2T H(y) phần tử và tập hợp xác suất thấp của các chuỗi còn lại. 3. Mỗi chuỗi đầu ra có xác suất cao có thể được tạo ra từ khoảng 2T Hy (x) đầu vào. Xác suất của tất cả các trường hợp khác là nhỏ. Các đại lượng và δ hàm chứa trong từ "nhỏ” và "khoảng" trong các phát biểu trên tiến tới 0 vì chúng ta cho phép T đơn điệu tăng và S0 xấp xỉ nguồn cực đại. Tình huống trên được đúc kết trong hình 10, trong đó các chuỗi đầu vào là các điểm bên trái và các chuỗi đầu ra là các điểm bên phải. Ta thấy hình quạt tạo bởi các đường xiên đặc trưng cho các nguyên nhân có thể (ở đây ý nói các chuỗi đầu vào) ứng với một đầu ra nào đó. Bây giờ, giả thiết có một nguồn tin khác tạo ra thông tin ở tốc độ R với R < C. Trong khoảng thời gian T , nguồn này có 2T R bản tin xác suất cao. Ta mong muốn liên kết các bản tin này với một lựa chọn các đầu vào kênh có thể nhằm đạt được một tần số lỗi nhỏ. Chúng ta sẽ thiết lập mối liên kết này theo mọi cách có thể (tuy nhiên, chỉ sử dụng các đầu vào thuộc nhóm xác suất cao được xác định bởi nguồn S0 ) và lấy trung bình tần số lỗi trên một lớp rộng các hệ thống mã hóa có thể. Điều này tương tự như tính tần số lỗi cho một liên kết ngẫu nhiên giữa các bản tin và các đầu vào kênh trong khoảng thời gian T . Giả thiết một đầu ra y1 được quan sát thấy. Khi đó đâu là xác suất có nhiều hơn một bản tin trong tập các nguyên nhân có thể để tạo ra y1 . Có 2T R bản tin được phân phối một cách ngẫu nhiên trên 2T H(x) điểm. Do đó, xác suất để một điểm nào đó là một bản tin bằng: 2T (R−H(x)) . 23 Dịch và biên soạn bởi VNTelecom E M 2H(x)T 2H(y)T TÍN HIỆU NHẬN XÁC SUẤT CAO BẢN TIN XÁC SUẤT CAO 2Hy (x)T NGUYÊN NHÂN HỢP LÝ CHO MỖI E 2Hx (y)T KẾT QUẢ HỢP LÝ CHO MỖI M Hình 10 — Lược đồ đặc trưng mối quan hệ giữa đầu vào và đầu ra trên một kênh truyền. Xác suất không có điểm nào trong hình quạt giấy đóng vai trò bản tin phát (ngoại trừ bản tin gốc thực sự) là P = 1 − 2T (R−H(x)) 2T Hy (x) . Do R < H(x) − Hy (x) nên ta có R − H(x) = −Hy (x) − η với η dương. Do vậy, P = 1 − 2−T Hy (x)−T η tiến tới (khi T → ∞) 2T Hy (x) 1 − 2−T η . Do vậy xác suất có một lỗi tiến tới 0 và phần đầu của định lí được chứng minh. Phần thứ hai của định lí dễ dàng được chứng minh bằng cách để ý rằng ta có thể đơn thuần gửi đi C bit trong 1 giây từ một nguồn và hoàn toàn bỏ mặc phần còn lại của thông tin được tạo ra. Tại máy thu, phần bỏ mặc đó cho một độ mập mờ H(x) − C còn phần đã phát chỉ cần cộng thêm vào . Giới hạn này có thể đạt được theo nhiều cách khác nhau, và sẽ được chứng minh khi chúng ta xét đến trường hợp liên tục. Phát biểu cuối của định lí chỉ là một hệ quả đơn giản của định nghĩa dung lượng kênh C. Giả thiết ta có thể mã hóa nguồn với H(x) = C + a sao cho thu được một độ mập mờ Hy (x) = a − với dương. Vậy R = H(x) = C + a và H(x) − Hy (x) = C + với dương. Biểu thức này mâu thuẫn với định nghĩa của C như một cực đại của H(x) − Hy (x). Thực ra, ta đã chứng minh được nhiều hơn những gì phát biểu trong định√lí. Nếu trung bình cộng của phần một √ tập hợp nằm trong khoảng của giá trị cực đại của chúng, nhiều nhất là √ tử là có thể lớn hơn dưới giá trị cực đại (có lẽ hiểu rằng số trung bình cộng nằm trong khoảng max − và max - ND). Do nhỏ tùy ý, ta có thể phát biểu rằng hầu hết mọi hệ thống đều gần một cách tùy ý với trường hợp lí tưởng. 24 Dịch và biên soạn bởi VNTelecom 14. THẢO LUẬN Phần luận chứng của định lí 11, tuy không phải là một chứng minh tồn tại thuần túy, lại chứa một số dạng khuyết của các chứng minh như vậy. Một nỗ lực nhằm đạt xấp xỉ tốt với mã hóa lí tưởng theo phương thức chỉ ra trong phần chứng minh nhìn chung là không thể thực hiện được. Thật ra, ngoài một số trường hợp khá hiển nhiên và vài tình huống tới hạn nào đó, không tìm thấy một mô tả tường minh nào về những xấp xỉ với trường hợp lí tưởng. Có thể đây không phải là sự khấp khểnh, nhưng nó lại liên quan tới sự khó khăn khi đưa ra một xây dựng rõ ràng cho một xấp xỉ tốt tới một chuỗi ngẫu nhiên. Một xấp xỉ tới trường hợp lí tưởng có thể có đặc tính sau: nếu tín hiệu bị thay đổi theo một cách hợp lí bởi nhiễu, tín hiệu gốc vẫn có khả năng được khôi phục lại. Nói cách khác, sự biến đổi này sẽ không khiến nó gần giống so với một tín hiệu hợp lí khác hơn là so với tín hiệu gốc. Điều này được thực hiện với giá phải trả là lượng dư thông tin trong mã hóa. Độ dư thông tin phải được tạo ra theo cách thích hợp nhằm chống lại một cấu trúc nhiễu có liên quan. Tuy nhiên, bất kì độ dư nào của nguồn tin thường là có ích nếu nó được lợi dụng tại điểm thu. Đặc biệt, nếu nguồn có sẵn một độ dư nào đó, và nếu không có nỗ lực nào nhằm loại bỏ nó để thích ứng với kênh truyền, thì độ dư này vẫn có thể giúp chống nhiễu. Chẳng hạn, trong kênh điện báo không nhiễu, một hệ thống có thể rút ngắn 50% thời gian truyền nếu mã hóa hợp lí các bản tin. Điều này không được thực hiện và hầu hết độ dư thông tin trong ngôn ngữ tiếng anh lại giữ lại trong các kí hiệu kênh. Tuy nhiên, điều này cũng có ưu điểm là cho phép nhiễu đáng kể trên kênh truyền. Một lượng lớn các chữ cái thu được có lỗi vẫn có thể được khôi phục lại nhờ vào ngữ cảnh. Trên thực tế, điều này có lẽ không phải là xấp xỉ tồi so với trường hợp lý tưởng trong nhiều trường hợp, bởi cấu trúc thống kê của anh ngữ khá phức tạp và các chuỗi anh ngữ hợp lí cũng không quá xa (theo nghĩa đòi hỏi của định lí) so với sự lựa chọn ngẫu nhiên. Cũng như trong trường hợp không nhiễu, một độ trễ nói chung là cần thiết nhằm tiếp cận việc mã hóa lí tưởng. Nó giờ đây có thêm chức năng phụ cho phép một mẫu nhiễu lớn ảnh hưởng lên tín hiệu trước khi có các cơ chế khôi phục bản tin gốc thực hiện tại điểm thu. Tăng kích cỡ mẫu luôn làm tăng thêm các xác nhận thống kê có thể. Nội dung của định lí 11 và phần chứng minh của nó có thể được phát biểu một cách khác biệt, cho thấy sự kết nối với trường hợp không nhiễu một cách rõ ràng hơn. Xét các tín hiệu thực có độ dài T và giả thiết một tập con của chúng được chọn để sử dụng. Coi rằng tất cả tín hiệu trong tập con được sử dụng với xác suất bằng nhau, và giả sử máy thu được thiết kế để lựa chọn, giống như tín hiệu gốc, một nguyên nhân có khả năng nhất trong tập con, khi nhận được một tín hiệu bị xáo trộn. Ta định nghĩa N(T, q) là con số tối đa các tín hiệu có thể chọn cho tập con sao cho xác suất của một phiên dịch không chính xác là nhỏ hơn hoặc bằng q. log N(T, q) Định lí 12: Lim = C, với C là dung lượng kênh, với điều kiện q khác 0 hoặc 1. T →∞ T Nói cách khác, không cần quan tâm cách thức đặt ra các giới hạn của độ tin cậy, ta có thể phân biệt một cách chắc chắn trong khoảng thời gian T đầy đủ các bản tin để tương đương với CT bit, khi T đủ lớn. Định lí 12 có thể so sánh với định nghĩa dung lượng kênh không nhiễu trong mục 1. 15. VÍ DỤ VỀ KÊNH RỜI RẠC VÀ DUNG LƯỢNG CỦA NÓ Xét một ví dụ đơn giản về kênh truyền rời rạc trong hình 11. Có 3 ký hiệu có thể xảy ra. Ký hiệu thứ nhất không bị ảnh hưởng bởi nhiễu. Ký hiệu thứ hai và thứ ba, mỗi cái có xác suất p không bị nhiễu, và xác suất q bị chuyển thành kí hiệu còn lại. Ta có: (đặt α = −[p log p + q log q] và P và Q là xác suất sử dụng ký hiệu thứ nhất hay ký hiệu thứ hai) H(x) = −P log P − 2Q log Q Hy (x) = 2Qα. Ta mong muốn chọn P và Q sao cho biểu thức H(x) − Hy (x) đạt giá trị cực đại với điều kiện P + 2Q = 1. Do vậy, ta xét U = −P log P − 2Q log Q − 2Qα + λ(P + 2Q) 25 Dịch và biên soạn bởi VNTelecom p q KÝ HIỆU PHÁT KÝ HIỆU NHẬN q p Hình 11 — Ví dụ kênh truyền rời rạc. ∂U = −1 − log P + λ = 0 ∂P ∂U = −2 − 2 log Q − 2α + 2λ = 0. ∂Q Loại bỏ λ, ta có log P = log Q + α P = Qeα = Qβ P= β β +2 Q= Dung lượng kênh do vậy trở thành C = log 1 . β +2 β +2 . β Bây giờ chú ý cách biểu thức này kiểm tra các giá trị hiển nhiên trong trường hợp p = 1 và p = 12 . Trong trường hợp đầu tiên (p = 1), β = 1 và C = log 3. Kết quả này là chính xác vì kênh là không nhiễu với 3 ký hiệu. Nếu p = 12 , β = 2 và C = log 2. Ở đây, ký hiệu thứ hai và thứ ba không thể được phận biệt với nhau và chúng đi cùng nhau như một ký hiệu. Ký hiệu thứ nhất được sử dụng với xác suất P = 12 và cặp 2 ký hiệu còn lại có xác suất 12 . Xác suất này có thể được phân phối tùy ý giữa chúng và vẫn đem đến dung lượng kênh tối đa. Với các giá trị trung gian của p, dung lượng kênh nằm giữa log 2 và log 3. Sự phân biệt giữa ký hiệu thứ hai và thứ ba chứa một số thông tin nhưng không nhiều như trường hợp không nhiễu. Ký hiệu thứ nhất được sử dụng thường xuyên hơn ở một mức nào đó so với 2 ký hiệu còn lại chính nhờ vào khả năng miễn nhiễu của nó. 16. DUNG LƯỢNG KÊNH TRONG MỘT SỐ TRƯỜNG HỢP ĐẶC BIỆT Nếu nhiễu tác động lên các ký hiệu liên tiếp nhau một cách độc lập, thì điều có thể được mô tả bởi một tập các xác suất chuyển đổi pi j . Đó là xác suất ký hiệu j sẽ được thu nếu ký hiệu được truyền đi là i. Khi đó tốc độ kênh truyền tối đa được cho bởi giá trị cực đại của biểu thức − ∑ Pi pi j log ∑ Pi pi j + ∑ Pi pi j log pi j i, j i i, j trong đó ta biến thiên Pi với điều kiện ∑ Pi = 1. Nhờ vào phương pháp Lagrange, điều này dẫn đến các phương trình, ps j ∑ ps j log ∑i Pi pi j = µ s = 1, 2, . . . . j Nhân hai vế với Ps và cộng trên s cho thấy µ = C. Đặt nghịch đảo của ps j (nếu tồn tại) là hst sao cho ∑s hst ps j = δt j . Ta có: ∑ hst ps j log ps j − log ∑ Pi pit = C ∑ hst . s, j i 26 s Dịch và biên soạn bởi VNTelecom Do vậy: ∑ Pi pit = exp i −C ∑ hst + ∑ hst ps j log ps j s s, j hoặc, Pi = ∑ hit exp −C ∑ hst + ∑ hst ps j log ps j . t s s, j Đây là hệ phương trình dùng để xác định giá trị cực đại của Pi , với C được chọn sao cho ∑ Pi = 1. Giải hệ trên ta có C sẽ là dung lượng kênh và Pi là các xác suất đúng cho các ký hiệu để đạt được dung lượng kênh này. Nếu mỗi ký hiệu đầu vào có cùng tập xác suất trên các đường thẳng xuất phát từ nó, và điều tương tự cũng đúng với các ký hiệu đầu ra, thì dung lượng có thể được tính một cách dễ dàng, như ví dụ cho trong hình 12. Trong trường hợp này Hx (y) độc lập với phân phối xác suất trên các ký hiệu đầu vào, và được cho 1/2 1/2 1/3 1/2 1/3 1/2 1/6 1/2 1/2 1/6 1/6 1/6 1/3 1/2 1/2 1/3 1/6 1/6 1/3 1/2 1/3 1/3 1/6 1/2 1/2 a b c Hình 12 — Ví dụ kênh truyền rời rạc với cùng xác suất chuyển đổi cho mỗi đầu vào và đầu ra. bởi − ∑ pi log pi , trong đó pi là các giá trị của các xác suất chuyển đổi từ bất kì ký hiệu đầu vào nào. Dung lượng kênh là Max H(y) − Hx (y) = Max H(y) + ∑ pi log pi . Cực đại của H(y) rõ ràng bằng log m trong đó m là số ký hiệu đầu ra, bởi ta có khả năng làm cho chúng xảy với cùng một xác suất bằng cách làm các kí hiệu đầu vào đồng xác suất. Dung lượng kênh do đó bằng C = log m + ∑ pi log pi . Trong hình 12a nó sẽ là C = log 4 − log 2 = log 2. Điều này đạt được bằng cách chỉ dùng ký hiệu thứ nhất và thứ ba. Trong hình 12b C = log 4 − 23 log 3 − 31 log 6 = log 4 − log 3 − 13 log 2 5 = log 13 2 3 . Trong hình 12c ta có C = log 3 − 12 log 2 − 13 log 3 − 16 log 6 3 = log 1 1 1 . 2 2 33 66 Giả thiết các ký hiệu thuộc một số nhóm thỏa mãn tính chất nhiễu không bao giờ làm cho một ký hiệu trong một nhóm bị nhầm lẫn với một ký hiệu của một nhóm khác. Cho dung lượng kênh ứng với nhóm thứ 27 Dịch và biên soạn bởi VNTelecom n là Cn (bit/giây) khi ta chỉ sử dụng các ký hiệu thuộc nhóm này. Lúc đó, dễ dàng chứng minh rằng, để sử dụng một cách hiệu quả nhất toàn bộ tập hợp, xác suất tổng Pn của tất cả các ký hiệu trong nhóm thứ n nên bằng: 2Cn . Pn = ∑ 2Cn Trong một nhóm, xác suất được phân phối giống như chỉ các ký hiệu đó đang được sử dụng. Dung lượng kênh khi đó bằng C = log ∑ 2Cn . 17. MỘT VÍ DỤ VỀ MÃ HÓA HIỆU QUẢ Ví dụ sau đây, mặc dù ở một góc độ nào đó là không thực tế, chỉ một trường hợp trong đó thích ứng chính xác với kênh truyền có nhiễu là có thể. Có hai ký hiệu kênh là 0 và 1, nhiễu tác động lên chúng theo các khối 7 ký hiệu. Một khối 7 ký hiệu này hoặc truyền không lỗi, hoặc chính xác một trong 7 ký hiệu bị lỗi. Tám khả năng này gần như là bằng nhau. Ta có C = Max H(y) − Hx (y) = = 1 7 4 7 7 + 88 log 18 bit/ký hiệu. Một mã hóa hiệu quả cho phép sửa hoàn toàn các lỗi và truyền đi với tốc độ C được cho như sau: (được tìm ra nhờ vào một phương pháp của R.Hamming): Cho một khối 7 ký hiệu X1 , X2 , . . . , X7 , trong đó X3 , X5 , X6 và X7 là những ký hiệu bản tin và được chọn tùy ý từ nguồn tin. Ba ký hiệu còn lại dùng làm phần dư và được tín như sau: X4 X2 X1 được chọn để cho α = X4 + X5 + X6 + X7 “ “ “ “ β = X2 + X3 + X6 + X7 “ “ “ “ γ = X1 + X3 + X5 + X7 chẵn “ “ Một khi khối 7 ký hiệu này được thu, α, β và γ được tính toán và nếu chẵn gọi là 0, nếu lẻ gọi là 1. Số nhị phân α β γ chỉ ra chỉ số của ký hiệu Xi bị lỗi (nếu 0 thì không có lỗi nào). PHỤ LỤC 1 SỰ TĂNG TIẾN SỐ LƯỢNG CỦA CÁC KHỐI TRONG CÁC KÝ HIỆU VỚI ĐIỀU KIỆN TRẠNG THÁI HỮU HẠN Coi Ni (L) là số lượng của các khối trong các ký hiệu với chiều dài L được kết thúc ở trạng thái i. Ta có (s) N j (L) = ∑ Ni L − bi j i,s b1i j , b2i j , . . . , bm ij với là chiều dài của các ký hiệu được chọn ở trạng thái i và dẫn đến trạng thái j. Chúng là các phương trình sai phân tuyến tính và khi L → ∞ ta có N j = A jW L . Thay vào phương trình sai phân (s) A jW L = ∑ AiW L−bi j i,s hoặc (s) A j = ∑ AiW −bi j i,s (s) ∑ ∑ W −bi j i − δi j Ai = 0. s 28 Dịch và biên soạn bởi VNTelecom Để có được phương trình này, định thức sau phải triệt tiêu: D(W ) = |ai j | = (s) ∑ W −bi j − δi j s và điều này xác định W , giá trị nghiệm thực lớn nhất khi D = 0. Do vậy đại lượng C được tính bằng log ∑ A jW L = logW L→∞ L C = Lim Và chúng ta cũng ghi nhận rằng các đặc tính tăng tiến sẽ giống nhau khi chúng ta yêu cầu các khối khởi đầu tại cùng một trạng thái được chọn tùy ý. PHỤ LỤC 2 ĐẠO HÀM CỦA H = − ∑ pi log pi 1 1 1 , ,..., = A(n). Từ điều kiện (3) chúng ta có thể phân tích một tùy chọn từ sm các khả năng có n n n thể tương đương thành một chuỗi của m giá trị tùy chọn từ s các khả năng có thể tương đương và nhận được Đặt H A(sm ) = mA(s). Tương tự ta có A(t n ) = nA(t). Ta có thể chọn n lớn tùy ý và tìm ra một giá trị m thỏa mãn sm ≤ t n < s(m+1) . Rồi lấy logarit và chia cho n log s, m 1 m log t ≤ ≤ + n log s n n or m log t − < n log s với nhỏ tùy ý. Giờ đây, từ tính đơn điệu của A(n), A(sm ) ≤ A(t n ) ≤ A(sm+1 ) mA(s) ≤ nA(t) ≤ (m + 1)A(s). Vậy thì chia cho nA(s), m A(t) m 1 ≤ ≤ + n A(s) n n or A(t) logt − 0 tới trạng thái khác trên một nhánh với xác suất p > 0, thì hệ thống có tính ergodic và luật các số lớn được áp dụng. Do vậy số lần mà một nhánh pi j trong một mạng bị cắt ngang trong một dãy dài có độ dài N sẽ tỉ lệ với xác suất tại i, gọi là Pi , và xác suất chọn nhánh này, Pi pi j N. Nếu N đủ lớn, xác suất của phần trăm các lỗi ±δ nhỏ hơn . Do vậy đối với một nhóm xác suất nhỏ, các số thực sự nằm trong khoảng giới hạn (Pi pi j ± δ)N. Vậy nên các dãy có xác suất p như sau (P pi j ±δ )N p = ∏ pi j i và log p giới hạn bởi N log p = ∑(Pi pi j ± δ) log pi j N hoặc log p − ∑ Pi pi j log pi j < η. N Điều này chứng minh định lí số 3. Định lí số 4 đưa ra ngay sau định lí 3 qua việc tính toán giới hạn trên và dưới của n(q) dựa trên khoảng giá trị khả dĩ của p trong định lí 3. Trong trường hợp trộn lẫn (không ergodic), nếu L = ∑ pi Li và các entropy của các thành phần là H1 ≥ H2 ≥ · · · ≥ Hn , ta có Định lí: Lim N→∞ log n(q) N = ϕ(q) là một hàm bậc thang đơn điệu giảm, trong khoảng ϕ(q) = Hs s−1 s 1 1 ∑ αi < q < ∑ αi . Để chứng minh Định lí số 5 và số 6 trước tiên chú ý rằng FN giảm dần đều bởi vì giá trị N khi tăng sẽ thêm một phần phụ vào entropy có điều kiện. Thay thế pBi (S j ) trong FN cho thấy FN = NGN − (N − 1)GN−1 1 Fn . Vì thế GN ≥ FN và GN giảm dần đều. Chúng cũng phải N∑ tiếp cận tới cùng giới hạn chung. Áp dụng định lí số 3, ta thấy rằng Lim GN = H. lấy tổng của chúng với mọi N ta có GN = N→∞ 30 Dịch và biên soạn bởi VNTelecom PHỤ LỤC 4 TỐI ĐA TỐC ĐỘ CHO HỆ THỐNG CÓ CÁC ĐIỀU KIỆN RÀNG BUỘC Giả thiết rằng chúng ta có một nhóm các điều kiện ràng buộc trên các dãy ký hiệu. Nhóm này có trạng thái (s) hữu hạn và có thể biểu thị bằng một mạch tuyến tính. Coi i j là chiều dài của các ký hiệu khác nhau mà chúng có thể xuất hiện khi chuyển từ trạng thái i tới trạng thái j. Phân bố xác suất Pi đối với các trạng thái (s) khác nhau và pi j đối với việc chọn ký hiệu s ở trạng thái i rồi chuyển sang trạng thái j cần có dạng phân bố nào để tối đa tốc độ thông tin phát ra theo các điều kiện ràng buộc này? Các điều kiện ràng buộc này định ra một kênh rời rạc và tốc độ lớn nhất phải nhỏ hơn hoặc bằng dung lương C của kênh này bởi vì nếu mọi khối có chiều dài lớn là gần như đồng nhất thì tốc độ này sẽ đạt được và nếu có thể thì nó sẽ là tốc độ tốt nhất. Ta (s) sẽ chỉ ra rằng tốc độ này có thể đạt được bởi sự chọn lựa giá trị Pi và pi j phù hợp. Tốc độ này xác định như sau (s) (s) − ∑ Pi pi j log pi j N = . (s) (s) M ∑ Pi p ij ij (s) i j = ∑s i j . (s) (s) Xét Hiển nhiên là đối với một giá trị lớn nhất của pi j = k exp i j . Các điều kiện ràng buộc cho cực đại là ∑ Pi = 1, ∑ j pi j = 1, ∑ Pi (pi j − δi j ) = 0. Do vậy ta cực đại biểu thức U= − ∑ Pi pi j log pi j + λ ∑ Pi + ∑ µi pi j + ∑ η j Pi (pi j − δi j ) ∑ Pi pi j i j i MPi (1 + log pi j ) + NPi ∂U =− ∂pi j M2 Tính ra giá trị pi j ij + λ + µi + ηi Pi = 0. pi j = Ai B j D− i j . Bởi vì − A−1 i = ∑ B jD ∑ pi j = 1, j ij j pi j = B j D− i j . ∑s Bs D− is Giá trị đúng của D là dung lượng C và giá trị B j là đáp án của Bi = ∑ B jC− ij đối với pi j = Bj − C Bi ij Bj ∑ Pi Bi C− i j = Pj Hoặc Pj Pi ∑ Bi C− i j = B j . Vậy nếu λi thỏa mãn ∑ γ iC − i j = γ j Pi = Bi γi . 31 Dịch và biên soạn bởi VNTelecom Cả hai nhóm phương trình cho Bi và γi có thể được thỏa mãn bởi vì C có giá trị là |C− i j − δi j | = 0. Trong trường hợp này tốc độ này là B j ∑ Pi pi j log Bi C− − ∑ Pi pi j i j nhưng ij Bj ∑ Pi pi j log Bi =C− ∑ Pi pi j i j ∑ Pi pi j (log B j − log Bi ) = ∑ Pj log B j − ∑ Pi log Bi = 0 j Do vậy tốc độ này là C và đó là giá trị tối đa, chứng minh cho đáp án đã giả thiết. 32 Dịch và biên soạn bởi VNTelecom PHẦN III: CƠ SỞ TOÁN HỌC Trong phần cuối của bài báo, chúng ta xét trường hợp các tín hiệu, bản tin, hoặc cả hai, là các biến liên tục, trái ngược với bản chất rời rạc được giả sử từ đầu đến đây. Như một mở rộng quan trọng, trường hợp liên tục có thể thu được thông qua việc lấy giới hạn từ trường hợp rời rạc bằng cách chia tập hợp vô hạn các bản tin hay các tín hiệu thành một số lượng lớn, nhưng có giới hạn, các vùng nhỏ và tính các thông số khác nhau liên quan trên một cơ sở rời rạc. Khi kích thước của các vùng giảm đi, thông thường các thông số này tiến đến các giá trị đích thực theo nghĩa giới hạn trong trường hợp liên tục. Tuy nhiên, có một vài hiệu ứng mới xuất hiện, cũng như có các thay đổi tổng quát theo hướng đặc trưng hóa các kết quả chung tới các trường hợp đặc biệt. Trong trường hợp liên tục, ta sẽ không cố gắng để có được các kết quả với tính tổng quát cao nhất, hay với một yêu cầu nghiêm ngặt về toán học thuần túy, bởi điều này sẽ liên quan đến việc giải quyết vần đề về lý thuyết độ đo trừu tượng và có thể khiến dòng phân tích trở nên khó hiểu. Tuy nhiên, một nghiên cứu sơ bộ nhằm chỉ ra rằng các lý thuyết có thể trình bày bằng một cách hoàn toàn chặt chẽ và rõ ràng, bao gồm cả trường hợp liên tục và rời rạc, cũng như nhiều trường hợp khác. Sự tự tiện bắt gặp thỉnh thoảng trong phân tích này đối với quá trình lấy giới hạn có thể được biện hộ trong mọi trường hợp có lợi ích thực tiễn. 18. TẬP HỢP VÀ TẬP HỢP CÓ PHÂN BỐ XÁC SUẤT CÁC HÀM SỐ Trong trường hợp liên tục, ta phải làm việc với các tập hợp (set) của các hàm số và các tập hợp có phân bố xác suất (ensemble) của các hàm số. Tập hợp của các hàm số, đúng như tên gọi của nó, chỉ đơn thuần là một lớp hay một bộ sưu tập của các hàm số thời gian, thông thường là một biến. Nó có thể được định rõ bằng việc đưa ra một biểu diễn hiện của các hàm khác nhau trong tập hợp, hay biểu diễn một cách ẩn thông qua các tính chất mà các hàm trong tập hợp có mà những hàm khác không có. Một vài ví dụ: 1. Tập hợp các hàm: fθ (t) = sin(t + θ). Mỗi giá trị riêng biệt của θ xác định một hàm riêng biệt trong tập hợp. 2. Tập hợp tất cả các hàm thời gian không chứa các tần số lớn hơn W vòng một giây. 3. Tập hợp tất cả các hàm giới hạn về băng tần bởi W và về biên độ bởi A. 4. Tập hợp tất cả các tín hiệu lời nói tiếng Anh như các hàm thời gian. Một tập hợp có phân bố xác suất (ensemble) của các hàm là một tập hợp các hàm với một độ đo xác suất, nhờ đó ta có thể xác định xác suất của một hàm trong tập hợp có những tính chất nhất định.1 Ví dụ như với tập hợp, fθ (t) = sin(t + θ), Ta có thể đưa ra một sự phân bố xác suất cho θ, P(θ). Khi đó tập hợp này trở thành một tập hợp có phân bố xác suất (viết tắt là "tập hợp pbxs"). Một vài ví dụ nữa về các tập hợp pbxs của các hàm là: 1. Một tập hợp hữu han các hàm fk (t) (k = 1, 2, . . . , n) với xác suất của fk là pk . 2. Một họ hữu hạn chiều các hàm f (α1 , α2 , . . . , αn ;t) với một phân bố xác suất trên các tham số αi : p(α1 , . . . , αn ). 1 Trong thuật ngữ toán học, những hàm này thuộc một không gian độ đo mà tổng độ đo của nó bằng đơn vị. 33 Dịch và biên soạn bởi VNTelecom Ví dụ, ta có thể coi tập hợp pbxs được định nghĩa bởi n f (a1 , . . . , an , θ1 , . . . , θn ;t) = ∑ ai sin i(ωt + θi ) i=1 với các biên độ ai độc lập và phân phối chuẩn, và các pha được phân bố độc lập và đều (từ 0 đến 2π). 3. Tập hợp có pbxs +∞ f (ai ,t) = ∑ n=−∞ an sin π(2Wt − n) π(2Wt − n) √ với các ai thuộc phân bố chuẩn và độc lập lẫn nhau với cùng một độ lệch chuẩn N. Đây là một biểu diễn của nhiễu “trắng”, với dải băng tần được giới hạn trong khoảng từ 0 đến W vòng trên giây và với công suất trung bình N. 2 4. Cho các điểm phân bố trên trục t theo một phân bố Poisson. Tại mỗi điểm đã lựa chọn, hàm f (t) được đưa vào và các hàm khác được bổ sung, tạo nên một tập hợp pbxs ∞ ∑ f (t + tk ) k=−∞ ở đó tk là các điểm của phân bố Poisson. Tập hợp pbxs này có thể coi như một dạng xung hay nhiễu ngắn mà ở đó tất cả các xung đều đồng nhất. 5. Tập hợp các hàm tiếng nói Anh ngữ với sự độ đo xác suất được đưa ra bởi tần số xuất hiện trong việc sử dụng hằng ngày. Một tập hợp pbxs các hàm fα (t) là tĩnh nếu ta vẫn thu được một tập hợp giống như thế khi dịch tất cả các hàm bởi bất ký một khoảng thời gian nhất định. Tập hợp có pbxs fθ (t) = sin(t + θ) là tĩnh nếu θ được phân bố đều từ 0 đến 2π. Nếu ta trượt mỗi hàm bởi t1 ta có fθ (t + t1 ) = sin(t + t1 + θ) = sin(t + ϕ) với ϕ được phân bố đều từ 0 đến 2π. Mỗi hàm có thay đổi nhưng cả tập hợp pbxs là không đổi dưới sự tịnh tiến. Các ví vụ khác đưa ra ở trên cũng là các tập hợp pbxs tĩnh. Một tập hợp pbxs là ergodic nếu nó là tĩnh và không có một tập con nào của các hàm trong tập hợp có xác suất khác 0 và 1 là tĩnh. Tập hợp pbxs sin(t + θ) là ergodic. Không một tập con nào của các hàm này với xác suất = 0, 1 được chuyển sang chính nó qua mọi phép tịnh tiến theo thời gian. Mặt khác, tập hợp pbxs a sin(t + θ) với a phân bố chuẩn và θ phân bố đều, là tĩnh nhưng không phải ergodic. Ví dụ như tập con của các hàm này với a nằm giữa 0 và 1 là tĩnh. Trong những ví dụ đưa ra, 3 và 4 là ergodic, và 5 cũng có thể coi như vậy. Nếu một tập hợp pbxs là ergodic, ta có thể nói đại thể rằng mỗi hàm trong tập hợp là đặc trưng cho tập hợp pbxs. Chính xác hơn, ta 2 Sự biểu diễn này có thể sử dụng như một định nghĩa của nhiễu trắng với dải băng tần hữu hạn. Nó có những ưu điểm nhất định là liên quan đến ít các phép tính giới hạn hơn là các định nghĩa đã từng được sử dụng. Cái tên “nhiễu trắng”, đã được sử dụng rộng rãi trong nhiều tài liệu, có lẽ hơi đáng tiếc. Theo quang học ánh sáng trắng có nghĩa hoặc là bất kỳ một phổ liên tục khi tương phản tại một điểm phổ, hay một phổ phẳng với bước sóng (nó không giống với phổ phẳng với tần số). 34 Dịch và biên soạn bởi VNTelecom biết rằng với một tập hợp pbxs ergodic, một giá trị trung bình của bất kỳ thống kê nào trên tập hợp đều bằng (với xác suất là 1) với một giá trị trung bình trên các tịnh tiến thời gian của 1 hàm nào đó trong tập hợp.3 Nói một cách nôm na, mỗi hàm có thể được kỳ vọng, khi thời gian tiếp diễn, với một tần số thích hợp, kinh qua tất cả các pháp chập của bất kỳ một hàm nào trong tập hợp. Như thể chúng ta có thể thực hiện nhiều phép toán khác nhau trên các số hay các hàm số để thu được một số mới hay hàm số mới, chúng ta cũng có thể tiến hành các phép toán trên các tập hợp pbxs để thu được các tập hợp pbxs mới. Ví dụ giả sử chúng ta có một tập hợp pbxs các hàm fα (t) và một toán tử T mà khi áp dụng trên mỗi hàm fα (t) sẽ tạo ra một hàm gα (t): gα (t) = T fα (t). Độ đo xác suất được định nghĩa cho một tập hợp gα (t) dựa trên độ đo trên tập hợp fα (t). Xác suất của một tập con nào đó của các hàm gα (t) là bằng với xác suất của tập con của các hàm fα (t) mà tạo ra các phần tử của tập hợp các hàm g đã cho trước dưới phép toán T . Có thể hình dung điều này tương ứng với việc chuyển tập hợp pbxs qua mộ thiết bị, ví dụ như một bộ lọc, một máy chỉnh lưu, một bộ điều chế. Hàm thu được ở đầu ra của thiết bị tạo thành một pbxs gα (t). Một thiết bị hay một toán tử T sẽ được xem như là không đổi nếu việc tịnh tiến hàm đầu vào chỉ đơn thuần làm tịnh tiến hàm đầu ra, cụ thể, nếu gα (t) = T fα (t) suy ra gα (t + t1 ) = T fα (t + t1 ) cho mọi fα (t) và mọi t1 . Ta dễ dàng chứng minh được rằng (xem phụ lục 5) nếu T là không đổi và tập hợp pbxs đầu vào là tĩnh, khi đó tập hợp pbxs đầu ra sẽ là tĩnh. Gần tương tự, nếu đầu vào là ergodic thì đầu ra cũng là ergodic. Một bộ lọc hay một máy chỉnh lưu là không đổi dưới mọi tịnh tiến theo thời gian. Một phép toàn điều chế thì không có tính chất đó vì pha sóng mang có một cấu trúc thời gian nhất định. Tuy nhiên, điều chế là không đổi dưới một tịnh tiến là bội số của chu kỳ của sóng mang. Wiener đã chỉ ra mối quan hệ mật thiết giữa sự bất biến của những thiết bị vật lý dưới một dịch chuyển thời gian và lý thuyết Fourier.4 Thực tế, ông ta đã chứng minh rằng nếu một thiết bị là tuyến tính và bất biến, phân tích Fourier khi đó là công cụ toán học thích hợp để giải quyết vấn đề. Tập hợp có pbxs của các hàm là một sự biểu diễn toán học thích hợp của các bản tin được tạo ra bởi một nguồn liên tục (ví dụ tiếng nói), của các tín hiệu từ các máy phát hoặc của nhiễu xáo trộn. Lý thuyết truyền thông thì liên quan thích đáng, như khẳng định của Wiener, không phải với các phép toán trên các hàm số đặc biệt, mà là với các phép toán trên các tập hợp pbxs của các hàm. Một hệ thống truyền thông được thiết kế không phải cho một hàm tiếng nói riêng biệt và càng không phải cho một sóng hình sin, mà cho một tập hợp pbxs của các hàm tiếng nói. 19. TẬP HỢP PBXS CỦA CÁC HÀM CÓ DẢI BĂNG HỮU HẠN Nếu một hàm thời gian f (t) được giới hạn trong băng từ 0 đến W vòng trên giây, nó được xác định hoàn toàn 1 bởi các tọa độ của nó trên một chuỗi các điểm rời rạc cách nhau 2W giây ngoại trừ theo cách thức chỉ ra bởi 3 Đây chính là định lí ergodic nổi tiếng hay đúng hơn là 1 phần của định lí này mà đã được chứng minh một chút thông qua các biến đổi toán học khác nhau bởi Birkoff, von Neumann, và Koopman, và sau đó tiếp tục được tổng quát hóa bởi Wiener, Hopf, Hurewicz và các tác giả khác. Tài liệu về lý thuyết ergodic khá là rộng và người đọc có thể tham khảo các bài báo của những tác giả này để biết thêm chi tiết về các biến đổi chung, ví dụ E. Hopf, “Ergodentheorie,” Ergebnisse der Mathematik und ihrer Grenzgebiete, v. 5; “On Causality Statistics and Probability,” Journal of Mathematics and Physics, v. XIII, No. 1, 1934; N. Wiener, “The Ergodic Theorem,” Duke Mathematical Journal, v. 5, 1939. 4 Rất nhiều các lý thuyết và triết học cơ sở của lý thuyết truyền thông xuất phát từ các công trình của Wiener. Bản báo cáo NDRC của ông mang tên, The Interpolation, Extrapolation and Smoothing of Stationary Time Series (Wiley, 1949), chứa đựng những phát biểu có hệ thống rõ ràng đầu tiên về nguyên lý truyền thông như một bài toán thống kê, nghiên cứu các phép toán trên chuỗi thời gian. Công trình này, mặc dù chủ yếu liên quan đến ước đoán tuyến tính và bài toán lọc, là một tài liệu tham khảo thêm quan trọng có sự kết nối với bài báo này. Chúng ta cũng có thể nhắc đến ở đây bài đăng mang tên Cybernetics (Wiley, 1948) của Wiener, giải quyết bài toán tổng quát về vấn đề truyền thông và điều khiển. 35 Dịch và biên soạn bởi VNTelecom kết quả dưới đây. 5 Định lí 13: Cho f (t) không chứa tần số nào trên W . Khi đó ∞ f (t) = ∑ Xn −∞ sin π(2Wt − n) π(2Wt − n) trong đó Xn = f n . 2W Trong phần mở rộng này, f (t) thể hiện như một tổng của các hàm trực giao. Các hệ số Xn trong các biểu thức khác nhau có thể được xem như tọa độ trong "không gian hàm" hữu hạn chiều. Trong không gian này, mỗi hàm tương ứng chính xác tới một điểm và mỗi điểm tương ứng với một hàm. Một hàm số có thể xem như là thực sự giới hạn trên một khoảng thời gian T nếu tất cả các tọa độ Xn nằm ngoài khoảng thời gian đó bằng không. Trong trường hợp này, tất cả ngoài trừ 2TW tọa độ sẽ bằng không. Do vậy, các hàm số giới hạn bởi băng W và khoảng thời gian T tương ứng với các điểm trên một không gian 2TW chiều. Một tập con của các hàm có băng W và thời gian T tương ứng với một vùng trên không gian này. Ví dụ, các hàm mà tổng năng √ lượng của chúng nhỏ hơn hoặc bằng E tương ứng với các điểm trong hình cầu 2TW chiều với bán kính r = 2W E. Một tập hợp pbxs của các hàm giới hạn thời gian và dải băng sẽ được biểu diễn bởi một phân bố xác suất p(x1 , . . . , xn ) trong một không gian tương ứng n chiều. Nếu tập hợp pbxs không bị giới hạn về thời gian, chúng ta có thể xem 2TW tọa độ trong khoảng thời gian T đặc trưng thực sự cho một phần của hàm trong đoạn T và phân bố xác suất p(x1 , . . . , xn ) cho một cấu trúc thống kê của tập hợp pbxs trên các đoạn trong khoảng thời gian này. 20. ENTROPY CỦA PHÂN BỐ LIÊN TỤC Entropy của tập xác suất rời rạc p1 , . . . , pn đã được định nghĩa như sau: H = − ∑ pi log pi . Một cách tương tự, chúng ta định nghĩa entropy của một phân bố liên tục với hàm mật độ phân phối p(x) bởi: ∞ H =− p(x) log p(x) dx. −∞ Với một phân bố n chiều p(x1 , . . . , xn ) ta có H =− ... p(x1 , . . . , xn ) log p(x1 , . . . , xn ) dx1 · · · dxn . Nếu ta có hai argumen x và y (chúng có thể đa chiều), entropy chung có điều kiện của p(x, y) được cho bởi H(x, y) = − p(x, y) log p(x, y) dx dy và Hx (y) = − Hy (x) = − p(x, y) dx dy p(x) p(x, y) dx dy p(x, y) log p(y) p(x, y) log 5 Về chứng minh của định lí này và thảo luận thêm, hãy xem bài báo của tác giả mang tên “Communication in the Presence of Noise” đăng tải trong Proceedings of the Institute of Radio Engineers, v. 37, No. 1, Jan., 1949, pp. 10–21. 36 Dịch và biên soạn bởi VNTelecom trong đó p(x) = p(x, y) dy p(y) = p(x, y) dx. Entropy của phân bố liên tục có hầu hết (nhưng không phải là tất cả) các tính chất của trường hợp rời rạc. Cụ thể, ta có các tính chất sau: 1. Nếu x bị giới hạn trong một thể tích nhất định v trong không gian của nó, khi đó H(x) là một giá trị cực đại và bằng với log v khi p(x) là hằng số (1/v) trong khối thể tích đó. 2. Với bất kỳ hai biến x, y ta có H(x, y) ≤ H(x) + H(y) dấu bằng xảy ra khi (và chỉ khi) x và y độc lập, nghĩa là p(x, y) = p(x)p(y) (ngoại trừ một tập các điểm có xác suất bằng không). 3. Xét một phép tính trung bình tổng quát hóa có dạng như sau: p (y) = a(x, y)p(x) dx với a(x, y) dx = a(x, y) dy = 1, a(x, y) ≥ 0. Khi đó entropy của phân bố trung bình p (y) bằng hoặc lớn hơn entropy của phân bố gốc p(x). 4. Ta có H(x, y) = H(x) + Hx (y) = H(y) + Hy (x) và Hx (y) ≤ H(y). 5. Cho p(x) là một phân bố một chiều. Hàm p(x) mà cho một entropy cực đại dưới điều kiện độ lệch chuẩn của x cố định tại σ sẽ có dạng Gauss. Để chứng minh điều này, ta phải lấy cực đại biểu thức sau H(x) = − p(x) log p(x) dx với ràng buộc σ2 = p(x)x2 dx and 1 = p(x) dx Điều này đòi hỏi, bằng nhiều phép tính biến thiên, cực đại biểu thức −p(x) log p(x) + λp(x)x2 + µp(x) dx. Điều kiện cho nó là −1 − log p(x) + λx2 + µ = 0 và do vậy (bằng việc điều chỉnh các hằng số để thỏa mãn các điều kiện ràng buộc) p(x) = √ 2 2 1 e−(x /2σ ) . 2πσ 37 Dịch và biên soạn bởi VNTelecom Tương tự trong n chiều, giả sử mômen bậc hai của p(x1 , . . . , xn ) là cố định tại Ai j : Ai j = ... xi x j p(x1 , . . . , xn ) dx1 · · · dxn . Khi đó cực đại entropy xảy ra (bằng cách tính tương tự) khi p(x1 , . . . , xn ) là phân bố Gauss n chiều với mômen bậc hai Ai j . 6. Entropy của một phân bố Gauss một chiều với độ lệch chuẩn bằng σ được cho bởi √ H(x) = log 2πeσ. Giá trị này được tính như sau: 2 2 1 e−(x /2σ ) 2πσ √ x2 − log p(x) = log 2πσ + 2 2σ p(x) = √ H(x) = − = p(x) log p(x) dx √ p(x) log 2πσ dx + p(x) x2 dx 2σ 2 √ σ2 = log 2πσ + 2 2σ √ √ = log 2πσ + log e √ = log 2πeσ. Tương tự phân bố Gauss n chiều có dạng toàn phương liên kết ai j được cho bởi: 1 |ai j | 2 p(x1 , . . . , xn ) = exp − 12 ∑ ai j xi x j (2π)n/2 và entropy có thể được tính bằng 1 H = log(2πe)n/2 |ai j |− 2 trong đó |ai j | là định thức có các phần tử là ai j . 7. Nếu x bị giới hạn trên một nửa đường thẳng (p(x) = 0 khi x ≤ 0) và mômen bậc một của x cố định là a: ∞ a= p(x)x dx, 0 khi đó entropy cực đại xảy ra khi 1 p(x) = e−(x/a) a và bằng với log ea. 8. Có một sự khác nhau quan trọng giữa entropy liên tục và rời rạc. Trong trường hợp rời rạc, entropy đo theo cách tuyệt đối tính ngẫu nhiên của biến cơ hội. Trong trường hợp liên tục, sự đo lường mang tính tương đối so với các hệ tọa độ. Nếu ta thay đổi các tọa độ, entropy nhìn chung sẽ thay đổi. Thực tế, nếu ta thay đổi tọa độ y1 · · · yn , entropy mới được xác định bởi H(y) = ... p(x1 , . . . , xn )J x x log p(x1 , . . . , xn )J dy1 · · · dyn y y 38 Dịch và biên soạn bởi VNTelecom trong đó J x y là Jacobian của biến đổi tọa độ. Bằng cách khai triển logarit và đổi biến x1 · · · xn , ta có: H(y) = H(x) − ... p(x1 , . . . , xn ) log J x dx1 . . . dxn . y Do vậy entropy mới chính là entropy cũ trừ đi logarit kỳ vọng của Jacobian. Trong trường hợp liên tục, entropy có thể được xem như là một độ đo của sự ngẫu nhiên tương đối với một chuẩn giả định, chính là một hệ tọa độ được chọn với mỗi phần tử khối nhỏ cho trước dx1 · · · dxn có trọng lượng bằng nhau. Khi ta thay đổi hệ tọa độ, entropy trong hệ mới sẽ đo độ ngẫu nhiên khi các phần tử khối bằng nhau dy1 · · · dyn trong hệ mới có cùng trọng lượng. Bất chấp sự phụ thuộc vào hệ tọa độ, khái niệm entropy là quan trọng như nhau trong cả in trường hợp liên tục lẫn rời rạc. Điều này giải thích bởi việc các khái niệm về tốc độ thông tin và dung lượng kênh phụ thuộc vào sự khác nhau giữa hai entropy và sự khác nhau này không phụ thuộc vào khung tọa độ (vì mỗi entropy sẽ cùng bị thay đổi một lượng như nhau khi cùng bị chuyển đổi hệ tọa độ - ND). Entropy của một phân bố liên tục có thể âm. Thang độ đo thiết lập một điểm không bất kỳ tương ứng với một phân bố đều trên một đơn vị thể tích. Một phân bố mà bị giam hãm chặt chẽ hơn (ít hỗn độn hơn -ND) so với phân bố này sẽ có ít entropy hơn và sẽ mang dấu âm. Tuy nhiên, tốc độ và dung lượng sẽ luôn luôn không âm. 9. Một trường hợp đặc biệt của thay đổi tọa độ là một biến đổi tuyến tính y j = ∑ ai j xi . i Trong trường hợp này, Jacobian chỉ đơn giản là định thức |ai j |−1 và H(y) = H(x) + log |ai j |. Trong trường hợp hệ tọa độ quay ( hoặc bất kỳ một độ đo duy trì phép biến đổi) J = 1 và H(y) = H(x). 21. ENTROPY CỦA TẬP HỢP PBXS CÁC HÀM Xét một tập hợp pbxs ergodic của các hàm giới hạn ở mức băng thông nhất định W vòng trên giây. Cho p(x1 , . . . , xn ) là hàm phân bố mật độ cho các biên độ x1 , . . . , xn tại n điểm mẫu liên tiếp. Ta định nghĩa entropy của tập hợp pbxs cho mỗi bậc tự do bởi: H = − Lim n→∞ 1 n ... p(x1 , . . . , xn ) log p(x1 , . . . , xn ) dx1 . . . dxn . Ta cũng có thể định nghĩa một entropy H cho mỗi giây bằng cách chia, không phải cho n, mà là chia bởi thời gian T theo giây cho n mẫu. Bởi vì n = 2TW , nên H = 2W H . Với nhiễu nhiệt trắng p là Gauss và ta có √ H = log 2πeN, H = W log 2πeN. Cho một công suất trung bình N cho trước, nhiễu trắng có entropy khả dĩ tối đa. Điều này tuân theo các tính chất lấy cực đại của phân bố Gauss được chú thích ở bên trên. Entropy cho một quá trình ngẫu nhiên liên tục có nhiều tính chất tương tự như quá trình rời rạc. Trong trường hợp rời rạc entropy đã được liên hệ với hàm logarit xác suất của các chuỗi dài, và với số các chuỗi dài có xác suất cao vừa phải. Trong trường hợp liên tục, nó liên hệ một cách tương tự với hàm logarit của mật độ xác suất cho dãy dài các mẫu, và khối (volume) các xác suất cao vừa phải trong không gian hàm. 39 Dịch và biên soạn bởi VNTelecom Chính xác hơn nữa, nếu chúng ta giả thiết p(x1 , . . . , xn ) liên tục trong tất cả xi cho tất cả n, khi đó với n đủ lớn log p −H < n cho tất cả các lựa chọn của (x1 , . . . , xn ) ngoại trừ từ một tập mà tổng xác suất của nó nhỏ hơn δ, với δ và nhỏ tùy ý. Điều này tuân theo tính chất ergodic nếu chúng ta chia không gian thành một số lượng lớn các ô nhỏ. Mối liên hệ của H tới thể tích có thể được phát biểu như sau: Dưới cùng một giả thiết, xét không gian n chiều tương ứng với p(x1 , . . . , xn ). Cho Vn (q) là thể tích nhỏ nhất trong không gian này bao gồm bên trong nó một xác suất tổng cộng q. Khi đó logVn (q) =H Lim n→∞ n với điều kiên q khác 0 hoặc 1. Những kết quả này chỉ ra rằng với n lớn có một mức xác suất cao được xác định khá rõ (ít nhất là theo nghĩa logarit), và rằng trong mức này mật độ xác suất tương đối đồng đều (lại một lần nữa theo nghĩa logarit). Trong trường hợp nhiễu trắng, hàm phân bố được cho bởi p(x1 , . . . , xn ) = 1 1 exp − x2 . n/2 2N ∑ i (2πN) Do nó chỉ phụ thuộc vào ∑ xi2 bề mặt của mật độ xác √ suất bằng nhau là hình cầu và toàn bộ phân bố có đối xứng cầu. Miền xác suất cao là hình cầu bán kính nN. Khi n → ∞, xác suất của phần ngoài √ hình cầu bán kính n(N + ) tiến gần đến không và 1n lần logarit của thể tích của hình cầu tiến gần đến log 2πeN. Trong trường hợp liên tục, không tiện lợi để làm việc với entropy H của một tập hợp pbxs nhưng mà sẽ tiện lợi với một đại lượng được suy ra từ nó mà ta sẽ gọi là công suất entropy. Điều này được định nghĩa như là công suất trong nhiễu trắng giới hạn đối với cùng một băng tần như là tập hợp pbxs gốc và có cùng entropy. Nói cách khác, nếu H là entropy của một tập hợp pbxs, công suất entropy của nó là: N1 = 1 exp 2H . 2πe Trong bức tranh hình học, đại lượng này đo thể tích (mức) xác suất cao bằng bán kính bình phương của một hình cầu có cùng thể tích. Do nhiễu trắng có entropy cực đại cho một công suất cho trước, công suất entropy của bất kỳ nhiễu nào ít hơn hoặc bằng công suất thực sự của nó. 22. TỔN THẤT ENTROPY TRONG CÁC BỘ LỌC TUYẾN TÍNH Định lí 14: Nếu một tập hợp pbxs có một entropy H1 cho mỗi bậc tự do trong băng W được cho qua một bộ lọc với đặc tính Y ( f ), tập hợp pbxs đầu ra có entropy H2 = H1 + 1 W W log |Y ( f )|2 d f . Hoạt động của bộ lọc về bản chất là biến đổi tuyến tính của hệ tọa độ. Nếu chúng ta coi các thành phần tần số như hệ tọa độ gốc, các thành phần tần số mới chỉ đơn thuần là thành phần cũ được nhân với các hệ số. Do vậy ma trận biến đổi tọa độ về bản chất được chéo hóa trong số hạng của các tọa độ này. Biến đổi Jacobi là (cho các thành phần n sin và n cos) n J = ∏ |Y ( fi )|2 i=1 trong đó fi là các khoảng bằng nhau dọc theo băng W . Trong giới hạn, biểu thức này trở thành exp 1 W W log |Y ( f )|2 d f . 40 Dịch và biên soạn bởi VNTelecom Bảng I HỆ SỐ ĐỘ LỢI CÔNG SUẤT CÔNG SUẤT ENTROPY ENTROPY (DECIBELS) ĐỘ LỢI ĐÁP ỨNG XUNG 1 1−ω 1 e2 0 ω sin2 (t/2) t 2 /2 −8.69 1 1 1 − ω2 2 e 0 ω 4 −5.33 2 sint cost − 2 t3 t 1 1 1 − ω3 0 ω 6 cost − 1 cost sint − 2 + 3 t4 2t t 0.411 −3.87 2 e −2.67 π J1 (t) 2 t −8.69α 1 cos(1 − α)t − cost αt 2 1 1 √ 1 − ω2 0 ω 2 1 1 1 e2α α 0 ω 1 Do J không đổi, giá trị trung bình của nó cùng đại lượng và ứng dụng định lí về sự thay đổi entropy với một thay đổi hệ tọa độ, ta thu được kết quả trên. Ta cũng có thể viết lại nó dưới dạng công suất entropy. Do vậy nếu công suất entropy của tập hợp pbxs đầu tiên là N1 , entropy của tập thứ hai là N1 exp 1 W W log |Y ( f )|2 d f . Công suất entropy cuối cùng là công suất entropy khởi tạo được nhân với độ lợi trung bình nhân của bộ lọc. Nếu độ lợi được đo theo dB, khi đó công suất entropy đầu ra sẽ được tăng bởi độ lợi dB trung bình cộng trên W. Trong bảng I, tổn thất công suất entropy đã được tính toán (và cũng được biểu diễn theo db ) cho một số đặc tính độ lợi lý tưởng. Đáp ứng xung kim của các bộ lọc này cũng được đưa ra cho W = 2π, với pha giả thiết bằng 0. Tổn thất entropy cho nhiều trường hợp khác có thể tính được từ các kết quả này. Ví dụ hệ số công suất entropy 1/e2 cho trường hợp đầu tiên cũng được áp dụng vào bất kỳ các đặc tính độ lợi nào đạt 1 − ω bằng một biến đổi lưu trữ số đo của trục ω. Đặc biệt độ lợi tăng tuyến tính G(ω) = ω hoặc một đặc tính “răng 41 Dịch và biên soạn bởi VNTelecom cưa” giữa 0 và 1 có cùng tổn thất entropy. Độ lợi nghịch đảo có hệ số nghịch đảo. Do vậy, 1/ω có hệ số e2 . Việc tăng độ lợi của bất kỳ công suất nào làm tăng hệ số của công suất đó. 23. ENTROPY CỦA TỔNG HAI TẬP HỢP PBXS Nếu ta có hai tập hợp pbxs hàm fα (t) và gβ (t), ta có thể tạo ra một tập hợp pbxs mới bằng “phép cộng”. Giả sử tập hợp pbxs đầu tiên có hàm mật độ xác suất p(x1 , . . . , xn ) và tập hợp thứ hai có hàm mật độ xác suất q(x1 , . . . , xn ). Khi đó, hàm mật độ của tổng hai tập hợp được đưa ra bởi tích chập: r(x1 , . . . , xn ) = ... p(y1 , . . . , yn )q(x1 − y1 , . . . , xn − yn ) dy1 · · · dyn . Cụ thể là nó tương ứng với phép cộng các nhiễu hay các tín hiệu đại diện bởi các tập hợp pbxs gốc của các hàm. Kết quả dưới đây được dẫn ra từ phụ lục 6. Định lí 15: Cho công suất trung bình của hai tập hợp pbxs là N1 và N2 và cho các công suất entropy của chúng lần lượt là N 1 và N 2 . Khi đó, công suất entropy của tổng hai tập hợp, N 3 , được giới hạn bởi N 1 + N 2 ≤ N 3 ≤ N1 + N2 . Nhiễu Gauss trắng có tính chất riêng là nó có thể hấp thụ bất kỳ các tập hợp pbxs tín hiệu hay nhiễu khác mà có thể được đưa vào nó với một công suất entropy tổng hợp xấp xỉ bằng tổng của công suất nhiễu trắng và công suất tín hiệu (được đo từ giá trị tín hiệu trung bình, thường là zero), với điều kiện công suất tín hiệu nhỏ, theo một nghĩa nào đó, so sánh với nhiễu. Xem xét không gian hàm được liên kết với các tập hợp pbxs có n chiều. Nhiễu trắng tương ứng với phân bố Gauss cầu trong không gian này. Tập hợp pbxs tín hiệu tương ứng với phân bố xác suất khác, không cần thiết phải là Gauss hay cầu. Đặt mômen bậc hai của phân bố này về trọng tâm của nó là ai j . Điều này có nghĩa là, nếu p(x1 , . . . , xn ) là hàm phân bố mật độ, ai j = ... p(xi − αi )(x j − α j ) dx1 · · · dxn trong đó αi là hệ tọa độ của trọng tâm. Bây giờ ai j là dạng bậc hai xác định dương, và chúng ta có thể xoay hệ tọa độ của chúng ta thẳng hàng nó với các hướng chính của dạng này. Khi đó ai j được qui giảm về dạng chéo bii . Chúng ta đòi hỏi mỗi bii phải nhỏ so với N, bán kính bình phương của phân bố hình cầu. Trong trường hợp này tích chập của nhiễu và tín hiệu bằng xấp xỉ với phân bố Gauss mà dạng bậc hai tương ứng của nó là N + bii . Công suất entropy của phân bố này là ∏(N + bii ) 1/n hoặc xấp xỉ bằng = (N)n + ∑ bii (N)n−1 1/n 1 . = N + ∑ bii . n Số hạng cuối cùng là công suất tín hiệu trong khi số hạng đầu tiên là công suất nhiễu PHẦN IV: KÊNH TRUYỀN LIÊN TỤC 24. DUNG LƯỢNG KÊNH TRUYỀN LIÊN TỤC Trên kênh truyền liên tục, tín hiệu đầu vào hay tín hiệu truyền sẽ là một hàm liên tục theo thời gian f (t) phụ thuộc vào một tập nào đó, và tín hiệu đầu ra hay tín hiệu thu được sẽ là phiên bản bị làm nhiễu. Chúng ta chỉ 42 Dịch và biên soạn bởi VNTelecom xét trường hợp tín hiệu truyền và nhận được giới hạn trên một băng thông W nào đó. Khi đó, chúng có thể xác định, trong khoảng thời điểm T , bởi số 2TW , và cấu trúc thống kê của nó thông qua các hàm phân bố hữu hạn chiều. Như vậy, đặc tính thống kê của tín hiệu truyền sẽ được xác định bởi P(x1 , . . . , xn ) = P(x) và đặc tính thống kê của nhiễu được xác định bởi phân bố thống kê có điều kiện Px1 ,...,xn (y1 , . . . , yn ) = Px (y). Tốc độ truyền thông tin cho một kênh truyền liên tục được định nghĩa theo cách tương tự như kênh truyền rời rạc như sau R = H(x) − Hy (x) với H(x) là entropy của dữ liệu đầu vào và Hy (x) là độ mập mờ (equivocation). Dung lượng kênh truyền C được định nghĩa là giá trị cực đại của R khi đầu vào biến thiên trên các tập pbxs khả dĩ. Có nghĩa rằng trong phép xấp xỉ hữu hạn chiều, chúng ta phải cho biến thiên hàm P(x) = P(x1 , . . . , xn ) và lấy cực đại − P(x) log P(x) dx + P(x, y) log P(x, y) dx dy. P(y) Biểu thức này được rút gọn thành P(x, y) log nhờ vào tính chất P(x, y) log P(x) dx dy = diễn như sau: C = Lim Max T →∞ P(x) P(x, y) dx dy P(x)P(y) P(x) log P(x) dx. Do vậy, dung lượng kênh truyền có thể biểu 1 T P(x, y) log P(x, y) dx dy. P(x)P(y) P(x, y) được P(x)P(y) nhân cùng hệ số trong công thức biến đổi qua lại giữa x và y. Biểu thức tích phân cho C như trên tổng quát hơn công thức H(x) − Hy (x). Khi tính toán và khai triển kỹ hơn (xem phụ lục 7), ta thấy công thức tích phân trên luôn tồn tại còn H(x) − Hy (x) có thể không xác định tại một số vị trí từ ∞ − ∞. Ví dụ khi x bị giới hạn trên mặt phẳng có số bậc thấp hơn n trong xấp xỉ n chiều. Nếu cơ số của hàm logarit dùng để tính H(x) và Hy (x) là 2 thì C sẽ là số lượng số nhị phân tối đa có thể truyền trong một giây qua kênh truyền với độ mập mờ bất kỳ nhỏ, như trường hợp kênh truyền rời rạc. Điều này có thể nhìn thấy cụ thể bằng việc chia không gian tín hiệu thành một số lượng lớn các ô nhỏ, đủ nhỏ để hàm mật độ xác suất Px (y) của tín hiệu x bị biến đổi thành y thực chất là hằng số trong một ô (của hoặc x hoặc y). Nếu các ô được xem như các điểm riêng biệt, thì kênh truyền trở thành mô hình không liên tục và luận cứ trên có thể áp dụng được. Nhưng, rõ ràng là phép lượng tử hóa một khối thành các điểm riêng biệt trong mọi tình huống thực tiễn không thể làm thay đổi trầm trọng giải đáp cuối cùng, với điều kiện các vùng được chia đủ nhỏ. Do đó dung lượng sẽ là giới hạn của các dung lượng trên các phần nhỏ rời rạc và đây chính là dung lượng liên tục được định nghĩa bởi công thức ở trên. Về mặt toán học, đầu tiên có thể chỉ ra rằng (xem phụ lục 7) nếu u là bản tin, x là tín hiệu, y là tín hiệu thu được (bị nhiễu) và v là bản tin được khôi phục thì Công thức trên chỉ ra rõ rằng R và C độc lập với hệ tọa độ bởi vì tử số và mẫu số của log H(x) − Hy (x) ≥ H(u) − Hv (u) bất kể phép biến đổi nào được sử dụng trên u để đạt được x hay trên y để đạt được v. Do đó, bất chấp cách thức mã hóa số nhị phân thành tín hiệu hay cách thức giải mã tín hiệu thu được và tái tạo lại bản tin, tốc độ rời rạc cho các số nhị phân không thể vượt quá dung lượng kênh truyền như chúng ta định nghĩa. Mặt khác, trong một số trường hợp tổng quát có thể tìm được hệ thống mã hóa để truyền số nhị phân với tốc độ C với độ mập mờ nhỏ và tần số lỗi như mong muốn. Điều đó là đúng, ví dụ như nếu khi chúng ta tạo một không 43 Dịch và biên soạn bởi VNTelecom gian xấp xỉ hữu hạn chiều cho các hàm tín hiệu, P(x, y) là liên tục với cả x và y trừ tập những điểm có xác suất bằng không. Một trường hợp đặc biệt quan trọng xuất hiện khi nhiễu cộng vào tín hiệu và độc lập với tín hiệu (theo nghĩa xác suất). Khi đó Px (y) sẽ chỉ là hàm số của hiệu n = (y − x), Px (y) = Q(y − x) và chúng ta có thể gán một entropy xác định cho nhiễu (độc lập với thống kê của tín hiệu), gọi là entropy của phân bố Q(n). Entropy này sẽ được ký hiệu bởi H(n). Định lí 16: Nếu tín hiệu và nhiễu độc lập với nhau và tín hiệu thu là tổng của tín hiệu truyền đi và nhiễu thì tốc độ truyền đi là R = H(y) − H(n), nghĩa là entropy của tín hiệu trừ đi entropy của nhiễu. Dung lượng kênh truyền sẽ là C = Max H(y) − H(n). P(x) Do y = x + n, ta có: H(x, y) = H(x, n). Khai triển vế trái và sử dụng tính chất x và n là độc lập H(y) + Hy (x) = H(x) + H(n). Từ đó R = H(x) − Hy (x) = H(y) − H(n). Do H(n) là độc lập với P(x), cực đại R đòi hỏi phải cực đại H(y), entropy của tín hiệu thu, cũng phải cực đại. Nếu có ràng buộc nhất định trên tập hợp pbxs tín hiệu truyền đi, thì entropy của tín hiệu thu cũng phải là cực đại trong điều kiện ràng buộc đó. 25. DUNG LƯỢNG KÊNH TRUYỀN VỚI GIỚI HẠN CÔNG SUẤT TRUNG BÌNH Một áp dụng đơn giản của Định lí 16 là trường hợp khi nhiễu là nhiễu nhiệt trắng và tín hiệu truyền được giới hạn bởi mức công suất trung bình nhất định P. Khi đó tín hiệu nhận được có công suất trung bình giới hạn P + N với N là công suất nhiễu trung bình. Entropy cực đại của tín hiệu thu xảy ra khi chúng tạo ra được một tập pbxs nhiễu trắng bởi vì đó là entropy khả dĩ lớn nhất cho mức công suất P + N và có thể nhận được bởi một sự lựa chọn thích hợp các tín hiệu truyền đi, tức là nếu chúng tạo ra tập pbxs nhiễu trắng có công suất P. Entropy (trên một giây) của tập hợp pbxs thu khi đó là H(y) = W log 2πe(P + N), và entropy của nhiễu là H(n) = W log 2πeN. Dung lượng kênh truyền là C = H(y) − H(n) = W log P+N . N Tóm tắt lại, chúng ta có các định lí sau: Định lí 17: Dung lượng của kênh truyền bị gây nhiễu bởi nhiễu nhiệt trắng công suất P khi công suất trung bình của tín hiệu truyền đi giới hạn bằng P được xác định bởi C = W log 44 P+N . N Dịch và biên soạn bởi VNTelecom Điều đó có nghĩa rằng bằng một hệ thống mã hóa đủ phức tạp thì chúng ta có thể truyền các số nhị phân P+N với tốc độ W log2 bit trên giây, với một tần số lỗi nhỏ tùy ý. Không thể truyền với tốc độ cao hơn bằng N bất kỳ hệ thống mã hóa nào mà không phải chịu một tần số xuất hiện lỗi xác định dương. Để tiến được đến giới hạn truyền dữ liệu này, tín hiệu truyền đi phải xấp xỉ, theo tính chất thống kê, với tín hiệu nhiễu trắng.6 Hệ thống tiến được đến tốc độ lý tưởng đó có thể được diễn tả như sau: giả sử cho M = 2s mẫu tín hiệu nhiễu trắng với thời gian mỗi tín hiệu là T . Chúng được gán với những số nhị phân từ 0 to M − 1. Tại máy phát, chuỗi bản tin được chia thành nhiều nhóm s và cho mỗi nhóm mẫu nhiễu tương ứng sẽ được truyền đi như là tín hiệu. Tại máy thu, tín hiệu thu được thực sự (bị méo dạng bởi nhiễu) sẽ được so sánh M mẫu nhiễu đã được biết trước. Mẫu nào có giá trị giá trị hiệu dụng (rms - root mean square) bé nhất so với tín hiệu thu sẽ được chọn là tín hiệu phát và các số nhị phân tương ứng sẽ được khôi phục. Quá trình này chọn ra tín hiệu có khả năng cao nhất (hậu nghiệm). Số lượng M của mẫu nhiễu sử dụng sẽ phụ thuộc vào ngưỡng tần xuất lỗi cho phép , tuy vậy với hầu hết mọi lựa chọn mẫu chúng ta có: Lim Lim →0 T →∞ log M( , T ) P+N = W log , T N do vậy bất kể giá trị được chọn nhỏ như thế, chúng ta có thể, bằng cách chọn T đủ lớn, truyền đi như mong P+N muốn TW log số nhị phân trong khoảng thời gian T . N P+N Những công thức tương tự như C = W log cho trường hợp nhiễu trắng đã được phát triển độc lập N bởi vài tác giả khác, mặc dù cách diễn giải có khác nhau chút ít. Chúng ta có thể nhắc đến công trình có liên quan của N. Wiener,7 W. G. Tuller,8 và của H. Sullivan liên quan đến vấn đề này. Trong trường hợp nhiễu loạn bất kỳ (không nhất thiết là nhiễu nhiệt trắng) có vẻ việc xác định dung lượng kênh truyền thông qua bài toán cực đại hóa khó có thể được giải quyết rõ ràng. Tuy nhiên, các chặn trên và dưới có thể giúp xác định C theo thông số công suất nhiễu trung bình N và công suất entropy nhiễu N1 . Các chặn này đủ gần trong mọi trườg hợp thực tiễn để có thể cung cấp một đáp án thỏa mãn cho vấn đề này. Định lí 18: Dung lượng của kênh truyền băng thông W bị xáo trộn bởi một nhiễu bất kỳ bị chặn bởi những bất đẳng thức sau P + N1 P+N W log ≤ C ≤ W log N1 N1 trong đó P = công suất phát trung bình N = công suất nhiễu trung bình N1 = công suất entropy của nhiễu Và một lần nữa, công suất trung bình của tín nhiệu bị xáo trộn sẽ là P + N. Entropy cực đại cho công suất này sẽ xảy ra nếu tín hiệu thu là nhiễu trắng và sẽ có giá trị là W log 2πe(P + N). Có thể không thể đạt được điều này, tức có thể không có bất kỳ tập pbxs của tín hiệu truyền nào, bị cộng thêm nhiễu vào, mà tạo ra được tín hiệu nhiễu nhiệt trắng tại máy thu, nhưng ít nhất nó cũng cho ta chặn trên của H(y). Do vậy ta có, C = Max H(y) − H(n) ≤ W log 2πe(P + N) −W log 2πeN1 . 6 Điều này và những tính chất khác của nhiễu trắng được thảo luận dưới quan điểm hình học trong ”Communication in the Presence of Noise,” loc. cit. 7 Cybernetics, loc. cit. 8 ”Theoretical Limitations on the Rate of Transmission of Information,” Proceedings of the Institute of Radio Engineers, v. 37, No. 5, May, 1949, pp. 468–78. 45 Dịch và biên soạn bởi VNTelecom Giới hạn trên được cho từ định lí ở trên. Giới hạn dưới có thể xác định được bằng cách xem xét tốc độ khi chúng ta tạo tín hiệu truyền là nhiễu trắng với công suất P. Trong trường hợp này, công suất entropy của tín hiệu nhận tối thiểu phải bằng công suất của nhiễu trắng P + N1 vì chúng ta đã trình bày ở định lí trước rằng công suất entropy của tổng hai tập hợp pbxs thì luôn lớn hơn hoặc bằng tổng của công suất entropy từng tập hợp riêng lẻ. Do vậy Max H(y) ≥ W log 2πe(P + N1 ) và C ≥ W log 2πe(P + N1 ) −W log 2πeN1 P + N1 . = W log N1 Khi P tăng, chặn trên và dưới tiến lại gần nhau, do vậy chúng ta có tốc độ tiệm cận W log P+N . N1 Nếu bản thân nhiễu là nhiễu trắng, N = N1 thì kết quả thu gọn thành công thức đã được chứng minh trong phần trước: P C = W log 1 + . N Nếu nhiễu là Gauss nhưng với phổ không nhất thiết phẳng, N1 là trung bình nhân của công suất nhiễu trên nhiều tần số khác nhau của băng thông W . Thì N1 = exp 1 W W log N( f ) d f với N( f ) là công suất nhiễu tại tần số f . Định lí 19: Nếu chúng ta đặt dung lượng, với công suất truyền P cho trước, bằng C = W log P+N −η N1 thì η đơn điệu giảm khi P tăng và sẽ tiến đến giới hạn bằng 0. Giả sử rằng với một công suất P1 cho trước, dung lượng kênh truyền là W log P1 + N − η1 . N1 Điều đó có nghĩa rằng phân bố tín hiệu tốt nhất, gọi là p(x), khi cộng với phân bố nhiễu q(x), sẽ cho ra phân bố thu được r(y) với công suất entropy là (P1 + N − η1 ). Hãy tăng công suất đến P1 + ∆P bằng cách cộng thêm công suất của nhiễu trắng ∆P vào tín hiệu. Lúc này, entropy của tín hiệu thu ít nhất bằng H(y) = W log 2πe(P1 + N − η1 + ∆P) nhờ sử dụng định lí công suất entropy nhỏ nhất của một tổng. Từ đó, vì chúng ta có thể đạt được H như trên, entropy của việc làm cực đại phân bố ít nhất phải lớn và η phải giảm đơn điệu. Để chỉ ra rằng η → 0 khi P → ∞, hay xét một tín hiệu là nhiễu trắng với P lớn. Với bất kỳ nhiễu loạn nào, tín hiệu thu cũng sẽ xấp xỉ nhiễu trắng, nếu P đủ lớn, theo nghĩa công suất entropy tiến đến P + N. 46 Dịch và biên soạn bởi VNTelecom 26. DUNG LƯỢNG KÊNH TRUYỀN VỚI GIỚI HẠN CÔNG SUẤT ĐỈNH Trong một số ứng dụng, máy phát bị giới hạn không phải bởi công suất trung bình đầu ra mà bởi công suất đỉnh tức thời. Vấn đề tính toán dung lượng kênh truyền khi đó trở thành việc cực đại hóa (bằng cách biến thiên tập hợp pbxs của các ký hiệu truyền) H(y) − H(n) √ với giả thiết ràng buộc rằng tất cả các hàm f (t) trong tập hợp pbxs sẽ bé hơn hoặc bằng S, với mọi t. Ràng buộc dạng này không thể diễn giải tốt về toán học như giới hạn công suất trung bình. Tất cả những gì ta nhận S S lớn) và một giá trị tiệm được chính là chặn dưới hợp lệ cho mọi , một chặn trên tiệm cận (hợp lệ cho N N S cận C cho nhỏ. N Định lí 20: Dung lượng kênh truyền C cho băng thông W bị gây nhiễu bởi nhiễu nhiệt trắng có công suất N bị chặn bởi 2 S C ≥ W log 3 , πe N S với S là công suất phát đỉnh cho phép. Với giá trị đủ lớn của N 2 C ≤ W log với nhỏ tùy ý. Khi πe S + N N (1 + ) S → 0 (và với điều kiện băng thông W bắt đầu tại 0) N C W log 1 + S N → 1. S Chúng ta muốn cực đại entropy của tín hiệu thu. Nếu là lớn, điều đó sẽ xảy ra rất gần khi ta cực đại N entropy của tập hợp pbxs tín hiệu phát. Chặn trên tiệm cận nhận được bằng cách giãn các điều kiện trên tập hợp pbxs. Chúng ta giả sử rằng công suất bị giới hạn S không phải tại tất cả mọi thời điểm mà chỉ tại điểm lấy mẫu. Entropy cực đại của tập pbxs tín hiệu phát dưới điều kiện yếu như vậy thì nhất thiết lớn hơn hoặc bằng giá trị đó trong các điều kiện ban đầu. Bài toán được biển đổi này có thể được giải dễ dàng. Entropy cực√đại xảy ra nếu những mẫu khác nhau √ là độc lập và có hàm phân bố là hằng số trong khoảng từ − S đến + S. Entropy có thể tính như sau W log 4S. Tín hiệu thu sẽ có entropy nhỏ hơn W log(4S + 2πeN)(1 + ) S với → 0 khi → ∞ và dung lượng kênh truyền đạt được bằng cách trừ đi entropy của nhiễu trắng, N W log 2πeN: 2 S+N W log(4S + 2πeN)(1 + ) −W log(2πeN) = W log πe (1 + ). N Đây là chặn trên mong muốn của dung lượng kênh truyền. Để thu được chặn dưới, xét cùng tập hợp pbxs của các hàm. Hãy cho các hàm này qua một bộ lọc lý tưởng với đặc tính truyền tam giác. Độ lợi là đơn vị tại tần số bằng 0 và giảm dần tuyến tính về độ lợi 0 tại tần số W . Đầu tiên ta chỉ ra rằng hàm đầu ra của bộ lọc có giới hạn công suất đỉnh là S tại mọi thời điểm sin 2πWt đi qua một mạch lọc tạo ra (không chỉ tại điểm lấy mẫu). Trước tiên ta chú ý rằng một xung 2πWt 1 sin2 πWt 2 (πWt)2 47 Dịch và biên soạn bởi VNTelecom tại đầu ra. Hàm này không bao giờ âm. Hàm đầu vào ( trong trường hợp tổng quát) có thể chính là tổng của một dãy các hàm bị dịch chuyển sin 2πWt a 2πWt √ với a là biên độ mẫu không lớn hơn S. Do vậy, đầu ra sẽ là tổng của các hàm bị chuyển dịch có dạng không âm như trên với những hệ số giống nhau. Những hàm này là không âm, giá trị dương cực đại với mọi t nhận √ được khi mọi hệ số a đạt giá trị cực đại dượng của chúng, tức S. Trong trường hợp đó, hàm đầu vào là hằng √ số với biên độ S và bởi vì bộ lọc có độ lợi đơn vị D.C., nên đầu ra là giống tương tự. Do vậy tập hợp pbxs đầu ra có công suất đỉnh S. Entropy của tập hợp pbxs tại đầu ra có thể được tính từ entropy của đầu vào bằng cách sử dụng định lí phù hợp với tình huống này. Entropy tại đầu ra bằng với entropy đầu vào cộng với độ lợi trung bình nhân của bộ lọc: W W W−f 2 log G2 d f = log d f = −2W. W 0 0 Do vậy entropy đầu ra là W log 4S − 2W = W log và dung lượng kênh truyền là lớn hơn W log 4S e2 2 S . πe3 N S nhỏ (tỷ lệ công suất đỉnh tín hiệu trên công suất trong bình nhiễu N trắng) dung lượng kênh truyền được xấp xỉ bởi Bây giờ, ta muốn chỉ ra rằng, với C = W log 1 + Chính xác hơn là C W log 1 + S N → 1 khi bằng công suất đỉnh S, dẫn đến với mọi S N S . N S → 0. Vì công suất tín hiệu trung bình P thì nhỏ hơn hoặc N C ≤ W log 1 + P N ≤ W log 1 + S . N Do đó, nếu chúng ta có thể tìm được một tập pbxs các hàm sao cho chúng tương ứng với tốc độ gần với S W log 1 + và giới hạn trong băng thông W và đỉnh là S, kết quả sẽ được chứng minh. Xét tập hợp pbxs N √ √ của hàm số có dạng sau. Một dãy gồm t mẫu có cùng giá trị, hoặc + S hoặc − S,√và sau đó t mẫu √kế tiếp cũng có cùng giá trị, v.v. Giá trị của dãy là được chọn ngẫu nhiên, xác suất 12 cho + S và 12 cho − S. Nếu tập hợp pbxs này được cho qua bộ lọc với đặc tuyến độ lợi tam giác (độ lợi đơn vị tại D.C.), đầu ra bị giới hạn đỉnh bởi ±S. Hơn nữa, công suất trung bình gần như là S và có thể tiếp cận được điều này bằng cách lấy t đủ lớn. Entropy của tổng này và nhiễu nhiệt có thể tìm thấy bằng cách sử dụng định lí về tổng của nhiễu và tín hiệu nhỏ. Định lí sẽ áp dụng được nếu √ S t N S đủ nhỏ (sau khi t được chọn). Công suất entropy sẽ là đủ nhỏ. Điều này được bảo đảm bởi cách chọn N S + N rất gần với xấp xỉ như mong muốn, và do đó tốc độ truyền cũng gần với ta mong muốn W log S+N . N 48 Dịch và biên soạn bởi VNTelecom PHẦN V: TỐC ĐỘ NGUỒN LIÊN TỤC 27. CÁC HÀM ĐÁNH GIÁ ĐỘ TIN CẬY Trong trường hợp nguồn tin rời rạc chúng ta có thể xác định được rõ ràng tốc độ tạo ra thông tin, chính là entropy của tiến trình ngẫu nhiên của nguồn tin. Với nguồn tin liên tục, vấn đề này phức tạp hơn. Đầu tiên, một đại lương thay đổi liên tục có thể coi như có vô hạn các giá trị và do đó đòi hỏi một số lượng vô hạn bit nhị phân để biểu diễn chính xác. Điều này có nghĩa là để phát đi đầu ra của một nguồn liên tục với khả năng hồi phục chính xác tại đầu thu nhìn chung đòi hỏi phải có một kênh truyền có dung lượng vô hạn (theo bit/giây). Vì thông thường các kênh truyền có một lượng nhiễu nhất định, nên dung lượng kênh chỉ là hữu hạn và do đó yêu cầu truyền dẫn hoàn toàn chính xác là không thể thực hiện được. Tuy nhiên điều này lại trốn tránh một sự thật. Thực tế, chúng ta không mong muốn truyền dẫn hoàn toàn chính xác khi chúng ta có nguồn liên tục, mà chúng ta chỉ mong muốn truyền dẫn với một khả năng chịu đựng lỗi nhất định. Câu hỏi đặt ra là liệu chúng ta có thể gán một tốc độ xác định cho một nguồn liên tục khi chúng ta yêu cầu chỉ một mức độ tin cậy nhất định trong phục hồi, được đo lường theo một cách thích hợp nào đấy. Tất nhiên là nếu tăng yêu cầu về độ tin cậy, tốc độ cũng sẽ tăng lên. Chúng ta sẽ thấy rằng, trong các trường hợp tổng quát, với một tốc độ xác định, bằng cách mã hóa thích hợp thông tin, ta có thể phát thông tin đi trên kênh truyền có dung lượng kênh bằng tốc độ theo yêu cầu và đảm bảo thỏa mãn các yêu cầu về độ tin cậy. Kênh truyền có dung lượng nhỏ hơn thì không đủ. Trước hết ta cần đưa ra phát biểu toán học tổng quát của khái niệm độ tin cậy của truyền dẫn. Xét một tập các bản tin có độ dài là T giây. Nguồn tin được mô tả bởi hàm mật độ xác suất, trong không gian các bản tin đó nguồn sẽ chọn bản tin với xác suất P(x). Một hệ thống truyền thông được mô tả (nhìn từ bên ngoài) bởi xác suất có điều kiện Px (y), là xác suất nếu bản tin x được tạo ra bởi nguồn, thì phía thu sẽ nhận được bản tin y. Tổng thể cả hệ thống (bao gồm cả nguồn và hệ thống truyền) được biểu diễn bởi hàm xác suất P(x, y), là xác suất có bản tin x và bản tin cuối cùng ở đầu ra là y. Nếu biết được hàm này, là biết được toàn bộ đặc tính của hệ thống, nhìn từ quan điểm độ tin cậy. Bất kỳ một đánh giá nào về độ tin cậy phải tương ứng về mặt toán học với một phép toán áp dụng cho P(x, y). Phép toán này phải có ít nhất các đặc điểm về thứ tự của một hệ thống, nghĩa là ta phải có thể phát biểu với hai hệ thống được biểu diễn bởi P1 (x, y) và P2 (x, y) rằng, theo tiêu chí về độ tin cậy, hoặc (1) hệ thống đầu tiên có độ tin cậy cao hơn (2) hệ thống thứ hai có độ tin cậy cao hơn hoặc (3) chúng có độ tin cậy bằng nhau. Điều này có nghĩa là một tiêu chí về độ tin cậy có thể được biểu diễn bởi một hàm có giá trị bằng số v P(x, y) có đối số thay đổi trên tất cả các giá trị hàm xác suất P(x, y) có thể có. Bây giờ chúng ta sẽ thấy rằng với các giả thiết hợp lý và rất tổng quát, hàm v P(x, y) có thể được viết dưới dạng đặc biệt hơn, đó là trung bình của hàm ρ(x, y) trên tập hợp các giá trị khả dĩ của x và y: v P(x, y) = P(x, y)ρ(x, y) dx dy. Để có được kết quả trên ta chỉ cần giả thiết rằng (1) nguồn tin và hệ thống là ergodic để một mẫu rất dài sẽ là điển hình của tập hợp, với xác suất gần bằng 1 và (2) đánh giá là “hợp lý”, theo nghĩa là nó có thể đưa ra một đánh giá sơ bộ trên cơ sở các mẫu này bằng cách quan sát một đầu vào và một đầu ra điển hình x1 và y1 ; Nếu các mẫu này có độ dài tăng lên thì đánh giá sơ bộ đó cũng (với xác suất bằng 1) tiệm cận tới giá trị đánh giá chính xác dựa trên hiểu biết đầy đủ về P(x, y). Cho giá trị đánh giá sơ bộ là ρ(x, y), thì hàm ρ(x, y) sẽ tiệm cận với (khi T → ∞) một hằng số với hầu hết (x, y) trong vùng xác suất cao tương ứng với hệ thống. ρ(x, y) → v P(x, y) và chúng ta cũng có thể viết ρ(x, y) → P(x, y)ρ(x, y) dx dy vì P(x, y) dx dy = 1. 49 Dịch và biên soạn bởi VNTelecom Đây chính là kết quả mong muốn. Hàm ρ(x, y) có đặc trưng tổng quát của “khoảng cách ” giữa x và y.9 Nó đo lường mức độ không mong muốn (theo tiêu chuẩn độ tin cậy của chúng ta) để nhận được y khi phát đi x. Kết quả tổng quát được đưa ra ở trên có thể phát biểu lại như sau: Bất kỳ một đánh giá hợp lý nào cũng có thể được biểu diễn là trung bình của hàm khoảng cách trên tập hợp các bản tin và bản tin hồi phục x và y với trọng số là xác suất P(x, y), miễn là độ dài T của bản tin được lấy đủ lớn. Sau đây là các ví dụ đơn giản về hàm đánh giá: 1. Tiêu chí RMS (giá trị hiệu dụng). 2 v = x(t) − y(t) . Trong phương pháp đo lường độ tin cậy rất hay được dùng này thì hàm khoảng cách ρ(x, y) (ngoại trừ hệ số không đổi) là bình phương của khoảng cách Euclide thông thường giữa các điểm x và y trong không gian của chúng. 1 T 2 ρ(x, y) = x(t) − y(t) dt. T 0 2. Theo tiêu chí giá trị hiệu dụng với trọng số tần số. Tổng quát hơn ta có thể áp dụng các trọng số khác nhau cho các thành phần tần số khác nhau trước khi sử dụng RMS để đo độ tin cậy. Nó tương đương với cho phần sai khác x(t)˘y(t) đi qua một bộ lọc tạo dạng và sau đó xác định công suất trung bình ở đầu ra. Do vậy, cho e(t) = x(t) − y(t) và f (t) = ∞ e(τ )k(t − τ ) dτ −∞ khi đó ρ(x, y) = 1 T 3. Theo tiêu chí sai số tuyệt đối ρ(x, y) = 1 T T 0 T 0 f (t)2 dt. x(t) − y(t) dt. 4. Cấu trúc của tai và não người xác định ngầm định một đánh giá, hay thậm chí là nhiều đánh giá thích hợp trong truyền dẫn thoại hoặc âm nhạc. Ví dụ, có một tiêu chí đánh giá là “tính thông minh”, trong đó ρ(x, y) bằng tần số tương đối của các từ bị biên dịch sai khi bản tin phát là x(t) và bản tin nhận là y(t). Mặc dù chúng ta không thể đưa ra một biểu diễn rõ ràng của ρ(x, y) trong các trường hợp này, về nguyên lý có thể được xác định bằng các thử nghiệm đủ nhiều. Một số đặc tính của nó tuân theo các kết quả thí nghiệm nổi tiếng về nghe, ví dụ như tai hầu như không nhạy cảm với pha, tuy nhiên với biên độ và tần số thì lại nhạy gần tuân theo hàm logarit. 5. Trường hợp rời rạc có thể coi như một trường hợp đặc biệt trong đó chúng ta ngầm giả thiết một đánh giá dựa trên tần suất sai số. Hàm ρ(x, y) được định nghĩa là số ký hiệu trong chuỗi y khác với các ký hiệu tương ứng của x chia cho tổng số ký hiệu trong x. 28. TỐC ĐỘ CỦA NGUỒN ĐỐI VỚI VIỆC ĐÁNH GIÁ ĐỘ TIN CẬY Bây giờ chúng ta định nghĩa tốc độ phát thông tin của một nguồn liên tục. Chúng ta đã biết P(x) của nguồn tin và một đánh giá v được tính bằng hàm khoảng cách ρ(x, y), với giả thiết là hàm này liên tục với cả x và y. Với một hệ thống cụ thể P(x, y), chất lượng được đo bởi v= ρ(x, y)P(x, y) dx dy. 9 Tuy nhiên, nó không phải là "metric" theo nghĩa chặt, vì nói chung nó không thỏa mãn ρ(x, y) = ρ(y, x) hoặc ρ(x, y) + ρ(y, z) ≥ ρ(x, z). 50 Dịch và biên soạn bởi VNTelecom Hơn nữa, tốc độ của luồng bít nhị phân tương ứng với P(x, y) là R= P(x, y) log P(x, y) dx dy. P(x)P(y) Chúng ta định nghĩa tốc độ R1 của thông tin được phát với một mức chất lượng v1 sau khi tạo lại ở phía thu là giá trị nhỏ nhất của R khi ta giữ cho v cố định tại v1 và thay đổi Px (y). R1 được tính như sau: R1 = Min Px (y) P(x, y) log P(x, y) dx dy P(x)P(y) với điều kiện ràng buộc là: v1 = P(x, y)ρ(x, y) dx dy. Điều này có nghĩa là chúng ta xem xét tất cả hệ thống truyền dẫn và truyền dẫn thông tin với độ tin cậy theo yêu cầu trên các hệ thống đó. Tốc độ của truyền dẫn theo bit/giây được tính toán và ta sẽ chọn hệ thống có tốc độ nhỏ nhất. Tốc độ nhỏ nhất này được gán cho nguồn với độ tin cậy mà ta yêu cầu. Chứng minh của định nghĩa này nằm trong kết quả sau Định lí 21: Nếu một nguồn có tốc độ R1 với mức giá trị là v1 , ta có thể mã hóa đầu ra của nguồn và truyền dẫn nó trên một kênh có dung lượng C với độ tin cậy gần với v1 theo mong muốn, miễn là giá trị R1 nhỏ hơn hoặc bằng C (R1 ≤ C). Nếu R1 lớn hơn C thì không thể thực hiện được. Phát biểu cuối của định lí có được từ định nghĩa của R1 và các kết quả trước đó. Nếu điều đó là không đúng, chúng ta có thể truyền dẫn nhiều hơn C bit/giây trên kênh truyền có dung lượng C. Phần đầu tiên của định lí được chứng minh bằng phương pháp tương tự như đối với Định lí 11. Đầu tiên chúng ta chia không gian (x, y) thành một số lớn các ô và biểu diễn chúng như là trường hợp rời rạc. Điều này không làm thay đổi hàm đánh giá một giá trị nhỏ bất kỳ (khi các ô là rất nhỏ) bởi vì chúng ta giả sử ρ(x, y) là liên tục. Giả thiết rằng P1 (x, y) là một hệ thống đặc biệt, cho phép giảm tốc độ đến mức nhỏ nhất là R1 . Chúng ta chọn ngẫu nhiên từ xác suất cao của y một tập hợp có chứa 2(R1 + )T phần tử trong đó → 0 khi T → ∞. Với T lớn, mỗi điểm được chọn sẽ được kết nối bởi một đường xác suất cao (như trên hình 10) với một tập các giá trị x. Tính toán tương tự như trong chứng minh của định lí 11 cho ta thấy rằng với T lớn thì hầu như tất cả x đều bị bao phủ bởi các hình quạt từ các điểm y đã chọn với hầu như tất cả các lựa chọn của y. Hệ thống truyền thông được sử dụng hoạt động như sau: Các điểm lựa chọn được gán các số nhị phân. Khi một bản tin x được tạo ra, nó sẽ (với xác suất tiến đến 1 khi T → ∞) nằm trong ít nhất một trong các hình quạt. Con số nhị phân tương ứng được phát (hay một trong số chúng được chọn một cách bất kỳ nếu có nhiều) trên kênh truyền bằng phương pháp mã hóa phù hợp để đạt được một xác suất lỗi nhỏ. Vì R1 ≤ C nên điều này là có thể. Tại điểm thu bản tin tương ứng y được hồi phục. Đánh giá v1 của hệ thống này có thể thực hiện gần tùy ý với v1 bằng cách lấy T đủ lớn. Đó là bởi vì sự thực là với mỗi bản tin mẫu dài x(t) và bản tin hồi phục y(t), đánh giá tiệm cận tới v1 (với xác suất bằng 1) Một điều thú vị cần chú ý là trong hệ thống này, nhiễu trong bản tin hồi phục thực sự được tạo ra bởi một loại lượng tử tổng quát tại phía phát chứ không phải được tạo bởi nhiễu trên kênh truyền. Nó cũng ít nhiều giống với nhiễu lượng tử trong PCM. 29. TÍNH TOÁN TỐC ĐỘ Định nghĩa về tốc độ tương tự như định nghĩa về dung lượng kênh trên nhiều khía cạnh. Tốc độ được định nghĩa là P(x, y) R = Min P(x, y) log dx dy P(x)P(y) Px (y) với P(x) và v1 = P(x, y)ρ(x, y) dx dy cố định. Dung lượng kênh là C = Max P(x) P(x, y) log 51 P(x, y) dx dy P(x)P(y) Dịch và biên soạn bởi VNTelecom với Px (y) cố định và có thể có thêm một hoặc nhiều điều kiện ràng buộc khác (ví dụ như giới hạn về công suất trung bình) dưới dạng K = P(x, y)λ(x, y) dx dy. Giải pháp từng phần của bài toán tối đa hóa tổng quát để xác định tốc độ của một nguồn có thể được sử dụng. Sử dụng phương pháp Lagrange ta xét P(x, y) log P(x, y) + µP(x, y)ρ(x, y) + ν(x)P(x, y) dx dy. P(x)P(y) Phương trình thay đổi (khi ta lấy thay đổi đầu tiên trên P(x, y)) dẫn đến Py (x) = B(x)e−λρ(x,y) với λ được tính toán để cung cấp độ tin cây yêu cầu và B(x) được chọn để thỏa mãn B(x)e−λρ(x,y) dx = 1. Điều này cho thấy rằng, với cách mã hóa tốt nhất, xác suất có điều kiện của một nguyên nhân nhất định cho các y thu được khác nhau, Py (x) sẽ giảm theo hàm mũ với hàm khoảng cách ρ(x, y) giữa x và y. Trong trường hợp đặc biệt khi hàm khoảng cách ρ(x, y) chỉ phụ thuộc (vec-tơ) vào sự khác nhau giữa x và y. ρ(x, y) = ρ(x − y) Ta có B(x)e−λρ(x−y) dx = 1. Do vậy B(x) là hằng số, gọi là α, và Py (x) = αe−λρ(x−y) . Thật không may là các cách giải chính quy này rất khó để đánh giá trong các trường hợp riêng và có giá trị nhỏ.Thực tế, cách tính toán thực sự tốc độ được thực hiện chỉ trong một số ít trường hợp rất đơn giản. Nếu hàm khoảng cách ρ(x, y) là trung bình bình phương sai khác giữa x và y và tập hợp các bản tin là nhiễu trắng thì tốc độ có thể xác định được. Trong trường hợp đó ta có R = Min H(x) − Hy (x) = H(x) − Max Hy (x) với N = (x − y)2 . Nhưng Max Hy (x) xảy ra khi y − x là nhiễu trắng, và bằng W1 log 2πeN với W1 là băng thông của tập hợp phân bố xác suất các bản tin. Vì vậy R = W1 log 2πeQ −W1 log 2πeN Q = W1 log N trong đó Q là công suất bản tin trung bình. Nó chứng minh định lí sau đây: Định lí 22: Tốc độ của một nguồn nhiễu trắng có công suất Q và băng thông W1 có liên quan với đo lường độ tin cậy theo giá trị hiệu dụng (RMS) là R = W1 log Q N trong đó N là sai số bình phương trung bình cho phép giữa tín hiệu gốc và tín hiệu hồi phục. Tổng quát hơn với bất kỳ một nguồn bản tin nào chúng ta có thể có các bất đẳng thức giới hạn tốc độ có liên quan đến tiêu chí lỗi trung bình bình phương. 52 Dịch và biên soạn bởi VNTelecom Định lí 23: Tốc độ của bất kỳ nguồn nào có độ rộng băng tần W1 đều bị chặn bởi W1 log Q1 Q ≤ R ≤ W1 log N N với Q là công suất trung bình của nguồn, Q1 là công suất entropy và N là sai số trung bình bình phương cho phép. Cận dưới là do Max Hy (x) với (x − y)2 = N cho trước xảy ra trong trường hợp nhiễu trắng. Cận trên đạt được nếu ta đặt các điểm (được sử dụng √ trong chứng minh của định lí 21) không theo cách tốt nhất mà theo ngẫu nhiên trên hình cầu có bán kính Q − N. LỜI CẢM ƠN Tác giả xin bày tỏ sự cảm ơn tới các đồng nghiệp của mình ở các phòng nghiên cứu và đặc biệt dành sự cảm ơn tới tiến sĩ H. W. Bode, tiến sĩ J. R. Pierce, Dr. B. McMillan, và tiến sĩ B. M. Oliver bởi những lời gợi ý và phản biện có ích trong quá trình thực hiện công việc này. Tôi cũng xin ghi nhận công lao của giáo sư N. Wiener, bởi vì lời giải xuất sắc của ông cho các vấn đề về quá trình lọc tín hiệu và sự dự đoán các tập hợp có phân bố xác suất tĩnh đã ảnh hưởng đáng kể tới các suy nghĩ của tôi trong lĩnh vực này. Lời cảm ơn của nhóm biên dịch bài báo này sang tiếng Việt. Chúng tôi xin chân thành gửi lời cám ơn đến: • PGS. TS. Nguyễn Quốc Bình • ThS. Lê Hải Bình • Nguyễn Trung Dũng • KS. Vũ Bá Dũng • ThS. Nguyễn Tuấn Đức • TS. Nguyễn Nam Hoàng • ThS. Nguyễn Xuân Hoàng • TS. Lê Thanh Hà • ThS. Nguyễn Hải Nam • TS. Nguyễn Vương Quốc Thịnh đã cùng tham gia dịch và biên soạn tài liệu này. Chúng tôi cũng xin chân thành cảm ơn bạn Nguyễn Ngọc Lan đã đọc và giúp chúng tôi hiệu chỉnh các lỗi của bản dịch đầu tiên. Tài liệu này được hoàn thành trong khuôn khổ các dự án mở của cộng đồng VNTelecom. Mọi phản hồi hay góp ý liên quan đến bài dịch này, xin vui lòng liên hệ contact@vntelecom.org. PHỤ LỤC 5 Cho S1 là một tập con đo đạc được bất kỳ của tập hợp pbxs g và S2 là một tập con của tập hợp pbxs f mà sinh ra S1 theo phép toán T . Do vậy S1 = T S2 . Cho H λ là toán tử biến đổi mọi hàm số trong một tập hợp vào thời điểm λ. Ta có H λ S1 = H λ T S2 = T H λ S2 53 Dịch và biên soạn bởi VNTelecom vì T bất biến và giao hoán với H λ . Do đó nếu m[S] là phép thử xác suất của tập hợp S m[H λ S1 ] = m[T H λ S2 ] = m[H λ S2 ] = m[S2 ] = m[S1 ] trong đó phép bằng thứ hai là do ý nghĩa của độ đo trong không gian g, phép bằng thứ ba là do tập hợp pbxs f là tập tĩnh, phép bằng cuối cùng do ý nghĩa của độ đo g. Để chứng minh rằng thuộc tính ergodic được bảo toàn với các phép toán bất biến, hãy coi S1 là một tập con của tập hợp pbxs g bất biến với H λ , và coi S2 là tập hợp của tất cả các hàm f biến đổi tới S1 . Ta có H λ S1 = H λ T S2 = T H λ S2 = S1 Vậy là H λ S2 được chứa trong S2 với mọi λ. Giờ đây, bởi vì m[H λ S2 ] = m[S1 ] có nghĩa là H λ S2 = S2 cho mọi λ với m[S2 ] = 0, 1. Sự mâu thuẫn này chỉ ra rằng S1 không tồn tại. PHỤ LỤC 6 Chặn trên, N 3 ≤ N1 + N2 , là do giá trị entropy cực đại khả dĩ cho một công suất N1 + N2 xảy ra khi ta có nhiễu trắng của công suất này. Trong trường hợp này, công suất entropy là N1 + N2 . Để có được một chặn thấp hơn, giả sử chúng ta có hai phân bố trong không gian n chiều p(xi ) và q(xi ) với công suất entropy là N 1 và N 2 . p và q cần có dạng thức gì để tối thiểu công suất entropy N 3 của tích chập r(xi ) của chúng? r(xi ) = p(yi )q(xi − yi ) dyi . H3 = − r(xi ) log r(xi ) dxi . Entropy H3 của r là Ta muốn tối thiểu giá trị này với các điều kiện ràng buộc sau H1 = − p(xi ) log p(xi ) dxi H2 = − q(xi ) log q(xi ) dxi . Sau đó, ta xét tới: U =− δU = − r(x) log r(x) + λp(x) log p(x) + µq(x) log q(x) dx [1 + log r(x)]δr(x) + λ[1 + log p(x)]δ p(x) + µ[1 + log q(x)]δq(x) dx. Nếu p(x) biến đổi tại một argument, xi = si , sự thay đổi ở r(x) là δr(x) = q(xi − si ) và δU = − q(xi − si ) log r(xi ) dxi − λ log p(si ) = 0 54 Dịch và biên soạn bởi VNTelecom và tương tự khi q thay đổi. Do vậy những điều kiện cho giá trị tối thiểu là q(xi − si ) log r(xi ) dxi = −λ log p(si ) p(xi − si ) log r(xi ) dxi = −µ log q(si ). Nếu ta nhân điều kiện thứ nhất với p(si ) và điều kiện thứ hai với q(si ) và rồi lấy tích phân với si ta có H3 = −λH1 H3 = −µH2 hoặc tính ra λ và µ và thay thế trong các phương trình sau H1 q(xi − si ) log r(xi ) dxi = −H3 log p(si ) H2 p(xi − si ) log r(xi ) dxi = −H3 log q(si ). Giả thiết p(xi ) và q(xi ) là phân bố chuẩn p(xi ) = |Ai j |n/2 exp − 12 ∑ Ai j xi x j (2π)n/2 q(xi ) = |Bi j |n/2 exp − 12 ∑ Bi j xi x j . (2π)n/2 Vậy thì r(xi ) cũng sẽ là phân bố chuẩn với hàm bậc hai Ci j . Nếu các hàm nghịch đảo của chúng là ai j , bi j , ci j thì ta có ci j = ai j + bi j . Ta muốn chỉ ra rằng những hàm này thỏa mãn các điều kiện tối thiểu khi và chỉ khi ai j = Kbi j và do vậy có được giá trị H3 nhỏ nhất theo các điều kiện ràng buộc này. Đầu tiên ta có n 1 log |Ci j | − 12 ∑ Ci j xi x j 2 2π 1 n q(xi − si ) log r(xi ) dxi = log |Ci j | − 12 ∑ Ci j si s j − 12 ∑ Ci j bi j . 2 2π log r(xi ) = Tương đương với H3 n 1 log |Ai j | − 12 ∑ Ai j si s j H1 2 2π với Ai j = H1 H1 Ci j . Trong trường hợp này Ai j = Bi j và cả hai phương trình trở về đồng nhất thức H3 H2 PHỤ LỤC 7 Phần sau đây sẽ chỉ ra một hướng tiếp cận tổng quan hơn và chính xác hơn về các định nghĩa chính của lý thuyết truyền tin. Hãy xét một không gian các độ đo xác suất có các phần tử là các cặp (x, y) có thứ tự. Các biến x, y được xác định như các tín hiệu phát và tín hiệu thu có thể có của một khoảng thời gian dài T nào đó. Chúng ta gọi tập hợp của tất cả mọi điểm mà x thuộc về một tập con S1 là miền giá trị trên S1 , và tương tự tập hợp này của y thuộc về S2 là miền giá trị trên S2 . Ta chia x và y thành một bộ các tập con đo được và không chồng chéo Xi và Yi gần đúng với tốc độ truyền dẫn R như sau R1 = 1 T P(Xi ,Yi ) ∑ P(Xi ,Yi ) log P(Xi )P(Yi ) i 55 Dịch và biên soạn bởi VNTelecom với P(Xi ) là độ đo xác suất của miền giá trị trên Xi P(Yi ) là độ đo xác suất của miền giá trị trên Yi P(Xi ,Yi ) là độ đo xác suất của phần giao nhau của các miền giá trị. Phần chia nhỏ ra R1 không thể giảm hơn nữa. Tách X1 thành X1 = X1 + X1 và gán cho P(Y1 ) = a P(X1 ) = b P(X1 ) = c P(X1 ) = b + c P(X1 ,Y1 ) = d P(X1 ,Y1 ) = e P(X1 ,Y1 ) = d + e. Thì cuối cùng ta đã thay thế (cho X1 , Y1 giao nhau) (d + e) log d +e a(b + c) by d log d e + e log . ab ac Dễ dàng chỉ ra rằng với giới hạn này, chúng ta có b, c, d, e, d +e b+c d+e ≤ d d ee bd ce Và kết quả là giá trị tổng này tăng lên. Do vậy những phần chia nhỏ có thể có sẽ tạo nên một tập hợp một chiều với R đơn điệu tăng với sự cô đọng của phần chia nhỏ này. Chúng ta có thể định nghĩa R một cách không lẫn lộn như là chặn trên nhỏ nhất của R1 như sau: R= 1 T P(x, y) log P(x, y) dx dy. P(x)P(y) Phép tích phân này theo ý nghĩa trên bao gồm cả hai trường hợp liên tục và rời rạc và tất nhiên gồm cả các trường hợp khác khi không thể trình bày ở một trong hai trường hợp này. Rõ ràng trong phương trình này, nếu x và u là tương ứng một-và-một, tỷ lệ u trên y tương đương với tỷ lệ x trên y. Nếu v là một hàm bất kỳ của y (không nhất thiết là hàm nghịch đảo) thì tỷ lệ x trên y lớn hơn hoặc bằng tỷ lệ x trên v bởi vì ở khi tính toán gần đúng, các phần chia nhỏ của y là phần chia nhỏ cô đọng hơn của chúng cho v. Tổng quát hơn, nếu y và v có liên hệ thống kê nghĩa là chúng ta có một không gian độ đo xác suất (y, v), và R(x, v) ≤ R(x, y). Điều này có nghĩa là bất kỳ phép toán nào áp dụng vào tín hiệu thu, ngay cả khi nó bao gồm các thành phần có tính thống kê, nó không làm tăng R. Một khái niệm khác cần được định nghĩa cụ thể trong bản thảo của lý thuyết này là "tỷ lệ thứ nguyên" (dimension rate). Đó là số trung bình của các thứ nguyên cần có trong mỗi giây để xác định một thành phần của một tập hợp pbxs. Trong trường hợp băng thông bị giới hạn, 2W /s là thỏa mãn việc này. Định nghĩa tổng quát như sau. Cho fα (t) là một tập hợp pbxs của các hàm và ρT [ fα (t), fβ (t)] là đơn vị đo “khoảng cách” từ fα tới fβ trong thời gian T (ví dụ như sự khác nhau của giá trị hiệu dụng trong khoảng thời gian này.) Cho N( , δ, T ) là số tối thiểu của các phần tử f có thể chọn sao cho mọi phần tử của tập hợp pbxs này ngoại trừ tập hợp các độ đo δ nằm trong khoảng của ít nhất một phần tử đã chọn. Do vậy chúng ta đang phủ không gian trong khoảng ngoài tập hợp đo đạc nhỏ δ. Chúng ta định nghĩa tỷ lệ thứ nguyên λ cho tập hợp pbxs bởi ba lần lấy giới hạn như sau log N( , δ, T ) . λ = Lim Lim Lim δ →0 →0 T →∞ T log Đây là sự suy rộng của các định nghĩa độ đo của thứ nguyên trong tôpô và phù hợp với tỷ lệ thứ nguyên trực giác đối với các tập hợp pbxs đơn giản nơi mà kết quả mong muốn là hiển nhiên. 56 Dịch và biên soạn bởi VNTelecom GIAI THOẠI VỀ C.E. SHANNON10 Cuộc đời là một trò đỏ đen. Trên thế giới này có rất ít những điều chắc chắn, và trong việc tuyển mộ mang tính chuyên môn và cạnh tranh cao thì còn hiếm hoi hơn nữa. Claude Shannon là một người đáp ứng được những yêu cầu khắt khe cần thiết trong môi trường đó. Đây là lý do vì sao Viện công nghệ Massachusetts (Massachusttes Institute of Technology – MIT) đang chuẩn bị mọi thứ cần thiết để lôi kéo bằng được Shannon từ Phòng thí nghiệm Bell (Bell Labs) của AT& T và vì sao họ rất vui mừng khi Shannon bắt đầu công việc của một giáo sư thỉnh giảng tại MIT vào năm 1956. Shannon đã làm những việc mà trên thực tế chưa một ai từng nghĩ đến kể từ sau thời kỳ Phục Hưng. Một mình ông đã phát minh ra môn khoa học mới rất quan trọng. Lý thuyết về thông tin của Shannon là một môn khoa học trừu tượng về sự giao tiếp qua máy tính, mạng Internet và tất cả các phương tiện truyền thông kỹ thuật số khác. Toby Berger thuộc trường Đại học Cornell đã nhận xét về phát minh này như sau: “Người ta nói đó là một trong số ít lần trong lịch sử mà cùng lúc một người vừa tìm ra lĩnh vực mới, đặt ra những câu hỏi cần thiết, tìm ra cách chứng minh và trả lời được tất cả những câu hỏi đó.” “Ngay khi gặp Shannon, tôi đã biết ông ấy là chuẩn mực của những gì mà một nhà khoa học cần có.” Marvin Minsky của Viện công nghệ MIT nói. “Bất kể có chuyện gì xảy ra, ông ấy cũng vui vẻ đón nhận và đương đầu với nó bằng sự khéo léo đáng kinh ngạc – phẩm chất có thể được coi là một khái niệm chuyên môn mới – hoặc bằng một cái búa rồi đứng nhìn những mảnh gỗ của nó.” Có rất nhiều người ở Bell Labs và MIT so sánh trí tuệ của Shannon với Enstein. Một số người khác còn cho rằng so sánh như vậy là bất công – bất công với Shannon. Những phát minh của Enstein hầu như chẳng có tác dụng gì đối với cuộc sống của những con người bình thường. Còn những phát minh của Shannon thì được ứng dụng từ những năm 1950. Trong thời đại kỹ thuật số của chúng ta, ý nghĩa của những thành tựu mà Shannon đạt được đôi khi không thể diễn đạt bằng lời. “Nó cũng giống như khi nói bảng chữ cái có tác dụng như thế nào đối với văn chương vậy” – Giáo sư Solomon W.Golomb thuộc trường Đại học Southern California quả quyết. Shannon đã đưa ra ý tưởng rằng các máy tính nên sử dụng các con số nhị phân quen thuộc 0 và 1. Ông miêu tả cách thức những số nhị phân này có thể được biểu diễn trong các mạch điện. Dòng điện mức cao biểu diễn số 1, dòng điện mức thấp biểu diễn số 0. Bộ mã nhỏ nhất này có thể chuyển tải được từ ngữ, hình ảnh, tiếng động, đoạn phim hay bất kỳ dạng thông tin nào khác. Shannon là một trong số hai hay ba nhà phát minh đầu tiên nghĩ ra máy tính số điện tử. Nhưng đây chưa phải là thành tựu lớn nhất của Shannon. Thành công lớn nhất của Shannon là lý thuyết thông tin. Đây là lý thuyết hoàn chỉnh nhất, tổng hợp tất cả những vấn đề mà những người đi trước đã đưa ra. Trong suốt những năm 1960, 1970 và 1980, hiếm có năm nào trôi qua mà không bị ảnh hưởng bởi bởi “xu hướng” kỹ thuật số khiến tầm ảnh hưởng của Claude Shannon trở nên rộng hơn bao giờ hết. Máy thu thanh bán dẫn, mạch tích hợp, các máy tính trung ương, hệ thống liên lạc vệ tinh, máy tính cá nhân, sợi quang, truyền hình có độ phân giải cao (HDTV), điện thoại di động, thực tế ảo, chuỗi DNA. . . Về chi tiết thì Shannon hầu như không đóng góp gì vào việc tạo nên những phát minh này. Nhưng nếu nói trên một phạm vi rộng hơn thì toàn bộ thế giới điện tử hữu tuyến và vô tuyến đều kế thừa những thành tựu của Shannon. Rất nhiều nhà báo và chuyên gia lúc bấy giờ đang cố gắng tạo nên thời đại của kỹ thuật số. Tên tuổi của Shannon cứ thế tăng lên. Trong công trình nghiên cứu lý thuyết thông tin được đăng năm 1948, Shannon đã liệt kê những học vị danh dự cho phần còn lại của cuộc đời. Tuy thế ông vẫn giữ thói quen treo áo khoác tôga lên cái giá để máy giặt khô ở nhà. Shannon là vị anh hùng trong thời đại vũ trụ cũng như thế giới của những câu chuyện viễn tưởng về máy tính. Cuộc cách mạng kỹ thuật số đã đưa “bit” và “byte” – những đơn vị đo lường khó hiểu trong lĩnh vực điện tử của Shannon – trở nên quen thuộc và phổ biến hơn với mọi gia đình như “watt” và “calori” vậy. Nhưng nếu như có một nhà báo hay một vị khách hỏi gần đây Shannon đang làm gì thì câu trả lời thường mang tính lảng tránh. Robert Fano, một người bạn lâu năm của Shannon đang làm cho MIT giải thích: “Khi cầm bút, anh ấy viết những bài báo thật hay. Khi nói, anh ấy có những bài phát biểu thú vị. Nhưng Shannon ghét những việc ấy”. Năm 1958, Shannon đồng ý làm việc lâu dài cho MIT trên cương vị một giáo sư chuyên ngành khoa học viễn thông và toán học. Hầu như ngay khi đến đây làm việc, “Shannon ít xuất hiện hơn. Ông cũng ít đưa 10 Phần này không có trong văn bản tiếng Anh gốc của bài báo. 57 Dịch và biên soạn bởi VNTelecom ra những kết quả nghiên cứu mới”, nhà kinh tế học nổi tiếng Paul Samuelson của MIT nhớ lại. Trên thực tế, Shannon chỉ làm việc cho MIT trong một vài kỳ mà thôi. Theo nhà nghiên cứu lý thuyết thông tin Peter Elias cũng thuộc MIT thì “nhiệm vụ của Claude là đưa ra một chuỗi bài giảng nghiên cứu về những lĩnh vực mà chẳng ai biết về chúng. Thế nhưng, công việc này đòi hỏi rất khắt khe về tốc độ, trên thực tế, mỗi tuần ông ấy phải hoàn thành một bài nghiên cứu.” Vì thế, chỉ sau một vài kỳ, Shannon đã cho MIT biết rằng ông không muốn tiếp tục giảng dạy ở viện này nữa. Và đối với MIT thì điều đó cũng không thành vấn đề. MIT chỉ là một trong số nhiều viện nghiên cứu lớn trên thế giới mà thôi. Tuy nhiên, Shannon cũng không cho công bố nhiều bài nghiên cứu nữa. Trong khi đồng nghiệp của ông ở Bell Labs là John Nash có một trí tuệ khá tuyệt vời thì Shannon lại “có một lối suy nghĩ khá kì dị”, David Slepian nói. Tài năng thiên bẩm của Shannon cũng tựa như của Leonardo, thường “nhảy cóc” từ đề tài nay qua đề tài khác, kết quả là có rất ít những đề tài hoàn chỉnh. Shannon là một người cầu toàn, ông không thích công bố bất kỳ vấn đề gì khi mà tất cả những khúc mắc còn chưa được trả lời, ngay cả câu văn cũng phải thật hoàn thiện. Trước khi chuyển đến MIT, Shannon đã xuất bản được 78 bài báo nghiên cứu khoa học. Thế nhưng từ năm 1958 đến 1974, ông chỉ xuất bản được 9 bài. Trong thập kỷ tiếp theo, trước khi căn bệnh Alzhmeimer đặt dấu chấm hết cho sự nghiệp của Claude Shannon, tổng số tác phẩm nghiên cứu khoa mà ông cho xuất bản chỉ là một bài báo về trò tung hứng. Shannon cũng có một bài nghiên cứu nữa về khối Rubic nhưng không bao giờ được xuất bản. Có một bí mật mà ở MIT ai cũng biết, đó là sau khi ngừng công việc nghiên cứu, một trong những bộ óc vĩ đại nhất thế kỷ 20 ấy dành tất cả thời gian để chơi đồ chơi. Paul Samuelson nói: “Một vài người tự hỏi không biết có phải ông ấy bị suy nhược thần kinh hay không. Vài người khác thì cho rằng đó chỉ là một phần trong tính cách bị ảnh hưởng bởi căn bệnh thích lánh mình.” Shannon là một người khá dè dặt và nhã nhặn, dường như không biết đến đố kỵ, thù hận hay tham vọng. Hầu hết những ai biết Shannon đều thấy quý mến con người này. Ông cao gần 1m6, dáng người mảnh khảnh, thư sinh, ăn mặc gọn gàng. Ở tuổi trung niên, ông bắt đầu để râu quai nón và chăm sóc nó khá cẩn thận, khiến ông trông càng đạo mạo hơn. Shannon thích nghe nhạc của vùng phía Nam nước Mỹ. Ông có thể tung hứng với 4 quả bóng một lúc và tiếc là bàn tay mình hơi nhỏ hơn bình thường, nếu không ông đã có thể tung 5 quả một lúc. Shannon tự miêu tả mình là một người vô thần và phi chính trị. Bằng chứng duy nhất về thái độ của ông đối với chính trị mà tôi tìm thấy trong những bài báo của ông là một bài thơ hài hước mà ông viết về vụ Watergate. Phần lớn thời gian trong cuộc đời Shannon gắn với cây bút chì. Ông viết lên giấy những phương trình toán học, sơ đồ mạch điện, bản nháp những bài phát biểu mà ông sắp diễn thuyết hay những bài viết không bao giờ được xuất bản, phổ nhạc cho những bài thơ vui nhộn và những điều ghi nhớ kì quặc cho mình. Một trong những ghi chú đó là danh sách “Những niềm đam mê một thời”, bao gồm cờ vua, xe đạp một bánh, tung hứng, thị trường chứng khoán, phả hệ học, chạy bộ, các nhạc cụ, nhạc jazz, và “Tham gia vào giới giang hồ”. Sở thích cuối cùng này quả là một sự khó hiểu đầy khiêu khích. Trong một cuộc phỏng vấn, Shannon đã kể một cách “đầy trìu mến” về lần đi xem những vũ công ở một sân khấu kịch tục tĩu như một gã trai trẻ. Ở Bell Labs, Shannon nổi tiếng với trò đi xe đạp một bánh dọc các hành lang. Với tính cách của mình, chỉ lái chiếc xe đó thôi là chưa đủ, ông phải tìm mọi cách “giải phẫu” nó để tìm ra nguyên lý hoạt động và điều khiển nó. Ông tự hỏi chiếc xe đạp một bánh có thể nhỏ đến mức nào mà vẫn có thể lái được. Để giải đáp thắc mắc của mình, ông dựng một chuỗi những chiếc xe đạp một bánh theo thứ tự nhỏ dần. Chiếc nhỏ nhất cao 45,72 cm. Không ai có thể điều khiển được nó. Ông dựng tiếp một chiếc khác, bánh xe của nó được ông cố ý chế tạo không cân đối nhằm gây thêm khó khăn cho người lái. Cuối cùng, Shannon nói với một vẻ hài lòng về thành tích của mình, đó là vừa lái một chiếc xe một bánh xuống phòng họp của Bell Labs vừa tung hứng. Shannon sinh ngày 30-4-1916 ở Petoskey, bang Michigan. Ông lớn lên ở Gaylord, một thị trấn với 3000 dân thuộc phía trên Michigan, có diện tích nhỏ đến mức chỉ cần đi bộ qua vài khu nhà là hết thị trấn. Cha của Shannon, cũng tên là Claude Elwood Shannon, đã từng làm nhân viên bán hàng, nhà cung cấp đồ nội thất, nhân viên mai táng trước khi trở thành thẩm phán phụ trách những vụ liên quan đến di chúc. Ông cũng kinh doanh bất động sản, xây tòa nhà “Shannon Block” để cho thuê làm văn phòng trên phố Gaylord’s Main. Năm 1909, ông kết hôn cùng Mabel Wolf, hiệu trưởng trường trung học của thị trấn. Con trai của thẩm phán 58 Dịch và biên soạn bởi VNTelecom Shannon ra đời khi ông đã bước sang tuổi 54. Ông là một người cha khá thờ ơ, thường để con trai ngồi chơi với mấy bộ lắp ráp và mô hình đài radio. Trong dòng máu của gia đình Shannon có sẵn truyền thống sáng tạo. Thomas Edison là bà con họ xa với gia đình. Ông của Shannon là người đã tự thiết kế một chiếc máy giặt tự động. Từ nhỏ đến lớn, Claude đều tự mày mò ra mọi thứ, mà hầu hết là do hoàn cảnh bắt buộc. Ví dụ một lần, khi còn bé, Shannon đã tự tạo ra một cái máy điện báo để nhắn tin cho một cậu bạn. Nhà cậu bé này cách nhà Shannon nửa dặm, Shannon không đủ tiền để mua dây điện. Một hôm Shannon nhận thấy hàng rào ngăn cách giữa các nhà được làm từ dây thép gai. Và thế là cậu gắn những manip vào cuối mỗi hàng rào. Ý tưởng này đã đem lại kết quả. Tìm ra những giải pháp mạch lạc và ổn thỏa cho những vấn đề phức tạp là một khả năng đặc biệt của Shannon. Shannon kiếm tiền bằng cách làm chân giao nhận cho Western Union. Năm 1936, ông hoàn thành bằng Cử nhân khoa học tại trường Đại học Michigan. Lúc này, ông hầu như không có chút khái niệm gì về việc muốn làm gì tiếp theo. Một lần ông bất chợt nhìn thấy một tấm bưu ảnh đính trên tường nói về việc Viện công nghệ Massachusetts đang cần một người làm công việc bảo dưỡng những chiếc máy phân tích vi phân mới. Shannon đã nộp đơn xin việc. –oOo– 59 Dịch và biên soạn bởi VNTelecom [...]... ra hệ thống truyền thông tin tin cậy với tốc độ 500bit/giây, trong khi thực tế là không có thông tin nào được truyền đi Một truyền dẫn tốt có thể đạt được bằng việc gieo một đồng xu xấp ngửa tại điểm thu mà không cần tính đến kênh truyền Hiển nhiên, một hiệu chỉnh hợp lí đối với tổng lượng thông tin được truyền đi sẽ chính bằng lượng tin bị mất ở tín hiệu thu, hay chính là độ bất định về tín hiệu thực... Journal, v 5, 1939 4 Rất nhiều các lý thuyết và triết học cơ sở của lý thuyết truyền thông xuất phát từ các công trình của Wiener Bản báo cáo NDRC của ông mang tên, The Interpolation, Extrapolation and Smoothing of Stationary Time Series (Wiley, 1949), chứa đựng những phát biểu có hệ thống rõ ràng đầu tiên về nguyên lý truyền thông như một bài toán thống kê, nghiên cứu các phép toán trên chuỗi thời gian Công... bản tin, ngoại trừ một phần nhỏ các bản tin dài Nếu một nguồn chỉ có thể tạo ra một bản tin riêng biệt, entropy của nó bằng không, và không cần phải có kênh truyền Ví dụ, một máy tính được thiết lập để tính các chữ số liên tiếp của π tạo ra một chuỗi xác định, không có phần tử biến cố Không cần kênh truyền để truyền thông tin này đến một điểm khác Người ta có thể chế tạo một máy thứ hai để tính toán. .. tin phát trừ đi độ bất ngờ của nó Biểu thức thứ hai tính tổng lượng tin thu trừ đi phần bị nhiễu Biểu thức thứ ba là tổng 2 lượng tin trừ đi entropy đồng thời, và theo nghĩa nào đó chính là tốc độ bit trên giây chung với cả 2 đầu cuối Cả 3 biểu thức trên đều có mức quan trọng nhất định Dung lượng kênh truyền có nhiễu C tốt nhất là bằng tốc độ truyền tin tối đa cho phép, nghĩa là, tốc độ khi nguồn tin. .. một thông tin nào đó trên kênh này Tuy nhiên rõ ràng là bằng cách gửi thừa thông tin, xác suất lỗi có thể giảm được phần nào Ví dụ, bằng cách lặp đi lặp lại một bản tin nhiều lần, và nhờ vào nghiên cứu thống kê các phiên bản khác nhau của bản tin thu, xác suất lỗi có thể còn rất nhỏ Nếu người ta muốn xác suất lỗi giảm về 0, độ dư trong thông tin phải tăng đến mức không xác định, và tốc độ truyền do... biên soạn bởi VNTelecom E M 2H(x)T 2H(y)T TÍN HIỆU NHẬN XÁC SUẤT CAO BẢN TIN XÁC SUẤT CAO 2Hy (x)T NGUYÊN NHÂN HỢP LÝ CHO MỖI E 2Hx (y)T KẾT QUẢ HỢP LÝ CHO MỖI M Hình 10 — Lược đồ đặc trưng mối quan hệ giữa đầu vào và đầu ra trên một kênh truyền Xác suất không có điểm nào trong hình quạt giấy đóng vai trò bản tin phát (ngoại trừ bản tin gốc thực sự) là P = 1 − 2T (R−H(x)) 2T Hy (x) Do R < H(x) − Hy (x)... quan hệ mật thiết giữa sự bất biến của những thiết bị vật lý dưới một dịch chuyển thời gian và lý thuyết Fourier.4 Thực tế, ông ta đã chứng minh rằng nếu một thiết bị là tuyến tính và bất biến, phân tích Fourier khi đó là công cụ toán học thích hợp để giải quyết vấn đề Tập hợp có pbxs của các hàm là một sự biểu diễn toán học thích hợp của các bản tin được tạo ra bởi một nguồn liên tục (ví dụ tiếng nói),... phần thảo luận trước của chúng ta về entropy như một đơn vị đo độ bất định, dường như cũng hợp lí nếu coi entropy có điều kiện của bản tin, được biết đến như là tín hiệu thu, là độ đo của lượng thông tin bị tổn thất Đây quả thực là một định nghĩa hợp lí, và sẽ được làm rõ dần về sau Theo ý tưởng đó, tốc độ truyền tin thực tế R có thể thu được bằng cách lấy tốc độ phát tin (entropy của nguồn) trừ đi tốc... không cố gắng để có được các kết quả với tính tổng quát cao nhất, hay với một yêu cầu nghiêm ngặt về toán học thuần túy, bởi điều này sẽ liên quan đến việc giải quyết vần đề về lý thuyết độ đo trừu tượng và có thể khiến dòng phân tích trở nên khó hiểu Tuy nhiên, một nghiên cứu sơ bộ nhằm chỉ ra rằng các lý thuyết có thể trình bày bằng một cách hoàn toàn chặt chẽ và rõ ràng, bao gồm cả trường hợp liên... biết vị trí Do vậy kênh sửa lỗi chỉ có nhiệm vụ truyền thông tin vị trí các lỗi Vấn đề này chung quy lại cũng chỉ là truyền tín hiệu từ một nguồn tạo ra các số nhị phân với xác suất truyền bit 1 là p (không chính xác) và bit 0 là q (chính xác) Do vậy dung lượng kênh cần thiết là −[p log p + q log q] Đây chính là độ mập mờ của hệ thống gốc Tốc độ truyền tin R có thể viết dưới hai dạng khác nữa theo các

Định dạng
Số trang	59
Dung lượng	445,7 KB