Entropy cực đại và phương pháp tiếp cận dự đoán phân bố xác suất lần đầutiên được đề xuất bởi Jaynes, và kể từ đó đã được sử dụng trong nhiều lĩnh vựccủa khoa học máy tính và thống kê họ
Trang 1Ngày 7 tháng 6 năm 2013
Trang 2Em xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới Thạc sỹ Trần ThiệnThành Khoa Toán Trường Đại học Khoa Học Huế đã chỉ bảo và hướng dẫn tậntình cho em trong suốt quá trình thực hiện khoá luận này.
Em xin gửi lời cảm ơn và biết ơn sâu sắc tới các thầy, cô đã dạy dỗ em trongsuốt quá trình học tập tại trường Đại học Khoa Học Những kiến thức các thầy,
cô dạy em là hành trang để em vững bước vào đời
Em cũng xin chân thành cảm ơn các thầy, cô, anh, chị trong Khoa Toán đãtạo điều kiện, giúp đỡ và động viên tinh thần cho em trong quá trình làm khoáluận
Và cuối cùng, con xin gửi lời cảm ơn và biết ơn vô hạn tới bố, mẹ, nhữngngười thân yêu của em, đã nuôi nấng, dạy dỗ và luôn động viên, làm chỗ dựa tinhthần cho em trong cuộc sống cũng như trong học tập
Mặc dù đã cố gắng, nhưng với kiến thức và thời gian còn hạn chế nên khôngthể tránh khỏi những thiếu sót Em mong nhận được sự chỉ bảo của quý thầy cô
và ý kiến đóng góp của bạn bè để khóa luận của em được hoàn thiện hơn
Xin chân thành cảm ơn !
Huế, ngày 16 tháng 05 năm 2012
Sinh viên
Nguyễn Thị Thu Mơ
Trang 3Mục lục
1 Entropy, Entropy Tương Đối Và Thông Tin Tương Hỗ 6
1.1 Entropy của biến ngẫu nhiên 6
1.1.1 Định nghĩa 6
1.1.2 Entropy của một số phân phối thường dùng 9
1.2 Entropy đồng thời và Entropy điều kiện 11
1.3 Entropy tương đối và thông tin tương hỗ 16
2 Một Số Kết Quả Của Entropy Cực Đại 23 2.1 Nguyên Lý Entropy Cực Đại 23
2.1.1 Định Lý Cơ Bản Về Entropy Cực Đại 23
2.1.2 Một Số Định Lý Mở Rộng Khác 27
2.2 Ứng Dụng Về Entropy Cực Đại 30
2.2.1 Bài toán con xúc xắc 30
2.2.2 Bài toán Berger’s Burges 31
Trang 4LỜI MỞ ĐẦU
Lịch sử Entropy được bắt đầu trong nhiệt động học sau đó được nhà toánhọc, vật lý Claude Elwood Shannon mở rộng và giới thiệu trong bài báo "A Math-ematical theory of Communication" vào năm 1948 thông qua khái niệm trung gian
là "độ bất định" Trong dự đoán khả năng xảy ra trước khi nhận được thông tin.Sau khi nhận thông tin nếu độ bất định giảm đi thì có thể coi lượng thông tinnhận được là bằng mức độ giảm đi của độ bất định Nếu dự đoán đoán càng nhiềutình huống có thể xảy ra thì độ bất định trong dự báo càng lớn
Entropy cực đại và phương pháp tiếp cận dự đoán phân bố xác suất lần đầutiên được đề xuất bởi Jaynes, và kể từ đó đã được sử dụng trong nhiều lĩnh vựccủa khoa học máy tính và thống kê học, đặc biệt là xử lý ngôn ngữ tự nhiên, vàgần đây hơn trong mô hình môi trường sống của loài
Trước khi trình bày về mô hình về mô hình entropy cực đại chúng ta xemxét ví dụ sau: Xét một quá trình ngẫu nhiên gieo con xúc xắc cân đối đồng chất.Quan sát 1000 lần thử thống kê xác suất xuất hiện từng mặt ta có:
Chúng ta có thể đưa ra nhiều phân phối xác suất thỏa mãn phương trình(1) Chẳng hạn p(1) = 1 và tất cả các mặt khác có xác suất xuất hiện đều bằng 0nghĩa là mặt xuất hiện luôn luôn là mặt 1
Giả sử vì một lý do nào đó con xúc xắc bị lệch 2 mặt là 1 và 4 Trong 1000lần gieo thử ta quan sát thấy rằng số lần xuất hiện của các mặt 1 và mặt 4 chiếm50% trên tổng số lần tung
Trang 5p(2) +p(3) +p(5) +p(6) = 1
Một lần nữa có nhiều phân phối xác suất phù hợp với các ràng buộc trênchẳng hạn p(1) = 13, p(4)=16 và p(2) = 12, các mặt 3,5,6 có xác suất xuất hiện là
0 Có rất nhiều kết quả thỏa mãn yêu cầu của bài toán
Bây giờ chúng ta có thể ước lượng phân phối xác suất của các mặt thôngqua 2 ràng buộc sau
có thể, phụ thuộc vào các ràng buộc
Giả sử chúng ta kiểm tra lại dữ liệu nhiều lần, và lần này nhận thấy số điểmbình quân của các mặt là 4,7 điểm
Chúng ta có thể kết hợp thông tin này vào mô hình của chúng ta như một ràngbuộc thứ 3 của bài toán:
đã biết
Phương pháp entropy cực đại sẽ trả lời cho ta câu hỏi đó chúng ta sẽ chứngminh bài toán trong những phần sau Nguyên lý rất đơn giản cho một tập các ràngbuộc, lựa chọn một phân phối xác suất mà nó phù hợp với tất cả các ràng buộccủa bài toán và đều nhất có thể
Phân phối xác suất tìm được phải thỏa mãn các ràng buộc quan sát từ thực nghiệm
Trang 6Trong bài khóa luận này em tập trung trình bày, giới thiệu các định nghĩaliên quan đến Entropy của biến ngẫu nhiên, Entropy của một số phân phối, cácđịnh lý cơ bản về Entropy cực đại và ứng dụng nguyên lý Entropy cực đại để giảiquyết một số bài toán cơ bản Khóa luận được chia làm 2 chương.
Chương 1: Trong chương này em sẽ giới thiệu tổng quan về Entropy cũngnhư các mối quan hệ giữa chúng
Chương 2: Sẽ tập trung giới thiệu nguyên lý Entropy cực đại, một số định lý
về Entropy cực đại và bài toán ứng dụng
Trang 7Entropy, Entropy Tương Đối
Và Thông Tin Tương Hỗ
1.1 Entropy của biến ngẫu nhiên
1.1.1 Định nghĩa
Cho X là biến ngẫu nhiên rời rạc với không gian mẫu Ω(X) ={x1, x2, , xn, }
và hàm mật độ xác suất p(x i) = p(X =x i) Entropy được định nghĩa là:
Trang 8Entropy của một biến ngẫu nhiên là thước đo sự "bất định" của biến ngẫunhiên, nó đo lường số lượng thông tin trung bình để mô tả biến ngẫu nhiên.Quy ước: Ta có xlogx →0 khi x →0 nên quy ước 0log0 = 0.
là một biến cố chắc chắn nên lúc này không có độ bất định lượng thông tin trungbình lúc này là 0
Ví dụ 1.1.2 Giả sử phân phối xác suất các mặt xuất hiện khi gieo con xúc xắcđược cho bởi:
= 1,75.
Thông thường trong thông tin bài toán này chúng ta cần ít nhất 3bit nhưng phânphối xác suất là không đều nhau và bằng cách tính Entropy chúng ta biết đượcrằng chỉ cần 1,75 bit là có tể mã hóa thông tin trên, nó cho chúng ta biết chínhxác lượng bit cần thiết để mã hóa thông tin
Trang 90 nếu ngược lại
H(X) =−
Z b a
3x2log3x2dx=−
x3log3x2|10−
Z 1 0
Bổ đề 1.1.5 Cho 2 hàm phân phối xác suất p(xi) và q(xi) rời rạc trên tập
{x 1 , x 2 , , x n } với q(x i) >0 với ∀i. Khi đó ta có:
Trang 10p(x i)logq(x i),Dấu "=" xảy ra khi p(x i) =q(x i) với ∀ i (đpcm).
1.1.2 Entropy của một số phân phối thường dùng
1 Cho X có phân phối chuẩnN(µ, σ2) với hàm mật độ xác suấtp(x) = √1
p(x)logp(x)dx=−
Z ∞ 0
x λ
Trang 114 Cho X có phân phối Logictic với p(x) = 2b(e(x−µ)b +e−(x−µ)b )2 lúc đó Entropy của
Trang 12H(X) =−p
qlogq
1
λ2+x2log
1Π
1
λ2+x2dx
=log(4Πλ).
1.2 Entropy đồng thời và Entropy điều kiện
Định nghĩa 1 Entropy đồng thời H(X, Y) của biến ngẫu nhiên 2 chiều rời rạcvới hàm mật độ đồng thời p(x, y) được định nghĩa là:
Trang 13Khi đó Entropy của Y với điều kiện X là:
Với p(y | x) = p(x,y)p(x) .
Ví dụ 1.2.1 Giả sử X{trời nắng,mưa} của thành phố huế trong một ngày và
Y {trời nóng, lạnh} phân phối đồng thời P(X, Y) được cho bởi:
P(nắng, nóng) = 1
14P(nắng, lạnh) = 1
+1
4log
3 4 1 4
+ 1
4log
1 4 1 4
2log3).
Trang 14Ví dụ 1.2.2 Giả sử X và Y là hai đại lượng ngẫu nhiên có hàm mật độ đồng thờixác định bởi:
Z x 0
3xlog3xdxdy
=−
Z 1 0
Z x 0
3x(log3 +logx)dxdy=−
Z 1 0
Z x 0
(3xlog3 + 3xlogx)dxdy
=−
Z 1 0
dx(3xylog3 + 3xylogx)|x0 =−
Z 1 0
(3x2log3 + 3x2logx)dx
=−x3log3|10−
Z 1 0
3x2logxdx=−log3 +
Z 1 0
Z x 0
3xlog1
xdxdy =
Z 1 0
Z x 0
3xlogxdxdy = 3
2x
2 log3x|10−
Z 1 0
Trang 16H(Y) =− P L
j=1 p(yj)logp(yj) =− P M
i=1
P L j=1 p(xi, yj)log(yj).
Suy ra H(X) +H(Y) =− P M
i=1
P L j=1 p(xi, yj)[logp(xi) +logp(yj)].
Do đó H(X) +H(Y) =− P M
i=1
P L j=1 p(xi, yj)[logp(xi)p(yj)].
Trang 17Định lý 1.2.6 Gỉa sửX1, X2, , Xn có hàm mật độ đồng thờip(x1, x2, , xn)khi đó ta sẽ có:
1.3 Entropy tương đối và thông tin tương hỗ
Trong phần này chúng tôi giới thiệu hai khái niệm liên quan là entropy tươngđối và thông tin tương hỗ Entropy tương đối là độ đo khoảng cách giữa hai phânphối, D(p||q) với p là phân phối "thực" và q là một phân phối bất kỳ
Định nghĩa 3 Entropy tương đối hay khoảng cách Kull back - Leibler giữa haihàm phân phối xác suất p(x) và q(x) được định nghĩa là:
D(p||q) = X
x∈X
p(x) logp(x)
q(x).
Trang 18Trong định nghĩa trên chúng ta quy ước 0log0q = 0 và plogp0 =∞.
Tính chất: D(p||q)≥0 và dấu "=" xảy ra nếu và chỉ nếu p(x) =q(x).
Ví dụ 1.3.1 Giả sử biến ngẫu nhiên X nhận 2 giá tri 0 và 1 và xét 2 phân phối
Trang 19+ 1
2log
1 2 1 4
+ 1
4log
1 4
Trang 20Bây giờ chúng ta đưa vào khái niệm thông tin tương hỗ, thông tin tương hỗ là
độ đo lượng thông tin của một biến ngẫu nhiên có chứa thêm một biến ngẫu nhiênkhác.Nó làm giảm bớt tính "bất định" của một biến ngẫu nhiên dựa vào thông tincủa một biến ngẫu nhiên khác
Định nghĩa 5 Xét hai biến ngẫu nhiên X và Y với hàm mật độ xác suất đồngthời p(x,y) và hàm mật độ xác suất biên duyên p(x) và p(y)
Thông tin tương hổ I(X;Y) là độ đo cho ta biết biến ngẫu nhiên này chứa baonhiêu thông tin về biến ngẫu nhiên khác Nó được tính bởi Entropy tương đối giữaphân phối đồng thời và tích số của phân phối biên duyên p(x).p(y) nghĩa là:
Định nghĩa 6 Thông tin tương hổ có điều kiện của biến ngẫu nhiên ,biến số X
và Y cho Z được định nghĩa là:
Trang 22Ví dụ 1.3.4 Gải sử (X,Y) có phân phối đồng thời là:
+ 1
3log
2 3 1 3
+ 0 + 1
3log
2 3 1 3
+ 1
3log
2 3 1 3
+ 0 + 1
3log
1 3 1 3
Trang 231 3
+1
3log
1 3 2 3
2 3
+ 0 + 1
3log
1 3 1 3
2 3
=log3−4
3.
Trang 24Một Số Kết Quả Của
Entropy Cực Đại
2.1 Nguyên Lý Entropy Cực Đại
Nguyên lý Entropy cực đại là phương pháp giải các bài toán mà chúng ta thiếuthông tin về chúng, nguyên lý rất đơn giản dựa vào các tập ràng buộc, chúng talựa chọn một phân phối xác suất mà nó phù hợp với tất cả các ràng buộc của bàitoán và đều nhất có thể hay tính bất định là lớn nhất, mà không cần đưa thêmbất kỳ một ràng buộc nào khác
2.1.1 Định Lý Cơ Bản Về Entropy Cực Đại
Định lý 2.1.1 Cho p có hàm mật độ xác suất rời rạc trên tập hữu hạn{x1, , xn}.
Khi đó:
H(p)≤logn.
Dấu "=" chỉ xảy ra nếu và chỉ nếu p có phân phối đều tức là p(xi) = n1 với ∀i Định Lý này cho thấy Entropy đạt cực đại khi xác suất xuất hiện các giá trị làbằng nhau
Định lý 2.1.2 Cho p có hàm mật độ xác suất liên tục trên R với phương sai σ2
Trang 25Dấu"=" chỉ xảy ra nếu và chỉ nếu p là phân phối chuẩn với phương sai σ2.
Định lý 2.1.3 Cho p có hàm mật độ xác suất liên tục X trên (0, ∞) với kỳ vọng
λ. Khi đó ta có:
H(p)≤1 + logλ.
Dấu "=" chỉ xảy ra nếu và chỉ nếu p có phân phối mũ Exp(λ).
Để chứng minh 3 định lý trên chúng ta thông qua các bổ đề sau:
"=" chỉ xảy ra nếu và chỉ nếu x=y (đpcm)
Bổ đề 2.1.5 Cho p(x) và q(x) là hàm mật độ xác suất liên tục trên R và giả sử
q(x) >0 với ∀x
Nếu:
− Z
R
p(x)logq(x) = H(q).
Thì H(p) ≤ H(q) hay − R
R p(x)logp(x)dx ≤ −RRp(x)logq(x)dx.
Trang 28Z ∞ 0
p(x)logq(x)dx=−
Z ∞ 0
p(x)(logλ+ x
λ)dx
=
Z ∞ 0
p(x)logλdx+
Z ∞ 0
p(x)logp(x)dx ≤ −
Z ∞ 0
Trang 29Chứng minh:
Cho p(x) là hàm mật độ xác suất liên tục trên R và chọn hàm mật độ xác suất
q(x) = 2λ1 e−|x|λ ta có:
− Z
p(x)logp(x)dx ≤ −
Z ∞ 0
Trang 30Dấu "=" xảy ra nếu và chỉ nếu p(x) có phân phối logistic với hàm phân phốixác suất p(x) = 2b(e(x−µ)b +e−(x−µ)b )2
R
p(x)(log2(y2+ 1)2− logby2)dx
=− Z
Trang 31mà đáp ứng các điều kiện P qjEj =< E > và có entropy cực đại, nó được cho bởicông thức:
qj = e
−βE j
P n i=1 e−βEi
Với β là số thực trên R = [−∞;∞] phụ thuộc vào <E>
Đặc biệt:
• β =−∞ tương ứng với < E >=maxEj.
• β =∞ tương ứng với < E >=minEj.
• β = 0 tương ứng với trung bình cộng < E >= P Ej
2.2.1 Bài toán con xúc xắc
Trở lại bài toán ví dụ ban đầu xét quá trình ngẫu nhiên gieo 1 con xúc xắc đồngchất cân đối Quan sát 1000 lần thử bình quân các điểm xuất hiện là 4,7 điểm.Chúng ta muốn ước lượng phân phối xác suất của các mặt xúc xắc ,ở đây khônggian mẫu là {1,2,3,4,5,6}
Chúng ta không biết được phân phối xác suất xuất hiện của các mặt nhưngchúng ta hy vọng nó không phải là phân phối đều vì trong phân phối đều bìnhquân các điểm xuất hiện là 3,5 điểm chứ không phải là 4,7 điểm
Dự đoán tốt nhất cho phân phối xác suất là gì ?
Bằng nguyên lý của entropy cực đại và định lý 2.1.8 chúng ta có thể dự đoántốt nhất q(β0) với β0 được chọn sao cho:
Trang 32P 6 i=1 e −β 0 i = 4,7.
Ta có thể dễ dàng giải được phương trình bằng các phương pháp gần đúng ta
sẽ có β0 =−0,4632823, entropy cực đại của toàn phân phối ta sẽ có được:
q1'0,039;q2 '0,062;q3'0,098;q4 '0,157;q5'0,249;q6 '0,395.
2.2.2 Bài toán Berger’s Burges
Xét bài toán Berger’s Burges.Cho bảng số liệu sau:
Món ăn Chi phíBurger 1 $
Giờ ta muốn biết được xác suất khách vào cửa hàng gọi một trong ba món trên
là bao nhiêu thì chúng ta phải làm thế nào:
Trong mô hình trên ta thấy khi khách vào cửa hàng thì sẽ gọi một trong bamón là Buger, gà hoặc cá Gọi xác suất khách vào cửa hàng gọi 1 trong 3 món lầnlượt là p(B), p(C), p(F) và lúc đó ta sẽ có:
p(B) +p(C) +p(F) = 1. (2.3)
Ta thấy rằng rất nhiều nghiệm thỏa mãn phương trình (2.3) chẳng hạn nếu tất
cả khách vào cửa hàng đều gọi duy nhất một món là Buger thì lúc đó p(B) = 1còn các xác suất còn lại bằng 0 lúc đó chúng ta sẽ biết được chính xác trạng tháitrong hệ thống
Giả sử bây giờ ta biết rằng giá trị trung bình của các bữa ăn của khách là 1,75
$ lúc này chúng ta có thêm một ràng buộc mới đó là:
Trang 33Ta thấy rằng có 3 ẩn chưa biết và duy nhất 2 phương trình không đủ thông tin
để giải quyết các ẩn chưa biết
Để giải các ẩn chưa biết chúng ta sẽ dùng nguyên lý Entropy cực đại lúc đó độ bấtđịnh về sự phân bố xác suất chính là Entropy
Trang 34Có rất nhiều các gía trị xác suất là phù hợp với các ràng buộc trên, nguyên lýEntropy cực đại nêu quan điểm khá rõ ràng rằng chúng ta nên chọn phân phối xácsuất nào để tính bất định là lớn nhất (Tức S là lớn nhất) phù hợp với các ràngbuộc mà chúng ta có Chúng ta có thể tìm được giá trị p(F) mà trong đó S là lớnnhất.
Trong trường hợp này bằng cách sử dụng maple ta biết rằng cực đại xuất hiệnkhi p(F) = 0,216 và p(B) = 0,466, p(C) = 0,318 và S= 1,517 bit
Nguyên lý Entropy cực đại cho phép ta tìm ra phân phối xác suất phù hợp vớinhững ràng buộc của bài toán và có tính bất định lớn nhất mà không đưa thêmbất kỳ một ràng buộc nào khác
Trang 35KẾT LUẬN
Nguyên lý Entropy cực đại ngày càng được sử dụng rộng rãi trong tất cả cáclĩnh vực của đời sống xã hội Trong bài khóa luận này em đã trình bày các địnhnghĩa, định lý liên quan đến Entropy của biến ngẫu nhiên và mối quan hệ giữachúng Giới thiệu về nguyên lý Entropy cực đại đặc biệt là trong một số định lý cơbản, bên cạnh đó còn giới thiệu một số bài toán cũng như phương pháp giải bằngnguyên lý Entropy cực đại
Trong suốt quá trình thực hiện không tránh khỏi những thiếu sót rất mongnhận được sự góp ý của thầy cô và các bạn
Trang 36Tài liệu tham khảo
[1] Lê Quyết Thắng, Phan Tấn Tài, Dương Văn Hiếu, Giáo trình lý thuyếtthông tin, Đại Học Cần Thơ biên soạn, 2007
[2] Nguyễn Phương Thái, Lý thuyết thông tin, Đại Học Công Nghệ Hà Nội,2011
[3] Hồ Văn Quân, Lý thuyết thông tin, ĐH Bách Khoa TPHCM, 2010
[4] Claude Elwood Shannon, A Mathematical theory of Communication, 1948.[5] A L Berger, S A D Pietra, V J D Pietra , A Maximum EntropyApproach to Natural Language Processing Computational Linguistics., 1996.[6] M Cover, Joy A, Elements of Information Theory, 1991
[7] Erik G Learned-Miller, Entropy and Mutual Information, University ofMassachusetts, Amherst Amherst, MA 01003, 2011
[8] Keith Cornad, Probability Ditribution and Maximum Entropy.2004
[9] David J.C MacKay , Information Theory, Learning, and Inference rithms., Cambridge University Press, 2005