Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
1,6 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Quang Dũng MÔ HÌNH MAXIMUM ENTROPY VÀ ỨNG DỤNG KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Công Nghệ Thông Tin HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Quang Dũng MÔ HÌNH MAXIMUM ENTROPY VÀ ỨNG DỤNG KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Cán bộ hướng dẫn:Lê Anh Cường HÀ NỘI - 2010 TÓM TẮT NỘI DUNG !!"#$%&&'()*+,-./ )/*0 #1,%&&2345 6/*07(8!',%&& 9:(;6/*0 ;23<6/*0=>*5 4*0-$?@'';!+ A2B>!C*0:/ - 9DA 4<- >9 !E!('F3 !(/+0/G!C,/ />7H?2 /!5 &5!4!;4& #$ 48#*I4/7(-3>#,5# /!!'/!2J9*8#*I4:>#!K&77H ?>#!K&72 L<!5%&&M**0!E!(62N K&7>#!8'!M*0!5'#O# <97'<P< 23*I4:>#!K&7&)9@:*0 K&79>#!8'!2Q,9R@)*+9/)*0 K&79>#!S0!!J*+/T ,72 i LỜI CẢM ƠN U8"/+(I !V'WXYNLZ[\N]. 5$*#M>,@^&!6+; 2 U8 (IE!GZ<ZN. !;<-AE!G7!@&)JE!2 Z@89/,/_7-I6`Q ZBa/!/ !=> ,9,7**+)'@2 b (I1 77c.>@^ >, @&+)5 ,A!2 B:#S&.6V /!5 <(d *VV<<C-!92U<?5*0( 54e7(E!GZ 72 L >fghifjf k, l!mR ii Mục lục Chương 1: Tổng quát 1 1.1 Đặt vấn đề 1 1.2 Giới thiệu mô hình cực đại entropy 2 1.3 Mục tiêu của luận văn 3 Chương 2: Các phương pháp phân loại văn bản 5 2.1 Cái nhìn tổng quát về các phương pháp phân loại văn bản 5 2.2 Mô tả bài toán phân loại văn bản 5 2.3 Biểu diễn văn bản 6 2.4 Các phương pháp phân loại văn bản 7 2.4.1 Naïve Bayes (NB) 7 2.4.2 k-Nearest Neighbor (kNN) 8 2.4.3 Linear Least Square Fit (LLSF) 9 2.4.4 Support Vector Machine (SVM) 10 Chương 3: Mô hình cực đại entropy 12 3.1 Tổng quát mô hình cực đại entropy 12 3.2 Mô hình cực đại entropy 15 3.2.1 Dữ liệu huấn luyện 15 3.2.2 Thống kê, đặc trưng và ràng buộc 16 3.2.3 Nguyên lý cực đại entropy 17 3.2.4 Tham số hình thức 18 3.2.5 Mối quan hệ với cực đại Likelihood 20 3.2.6 Tính các tham số 20 3.3 Lựa chọn đặc trưng 22 3.3.1 Ý nghĩa của việc lựa chọn đặc trưng 22 3.3.2 Cơ sở lựa chọn đặc trưng 24 3.3.3 Giá trị gần đúng 26 Chương 4: Thực nghiệm phân loại văn bản 28 4.1 Thống kê kết quả thực nghiệm 28 iii 4.2 Các thành phần và chức năng của chương trình 33 4.2.1 Chức năng huấn luyện 33 4.2.2 Chức năng kiểm thử 35 4.2.3 Chức năng gán nhãn 36 4.3 Ứng dụng chặn nội dung web 38 4.3.1 Kỹ thuật lọc web Blue Coat 38 4.3.2 Chức năng ứng dụng chặn nội dung web 39 Chương 5: Kết luận 43 5.1 Kết quả đạt được 43 5.2 Những hạn chế và hướng giải quyết 44 Tài liệu tham khảo 45 Phụ lục 47 iv Danh sách hình L4i2jnZ*0<_/ &o0222222222222222222222222222222222222jf L4p2jnW):*2222222222222222222222222222222222222222222222222222222222222222222222222222222222iq L4p2i/r/<&/#*07!#O* /=i62222222222222222222222222222is L4q2jn]#A!'/!22222222222222222222222222222222222222222222222222222222222222pq L4q2in]#A<"22222222222222222222222222222222222222222222222222222222222222222pg L4q2pn]#A.22222222222222222222222222222222222222222222222222222222222222222pt L4q2qn]#!2222222222222222222222222222222222222222222222222222222222222222222222222222222222ps L4q2un]#:>#!K&72222222222222222222222222222222222222222222222222222222222222222222qj L4q2gnZ"D&2222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222qi L4q2tnZ"D!22222222222222222222222222222222222222222222222222222222222222222222222222222222222222qp v Danh sách bảng Q(q2jnk6/*0v/&#/!!'/!222222222222222222222222222222222222222222222222222222iw Q(q2ink6/*0v/&#/!<"222222222222222222222222222222222222222222222222222222222pf Q(q2pnB(#!'/!22222222222222222222222222222222222222222222222222222222222222222222pu Q(q2qnx-E!(!'/!222222222222222222222222222222222222222222222222222222222222222222222222222222222pu Q(q2unB(A<"2222222222222222222222222222222222222222222222222222222222222222222222pg Q(q2gnx-E!(<"222222222222222222222222222222222222222222222222222222222222222222222222222222222222pt Q(q2tnx-E!(.222222222222222222222222222222222222222222222222222222222222222222222222222222222222ps Q(q2snZA#:>#!K&722222222222222222222222222222222222222222222222qi vi Chương 1: Tổng quát 1.1 Đặt vấn đề +7SD /!'#*06 9 # /!*0/*!,?- /!' =<;2 /!6*!)a#O7(E!(/*!*0/!#O # y77c9"D222. z,D7- #$234 5 6/*0 /!6-9:23><6/*0/ /!6*5/ @9/)*0 /! ->$? 9@F Z!(/+9/ /7(>{B>*I49> /7(&;$2x9@@*0>#! /!&@$?"#$23><6/*0<D/= /!624 /7(>@@-<*0';!+ A4<-2 &|}b!~jwww•€3/7(>/ . //,>7(#,A>*I7(9 7(.*0.5!'/!•2 m,6<,|}b! /!<>6*I / #$ / n N‚& Q& ƒQ<&}B//! ifff„ <rN&& N&7ƒ|jwwq„ W&W&kE!&… ƒ|}Z!&jwwq„k! 3&B&ƒ†jwws„jwws„B8!UƒQ&&jwwg m&// ‡&jwwt„2Z*I;!# 8!'6<,:;) 6J7(2Z-;*I*047 chương 22 /7(-Y<-E!(// '<(E!2Z_6 -3M_;!-2L-;:n-Y1TJ/ >50<G9T @*07!7z<(V23? #$n!&K#&/#v222m9J6-Y/ 'I (2!,-3481Jz,<9<I2ZJ <(*081# <(V 9$!> (23?#$ 1 J!n€-•€;•€-7•€E!•222L-;5#/!!' /! <"!ˆ222 !,R.9;! ,A!/T *0 <-E!(7!*ƒL!Pl!-V ‰1‡*Ijwww„ƒN!OW ] N!OBLiffu„2Z*-57=n/G!-=1ƒ‰o Q?miffq„"#$/G!-5ƒN!ON)Q4iffq„6<, ƒN!OW] N!Om!L(jwww„)< e$ ƒL!Pl!-V ‰1‡*Ijwww„2 W!5/ >99-$,A!/G!- 6/7(-32‡*I/ *0,A!/!5/ 4&ƒQ&&jwwg m&// ‡&jwwt„2 1.2 Giới thiệu mô hình cực đại entropy B4&/ *I/7(*0"#$>. ;!/T8"/G,*n49ƒZ& Š&v&/#jwww„.J/ƒŠ<jwwg„/7(ƒQ&&v& jwww„2 B4&/ <‹!5#S68!'# /!7(2**z?*I/ 4*7-:<Œ 4<97'<P(14~9>o/•2A/ :>6 ;!/,<*7-2m/!.*0.*0"#$/'5 7!>4 9(:,J/$9*0 7(/2Z!6S!5%%k46 9C. 7!>.* C.&68!'/ ;!'2 ‰9#$*05%%k,7(/2Q*!, (/ !7(z#!o<G &: *2 B>-!6E!4!'/!4&?/ /)&:*J/2Z&:* (,!(*0 2 [...]... Chương 3: Mô hình cực đại entropy Dựa trên tài liệu mô hình cực đại entropy của [Adam L Berger & Stephen A Della Pietra & Vincent J Della Pietra, 1996] và một số nguồn khác Dưới đấy là những cơ sở lý thuyết cơ bản về mô hình cực đại entropy Về cách xây dựng mô hình, nguyên lý cực đại entropy, cách tính các phân phối xác suất và thuật toán tính trọng số cũng như lựa chọn các đặc trưng cho bài toán phân... với nhau Mô hình cực đại entropy có được tối ưu hay không là phụ thuộc rất nhiều vào việc lựa chọn này Ưu điểm lớn nhất của mô hình cực đại entropy là tính mềm dẻo của mô hình: nó cung cấp một hệ thống các quy luật có tính thống kê ngẫu nhiên để bổ sung các cú pháp, ngữ nghĩa và căn cứ vào các vector đặc trưng Tuy nhiên, mô hình cực đại entropy đòi hỏi một chi phí khá lớn cho việc tính toán để ước... toán IIS để tính toán các tham số 2.3 Biểu diễn văn bản Bước đầu tiên của các phương pháp phân loại văn bản là chuyển việc mô tả văn bản dùng chuỗi ký tự thành dạng mô tả khác phù hợp với các thuật toán Hầu hết các thuật toán đều sử dụng cách biểu diễn theo vector đặc trưng, khác nhau chủ yếu ở việc lựa chọn không gian đặc trưng Cụ thể với mô hình cực đại entropy, thuật toán IIS chỉ có thể tính toán... p* € C với cực đại entropy là mô hình trong đó họ tham số p λ(y|x) mà nó cực đại likelihood của xác suất mẫu huấn luyện pp Kết quả này giúp làm tăng thêm tính đúng đắn cho nguyên lý cực đại entropy: khi quan niệm việc lựa chọn xác suất mô hình p* trên cơ sở cực đại entropy là không đủ sức thuyết phục, điêu xảy ra với cùng một xác suất p* là một mô hình mà nó, trong số toàn bộ các mô hình của cùng một... lại; xác suất mô hình p* trong C với entropy lớn nhất phản ánh sự hiểu biết tăng mãi mãi và vì vậy việc miêu tả bài toán sẽ trở nên chính xác hơn.Điều này giúp cho không gian chấp nhận được của các mô hình được thu hẹp hơn Có lẽ trực quan hơn, chúng ta có thể miêu tả nó bằng một loạt các tập con được đạt vào P như hình sau: 23 Hình 3.1: Lựa chọn đặc trưng (trích dẫn: trang 12 quyển A Maximum Entropy Approach... biệt được các mô hình có dạng (24) là α Trong số các mô hình đó, chúng ta quan tâm tới mô hình mà nó làm tăng tính gần đúng G S , f (α ) = L( PSα f ) − L( PS ) , ~ = − ∑ x ~ ( x) log Z α ( x) + α E ( f ) p Chúng ta sẽ biểu diễn sự tăng thêm của mô hình này bởi: 26 (26) ~ ∆ L( S , f ) = max α G S , f (α ) (27) và mô hình tối ưu bởi: ~ PS ∪ f = arg max G S , f (α ) trên pαS,f (28) Tính toán giá trị gần... của mô hình cực đại entropy Tham số hình thức và cách tính toán các tham số đó Ý nghĩa và cơ sở của việc lựa chọn các đặc trưng sao cho hiệu quả nhất Từ đó áp dụng lý thuyết vào bài toán phân loại văn bản tiếng Việt và ứng dụng chặn nội dung web trên cơ sở phân loại nội dung trang web (dựa vào bài toán phân loại văn bản) Để hiểu sâu sắc thuật toán, luận văn đề ra mục tiêu xây dựng từ đầu thuật toán mô. .. nói cách khác, mô hình luôn luôn dự đoán đó là “dans” Mô hình khác tuân theo ràng buộc này dự đoán “pendant” với xác suất là ½, và “à” với xác suất là ½ Nhưng theo cảm giác của chúng ta thì cả hai mô hình này đều không ổn cho lắm: hệ thống dịch luôn luôn lựa chọn 1 trong số 5 từ (cụm từ) tiếng Pháp, và làm thế nào chúng ta có thể chứng minh mỗi phân phối xác suất 12 đó là đúng? Mỗi mô hình mới chỉ dừng... với các đặc trưng có hiệu lực Sυf p Như công thức (19), tập đặc trưng này quyết định tập các mô hình: 24 f C(S U f)f = {p € P | E(f) = Ẽ(f) với mọi f € S U f} (21) Mô hình tối ưu trong không gian mô hình này là: Ps∪ ~ = arg max p∈C ( S ∪ ~ ) H ( p) f f (22) Thêm đặc trưng f p cho phép mô hình p sυf p tính toán tốt hơn với mẫu huấn luyện; điều này dẫn đến việc thu được ∆L(S,f p) từ log-likelihood của... Entropy là bị chặn dưới bởi 0, entropy của mô hình không có sự không chắc chắn nào, và chặn trên bởi log|Y|, entropy của phân phối ngang bằng nhau trên toàn bộ các giá trị có thể |Y| của y Với định nghĩa này, chúng ta đã sẵn sàng để biểu diễn nguyên lý của cực đại entropy: Để lựa chọn mô hình từ một tập C các phân phối xác suất được chấp nhận, lựa chọn mô hình p* € C với cực đại entropy H(p): p* = arg max . 9 2.4.4 Support Vector Machine (SVM) 10 Chương 3: Mô hình cực đại entropy 12 3.1 Tổng quát mô hình cực đại entropy 12 3.2 Mô hình cực đại entropy 15 3.2.1 Dữ liệu huấn luyện 15 3.2.2 Thống. Dũng MÔ HÌNH MAXIMUM ENTROPY VÀ ỨNG DỤNG KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Công Nghệ Thông Tin HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Quang Dũng MÔ HÌNH. thiệu mô hình cực đại entropy 2 1.3 Mục tiêu của luận văn 3 Chương 2: Các phương pháp phân loại văn bản 5 2.1 Cái nhìn tổng quát về các phương pháp phân loại văn bản 5 2.2 Mô tả bài toán phân