đồ án tốt nghiệp mô hình maximum entropy

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Quang Dũng MÔ HÌNH MAXIMUM ENTROPY VÀ ỨNG DỤNG KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Công Nghệ Thông Tin HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Quang Dũng MÔ HÌNH MAXIMUM ENTROPY VÀ ỨNG DỤNG KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Cán bộ hướng dẫn:Lê Anh Cường HÀ NỘI - 2010 TÓM TẮT NỘI DUNG  !!"#$%&&'()*+,-./ )/*0 #1,%&&2345 6/*07(8!',%&& 9:(;6/*0 ;23<6/*0=>*5 4*0-$?@'';!+  A2B>!C*0:/ - 9DA 4<- >9 !E!('F3 !(/+0/G!C,/  />7H?2 /!5 &5!4!;4& #$ 48#*I4/7(-3>#,5# /!!'/!2J9*8#*I4:>#!K&77H ?>#!K&72 L<!5%&&M**0!E!(62N K&7>#!8'!M*0!5'#O#  <97'<P<  23*I4:>#!K&7&)9@:*0 K&79>#!8'!2Q,9R@)*+9/)*0 K&79>#!S0!!J*+/T ,72 i LỜI CẢM ƠN U8"/+(I  !V'WXYNLZ[\N]. 5$*#M>,@^&!6+; 2 U8 (IE!GZ<ZN. !;<-AE!G7!@&)JE!2 Z@89/,/_7-I6`Q ZBa/!/ !=> ,9,7**+)'@2 b (I1 77c.>@^ >, @&+)5 ,A!2 B:#S&.6V  /!5 <(d *VV<<C-!92U<?5*0(  54e7(E!GZ 72 L >fghifjf  k, l!mR ii Mục lục Chương 1: Tổng quát 1 1.1 Đặt vấn đề 1 1.2 Giới thiệu mô hình cực đại entropy 2 1.3 Mục tiêu của luận văn 3 Chương 2: Các phương pháp phân loại văn bản 5 2.1 Cái nhìn tổng quát về các phương pháp phân loại văn bản 5 2.2 Mô tả bài toán phân loại văn bản 5 2.3 Biểu diễn văn bản 6 2.4 Các phương pháp phân loại văn bản 7 2.4.1 Naïve Bayes (NB) 7 2.4.2 k-Nearest Neighbor (kNN) 8 2.4.3 Linear Least Square Fit (LLSF) 9 2.4.4 Support Vector Machine (SVM) 10 Chương 3: Mô hình cực đại entropy 12 3.1 Tổng quát mô hình cực đại entropy 12 3.2 Mô hình cực đại entropy 15 3.2.1 Dữ liệu huấn luyện 15 3.2.2 Thống kê, đặc trưng và ràng buộc 16 3.2.3 Nguyên lý cực đại entropy 17 3.2.4 Tham số hình thức 18 3.2.5 Mối quan hệ với cực đại Likelihood 20 3.2.6 Tính các tham số 20 3.3 Lựa chọn đặc trưng 22 3.3.1 Ý nghĩa của việc lựa chọn đặc trưng 22 3.3.2 Cơ sở lựa chọn đặc trưng 24 3.3.3 Giá trị gần đúng 26 Chương 4: Thực nghiệm phân loại văn bản 28 4.1 Thống kê kết quả thực nghiệm 28 iii 4.2 Các thành phần và chức năng của chương trình 33 4.2.1 Chức năng huấn luyện 33 4.2.2 Chức năng kiểm thử 35 4.2.3 Chức năng gán nhãn 36 4.3 Ứng dụng chặn nội dung web 38 4.3.1 Kỹ thuật lọc web Blue Coat 38 4.3.2 Chức năng ứng dụng chặn nội dung web 39 Chương 5: Kết luận 43 5.1 Kết quả đạt được 43 5.2 Những hạn chế và hướng giải quyết 44 Tài liệu tham khảo 45 Phụ lục 47 iv Danh sách hình L4i2jnZ*0<_/ &o0222222222222222222222222222222222222jf L4p2jnW):*2222222222222222222222222222222222222222222222222222222222222222222222222222222222iq L4p2i/r/<&/#*07!#O* /=i62222222222222222222222222222is L4q2jn]#A!'/!22222222222222222222222222222222222222222222222222222222222222pq L4q2in]#A<"22222222222222222222222222222222222222222222222222222222222222222pg L4q2pn]#A.22222222222222222222222222222222222222222222222222222222222222222pt L4q2qn]#!2222222222222222222222222222222222222222222222222222222222222222222222222222222222ps L4q2un]#:>#!K&72222222222222222222222222222222222222222222222222222222222222222222qj L4q2gnZ"D&2222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222qi L4q2tnZ"D!22222222222222222222222222222222222222222222222222222222222222222222222222222222222222qp v Danh sách bảng Q(q2jnk6/*0v/&#/!!'/!222222222222222222222222222222222222222222222222222222iw Q(q2ink6/*0v/&#/!<"222222222222222222222222222222222222222222222222222222222pf Q(q2pnB(#!'/!22222222222222222222222222222222222222222222222222222222222222222222pu Q(q2qnx-E!(!'/!222222222222222222222222222222222222222222222222222222222222222222222222222222222pu Q(q2unB(A<"2222222222222222222222222222222222222222222222222222222222222222222222pg Q(q2gnx-E!(<"222222222222222222222222222222222222222222222222222222222222222222222222222222222222pt Q(q2tnx-E!(.222222222222222222222222222222222222222222222222222222222222222222222222222222222222ps Q(q2snZA#:>#!K&722222222222222222222222222222222222222222222222qi vi Chương 1: Tổng quát 1.1 Đặt vấn đề +7SD /!'#*06 9 # /!*0/*!,?- /!' =<;2 /!6*!)a#O7(E!(/*!*0/!#O # y77c9"D222.  z,D7- #$234 5 6/*0 /!6-9:23><6/*0/  /!6*5/  @9/)*0 /! ->$? 9@F Z!(/+9/ /7(>{B>*I49> /7(&;$2x9@@*0>#!  /!&@$?"#$23><6/*0<D/= /!624 /7(>@@-<*0';!+ A4<-2 &|}b!~jwww•€3/7(>/ . //,>7(#,A>*I7(9 7(.*0.5!'/!•2 m,6<,|}b!  /!<>6*I /    #$     / n  N‚&  Q&  ƒQ<&}B//! ifff„ <rN&& N&7ƒ|jwwq„ W&W&kE!&… ƒ|}Z!&jwwq„k! 3&B&ƒ†jwws„jwws„B8!UƒQ&&jwwg m&// ‡&jwwt„2Z*I;!# 8!'6<,:;) 6J7(2Z-;*I*047 chương 22 /7(-Y<-E!(// '<(E!2Z_6 -3M_;!-2L-;:n-Y1TJ/ >50<G9T @*07!7z<(V23? #$n!&K#&/#v222m9J6-Y/ 'I (2!,-3481Jz,<9<I2ZJ <(*081# <(V 9$!> (23?#$ 1 J!n€-•€;•€-7•€E!•222L-;5#/!!' /! <"!ˆ222 !,R.9;! ,A!/T  *0 <-E!(7!*ƒL!Pl!-V ‰1‡*Ijwww„ƒN!OW ] N!OBLiffu„2Z*-57=n/G!-=1ƒ‰o Q?miffq„"#$/G!-5ƒN!ON)Q4iffq„6<, ƒN!OW] N!Om!L(jwww„)< e$ ƒL!Pl!-V ‰1‡*Ijwww„2 W!5/ >99-$,A!/G!-  6/7(-32‡*I/ *0,A!/!5/ 4&ƒQ&&jwwg m&// ‡&jwwt„2 1.2 Giới thiệu mô hình cực đại entropy B4&/ *I/7(*0"#$>. ;!/T8"/G,*n49ƒZ& Š&v&/#jwww„.J/ƒŠ<jwwg„/7(ƒQ&&v& jwww„2 B4&/ <‹!5#S68!'# /!7(2**z?*I/ 4*7-:<Œ  4<97'<P(14~9>o/•2A/ :>6 ;!/,<*7-2m/!.*0.*0"#$/'5  7!>4 9(:,J/$9*0 7(/2Z!6S!5%%k46 9C.  7!>.* C.&68!'/ ;!'2 ‰9#$*05%%k,7(/2Q*!, (/ !7(z#!o<G &: *2 B>-!6E!4!'/!4&?/  /)&:*J/2Z&:* (,!(*0 2 [...]... Chương 3: Mô hình cực đại entropy Dựa trên tài liệu mô hình cực đại entropy của [Adam L Berger & Stephen A Della Pietra & Vincent J Della Pietra, 1996] và một số nguồn khác Dưới đấy là những cơ sở lý thuyết cơ bản về mô hình cực đại entropy Về cách xây dựng mô hình, nguyên lý cực đại entropy, cách tính các phân phối xác suất và thuật toán tính trọng số cũng như lựa chọn các đặc trưng cho bài toán phân... với nhau Mô hình cực đại entropy có được tối ưu hay không là phụ thuộc rất nhiều vào việc lựa chọn này Ưu điểm lớn nhất của mô hình cực đại entropy là tính mềm dẻo của mô hình: nó cung cấp một hệ thống các quy luật có tính thống kê ngẫu nhiên để bổ sung các cú pháp, ngữ nghĩa và căn cứ vào các vector đặc trưng Tuy nhiên, mô hình cực đại entropy đòi hỏi một chi phí khá lớn cho việc tính toán để ước... toán IIS để tính toán các tham số 2.3 Biểu diễn văn bản Bước đầu tiên của các phương pháp phân loại văn bản là chuyển việc mô tả văn bản dùng chuỗi ký tự thành dạng mô tả khác phù hợp với các thuật toán Hầu hết các thuật toán đều sử dụng cách biểu diễn theo vector đặc trưng, khác nhau chủ yếu ở việc lựa chọn không gian đặc trưng Cụ thể với mô hình cực đại entropy, thuật toán IIS chỉ có thể tính toán... p* € C với cực đại entropy là mô hình trong đó họ tham số p λ(y|x) mà nó cực đại likelihood của xác suất mẫu huấn luyện pp Kết quả này giúp làm tăng thêm tính đúng đắn cho nguyên lý cực đại entropy: khi quan niệm việc lựa chọn xác suất mô hình p* trên cơ sở cực đại entropy là không đủ sức thuyết phục, điêu xảy ra với cùng một xác suất p* là một mô hình mà nó, trong số toàn bộ các mô hình của cùng một... lại; xác suất mô hình p* trong C với entropy lớn nhất phản ánh sự hiểu biết tăng mãi mãi và vì vậy việc miêu tả bài toán sẽ trở nên chính xác hơn.Điều này giúp cho không gian chấp nhận được của các mô hình được thu hẹp hơn Có lẽ trực quan hơn, chúng ta có thể miêu tả nó bằng một loạt các tập con được đạt vào P như hình sau: 23 Hình 3.1: Lựa chọn đặc trưng (trích dẫn: trang 12 quyển A Maximum Entropy Approach... biệt được các mô hình có dạng (24) là α Trong số các mô hình đó, chúng ta quan tâm tới mô hình mà nó làm tăng tính gần đúng G S , f (α ) = L( PSα f ) − L( PS ) , ~ = − ∑ x ~ ( x) log Z α ( x) + α E ( f ) p Chúng ta sẽ biểu diễn sự tăng thêm của mô hình này bởi: 26 (26) ~ ∆ L( S , f ) = max α G S , f (α ) (27) và mô hình tối ưu bởi: ~ PS ∪ f = arg max G S , f (α ) trên pαS,f (28) Tính toán giá trị gần... của mô hình cực đại entropy Tham số hình thức và cách tính toán các tham số đó Ý nghĩa và cơ sở của việc lựa chọn các đặc trưng sao cho hiệu quả nhất Từ đó áp dụng lý thuyết vào bài toán phân loại văn bản tiếng Việt và ứng dụng chặn nội dung web trên cơ sở phân loại nội dung trang web (dựa vào bài toán phân loại văn bản) Để hiểu sâu sắc thuật toán, luận văn đề ra mục tiêu xây dựng từ đầu thuật toán mô. .. nói cách khác, mô hình luôn luôn dự đoán đó là “dans” Mô hình khác tuân theo ràng buộc này dự đoán “pendant” với xác suất là ½, và “à” với xác suất là ½ Nhưng theo cảm giác của chúng ta thì cả hai mô hình này đều không ổn cho lắm: hệ thống dịch luôn luôn lựa chọn 1 trong số 5 từ (cụm từ) tiếng Pháp, và làm thế nào chúng ta có thể chứng minh mỗi phân phối xác suất 12 đó là đúng? Mỗi mô hình mới chỉ dừng... với các đặc trưng có hiệu lực Sυf p Như công thức (19), tập đặc trưng này quyết định tập các mô hình: 24 f C(S U f)f = {p € P | E(f) = Ẽ(f) với mọi f € S U f} (21) Mô hình tối ưu trong không gian mô hình này là: Ps∪ ~ = arg max p∈C ( S ∪ ~ ) H ( p) f f (22) Thêm đặc trưng f p cho phép mô hình p sυf p tính toán tốt hơn với mẫu huấn luyện; điều này dẫn đến việc thu được ∆L(S,f p) từ log-likelihood của... Entropy là bị chặn dưới bởi 0, entropy của mô hình không có sự không chắc chắn nào, và chặn trên bởi log|Y|, entropy của phân phối ngang bằng nhau trên toàn bộ các giá trị có thể |Y| của y Với định nghĩa này, chúng ta đã sẵn sàng để biểu diễn nguyên lý của cực đại entropy: Để lựa chọn mô hình từ một tập C các phân phối xác suất được chấp nhận, lựa chọn mô hình p* € C với cực đại entropy H(p): p* = arg max . 9 2.4.4 Support Vector Machine (SVM) 10 Chương 3: Mô hình cực đại entropy 12 3.1 Tổng quát mô hình cực đại entropy 12 3.2 Mô hình cực đại entropy 15 3.2.1 Dữ liệu huấn luyện 15 3.2.2 Thống. Dũng MÔ HÌNH MAXIMUM ENTROPY VÀ ỨNG DỤNG KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Công Nghệ Thông Tin HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Quang Dũng MÔ HÌNH. thiệu mô hình cực đại entropy 2 1.3 Mục tiêu của luận văn 3 Chương 2: Các phương pháp phân loại văn bản 5 2.1 Cái nhìn tổng quát về các phương pháp phân loại văn bản 5 2.2 Mô tả bài toán phân

Định dạng
Số trang	59
Dung lượng	1,6 MB

Tài liệu tham khảo	Loại	Chi tiết
[1] Adam Berger; The Improved Iterative Scaling Algorithm: A Gentle Introduction; 1997	Khác
[2] Adam L. Berger & Stephen A. Della Pietra & Vincent J. Della Pietra; A Maximum Entropy Approach to Natural Language Processing; 1996	Khác
[3] Adwait Ratnaparkhi; A Simple Introduction to Maximum Entropy Models for Natural Language Processing; 1997	Khác
[4] Adwait Ratnaparkhi; Maximum Entropy Models for Natural Language Ambiguity Resolution; 1998	Khác
[6] Christopher D. Manning & Hinrich Schutze; Foundations of Statistical Natural Language Processing; 1999; 612 - 645	Khác
[7] Jeffrey C. Reynar & Adwait Ratnaparkhi; A Maximum Entropy Approach to identifying sentence boundaries; 1997	Khác
[8] Jun’ichi Kazama & Jun’ichi Tsujii; Evaluation and Extension of Maximum Entropy Models with Inequality Constraints; 2003	Khác
[9] Kamal Nigam & John Lafferty & Andrew McCallum; Using Maximum Entropy for Text Classification	Khác
[10] Radu Ioan Bot & Sorin Mihai Grad & Gert Wanka; Maximum Entropy Optimization for Textclassification problems; 1999	Khác
[11] RobertMalouf; A comparison of algorithms for maximum entropy parameter estimation	Khác
[12] Ronald Rosenfeld; A Maximum Entropy Approach to Adaptive Statistical Language Modeling	Khác
[13] Stanley F. Chen & Ranald Rosendfeld; A Gausan Prior for smoothing Maximum Entropy Models; 1999	Khác
[14] Thorsten Joachims; A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization; 1997Tài liệu tiếng Việt	Khác
[1] Hồ Quốc Bảo, Đông Thị Bích Thủy; Ứng dụng xử lý ngôn ngữ tự nhiên trong tìm kiếm thông tin trên văn bản tiếng việt	Khác
[2] Nguyễn Lính Gian, Nguyễn Mạnh Hiển; Phân loại văn bản tiếng việt với bộ phân loại vector hỗ trợ SVM; 2005	Khác
[3] Nguyễn Thị Ngọc Hợp; Phân loại văn bản sử dụng hạt nhân của chuỗi	Khác
[4] Vũ Thanh Nguyên, Trang Nhật Quang; Ứng dụng thuật toán phân lớp rút trích thông tin văn bản FSVM trên Internet; 2008	Khác
[5] Đỗ Phúc, Mai Xuân Hùng, Nguyễn Thị Kim Phụng; Gom cụm đồ thị và ứng dụng vào việc rút trích nội dung chính của khối thông điệp trên diễn đàn thảo luận; 2008	Khác
[6] Phạm Thị Thơm; Ứng dụng phương pháp phân loại văn bản Naive Bayes vào việc xây dựng chương trình mail client với khả năng lọc thư rác tự động;2006	Khác