1. Trang chủ
  2. » Luận Văn - Báo Cáo

đồ án tốt nghiệp mô hình maximum entropy

59 428 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • 1.1 Đặt vấn đề

  • 1.2 Giới thiệu mô hình cực đại entropy

  • 1.3 Mục tiêu của luận văn

  • 2.1 Cái nhìn tổng quát về các phương pháp phân loại văn bản

  • 2.2 Mô tả bài toán phân loại văn bản

  • 2.3 Biểu diễn văn bản

  • 2.4 Các phương pháp phân loại văn bản

  • 3.1 Tổng quát mô hình cực đại entropy

  • 3.2 Mô hình cực đại entropy

  • 3.3 Lựa chọn đặc trưng

  • 3.3.3 Giá trị gần đúng

  • 4.1 Thống kê kết quả thực nghiệm

  • 4.2 Các thành phần và chức năng của chương trình

  • 4.3 Ứng dụng chặn nội dung web

  • 5.1 Kết quả đạt được

  • 5.2 Những hạn chế và hướng giải quyết

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Quang Dũng MÔ HÌNH MAXIMUM ENTROPY VÀ ỨNG DỤNG KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Công Nghệ Thông Tin HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Quang Dũng MÔ HÌNH MAXIMUM ENTROPY VÀ ỨNG DỤNG KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Cán bộ hướng dẫn:Lê Anh Cường HÀ NỘI - 2010 TÓM TẮT NỘI DUNG  !!"#$%&&'()*+,-./ )/*0 #1,%&&2345 6/*07(8!',%&& 9:(;6/*0 ;23<6/*0=>*5 4*0-$?@'';!+  A2B>!C*0:/ - 9DA 4<- >9 !E!('F3 !(/+0/G!C,/  />7H?2 /!5 &5!4!;4& #$ 48#*I4/7(-3>#,5# /!!'/!2J9*8#*I4:>#!K&77H ?>#!K&72 L<!5%&&M**0!E!(62N K&7>#!8'!M*0!5'#O#  <97'<P<  23*I4:>#!K&7&)9@:*0 K&79>#!8'!2Q,9R@)*+9/)*0 K&79>#!S0!!J*+/T ,72 i LỜI CẢM ƠN U8"/+(I  !V'WXYNLZ[\N]. 5$*#M>,@^&!6+; 2 U8 (IE!GZ<ZN. !;<-AE!G7!@&)JE!2 Z@89/,/_7-I6`Q ZBa/!/ !=> ,9,7**+)'@2 b (I1 77c.>@^ >, @&+)5 ,A!2 B:#S&.6V  /!5 <(d *VV<<C-!92U<?5*0(  54e7(E!GZ 72 L >fghifjf  k, l!mR ii Mục lục Chương 1: Tổng quát 1 1.1 Đặt vấn đề 1 1.2 Giới thiệu mô hình cực đại entropy 2 1.3 Mục tiêu của luận văn 3 Chương 2: Các phương pháp phân loại văn bản 5 2.1 Cái nhìn tổng quát về các phương pháp phân loại văn bản 5 2.2 Mô tả bài toán phân loại văn bản 5 2.3 Biểu diễn văn bản 6 2.4 Các phương pháp phân loại văn bản 7 2.4.1 Naïve Bayes (NB) 7 2.4.2 k-Nearest Neighbor (kNN) 8 2.4.3 Linear Least Square Fit (LLSF) 9 2.4.4 Support Vector Machine (SVM) 10 Chương 3: Mô hình cực đại entropy 12 3.1 Tổng quát mô hình cực đại entropy 12 3.2 Mô hình cực đại entropy 15 3.2.1 Dữ liệu huấn luyện 15 3.2.2 Thống kê, đặc trưng và ràng buộc 16 3.2.3 Nguyên lý cực đại entropy 17 3.2.4 Tham số hình thức 18 3.2.5 Mối quan hệ với cực đại Likelihood 20 3.2.6 Tính các tham số 20 3.3 Lựa chọn đặc trưng 22 3.3.1 Ý nghĩa của việc lựa chọn đặc trưng 22 3.3.2 Cơ sở lựa chọn đặc trưng 24 3.3.3 Giá trị gần đúng 26 Chương 4: Thực nghiệm phân loại văn bản 28 4.1 Thống kê kết quả thực nghiệm 28 iii 4.2 Các thành phần và chức năng của chương trình 33 4.2.1 Chức năng huấn luyện 33 4.2.2 Chức năng kiểm thử 35 4.2.3 Chức năng gán nhãn 36 4.3 Ứng dụng chặn nội dung web 38 4.3.1 Kỹ thuật lọc web Blue Coat 38 4.3.2 Chức năng ứng dụng chặn nội dung web 39 Chương 5: Kết luận 43 5.1 Kết quả đạt được 43 5.2 Những hạn chế và hướng giải quyết 44 Tài liệu tham khảo 45 Phụ lục 47 iv Danh sách hình L4i2jnZ*0<_/ &o0222222222222222222222222222222222222jf L4p2jnW):*2222222222222222222222222222222222222222222222222222222222222222222222222222222222iq L4p2i/r/<&/#*07!#O* /=i62222222222222222222222222222is L4q2jn]#A!'/!22222222222222222222222222222222222222222222222222222222222222pq L4q2in]#A<"22222222222222222222222222222222222222222222222222222222222222222pg L4q2pn]#A.22222222222222222222222222222222222222222222222222222222222222222pt L4q2qn]#!2222222222222222222222222222222222222222222222222222222222222222222222222222222222ps L4q2un]#:>#!K&72222222222222222222222222222222222222222222222222222222222222222222qj L4q2gnZ"D&2222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222qi L4q2tnZ"D!22222222222222222222222222222222222222222222222222222222222222222222222222222222222222qp v Danh sách bảng Q(q2jnk6/*0v/&#/!!'/!222222222222222222222222222222222222222222222222222222iw Q(q2ink6/*0v/&#/!<"222222222222222222222222222222222222222222222222222222222pf Q(q2pnB(#!'/!22222222222222222222222222222222222222222222222222222222222222222222pu Q(q2qnx-E!(!'/!222222222222222222222222222222222222222222222222222222222222222222222222222222222pu Q(q2unB(A<"2222222222222222222222222222222222222222222222222222222222222222222222pg Q(q2gnx-E!(<"222222222222222222222222222222222222222222222222222222222222222222222222222222222222pt Q(q2tnx-E!(.222222222222222222222222222222222222222222222222222222222222222222222222222222222222ps Q(q2snZA#:>#!K&722222222222222222222222222222222222222222222222qi vi Chương 1: Tổng quát 1.1 Đặt vấn đề +7SD /!'#*06 9 # /!*0/*!,?- /!' =<;2 /!6*!)a#O7(E!(/*!*0/!#O # y77c9"D222.  z,D7- #$234 5 6/*0 /!6-9:23><6/*0/  /!6*5/  @9/)*0 /! ->$? 9@F Z!(/+9/ /7(>{B>*I49> /7(&;$2x9@@*0>#!  /!&@$?"#$23><6/*0<D/= /!624 /7(>@@-<*0';!+ A4<-2 &|}b!~jwww•€3/7(>/ . //,>7(#,A>*I7(9 7(.*0.5!'/!•2 m,6<,|}b!  /!<>6*I /    #$     / n  N‚&  Q&  ƒQ<&}B//! ifff„ <rN&& N&7ƒ|jwwq„ W&W&kE!&… ƒ|}Z!&jwwq„k! 3&B&ƒ†jwws„jwws„B8!UƒQ&&jwwg m&// ‡&jwwt„2Z*I;!# 8!'6<,:;) 6J7(2Z-;*I*047 chương 22 /7(-Y<-E!(// '<(E!2Z_6 -3M_;!-2L-;:n-Y1TJ/ >50<G9T @*07!7z<(V23? #$n!&K#&/#v222m9J6-Y/ 'I (2!,-3481Jz,<9<I2ZJ <(*081# <(V 9$!> (23?#$ 1 J!n€-•€;•€-7•€E!•222L-;5#/!!' /! <"!ˆ222 !,R.9;! ,A!/T  *0 <-E!(7!*ƒL!Pl!-V ‰1‡*Ijwww„ƒN!OW ] N!OBLiffu„2Z*-57=n/G!-=1ƒ‰o Q?miffq„"#$/G!-5ƒN!ON)Q4iffq„6<, ƒN!OW] N!Om!L(jwww„)< e$ ƒL!Pl!-V ‰1‡*Ijwww„2 W!5/ >99-$,A!/G!-  6/7(-32‡*I/ *0,A!/!5/ 4&ƒQ&&jwwg m&// ‡&jwwt„2 1.2 Giới thiệu mô hình cực đại entropy B4&/ *I/7(*0"#$>. ;!/T8"/G,*n49ƒZ& Š&v&/#jwww„.J/ƒŠ<jwwg„/7(ƒQ&&v& jwww„2 B4&/ <‹!5#S68!'# /!7(2**z?*I/ 4*7-:<Œ  4<97'<P(14~9>o/•2A/ :>6 ;!/,<*7-2m/!.*0.*0"#$/'5  7!>4 9(:,J/$9*0 7(/2Z!6S!5%%k46 9C.  7!>.* C.&68!'/ ;!'2 ‰9#$*05%%k,7(/2Q*!, (/ !7(z#!o<G &: *2 B>-!6E!4!'/!4&?/  /)&:*J/2Z&:* (,!(*0 2 [...]... Chương 3: Mô hình cực đại entropy Dựa trên tài liệu mô hình cực đại entropy của [Adam L Berger & Stephen A Della Pietra & Vincent J Della Pietra, 1996] và một số nguồn khác Dưới đấy là những cơ sở lý thuyết cơ bản về mô hình cực đại entropy Về cách xây dựng mô hình, nguyên lý cực đại entropy, cách tính các phân phối xác suất và thuật toán tính trọng số cũng như lựa chọn các đặc trưng cho bài toán phân... với nhau Mô hình cực đại entropy có được tối ưu hay không là phụ thuộc rất nhiều vào việc lựa chọn này Ưu điểm lớn nhất của mô hình cực đại entropy là tính mềm dẻo của mô hình: nó cung cấp một hệ thống các quy luật có tính thống kê ngẫu nhiên để bổ sung các cú pháp, ngữ nghĩa và căn cứ vào các vector đặc trưng Tuy nhiên, mô hình cực đại entropy đòi hỏi một chi phí khá lớn cho việc tính toán để ước... toán IIS để tính toán các tham số 2.3 Biểu diễn văn bản Bước đầu tiên của các phương pháp phân loại văn bản là chuyển việc mô tả văn bản dùng chuỗi ký tự thành dạng mô tả khác phù hợp với các thuật toán Hầu hết các thuật toán đều sử dụng cách biểu diễn theo vector đặc trưng, khác nhau chủ yếu ở việc lựa chọn không gian đặc trưng Cụ thể với mô hình cực đại entropy, thuật toán IIS chỉ có thể tính toán... p* € C với cực đại entropy là mô hình trong đó họ tham số p λ(y|x) mà nó cực đại likelihood của xác suất mẫu huấn luyện pp Kết quả này giúp làm tăng thêm tính đúng đắn cho nguyên lý cực đại entropy: khi quan niệm việc lựa chọn xác suất mô hình p* trên cơ sở cực đại entropy là không đủ sức thuyết phục, điêu xảy ra với cùng một xác suất p* là một mô hình mà nó, trong số toàn bộ các mô hình của cùng một... lại; xác suất mô hình p* trong C với entropy lớn nhất phản ánh sự hiểu biết tăng mãi mãi và vì vậy việc miêu tả bài toán sẽ trở nên chính xác hơn.Điều này giúp cho không gian chấp nhận được của các mô hình được thu hẹp hơn Có lẽ trực quan hơn, chúng ta có thể miêu tả nó bằng một loạt các tập con được đạt vào P như hình sau: 23 Hình 3.1: Lựa chọn đặc trưng (trích dẫn: trang 12 quyển A Maximum Entropy Approach... biệt được các mô hình có dạng (24) là α Trong số các mô hình đó, chúng ta quan tâm tới mô hình mà nó làm tăng tính gần đúng G S , f (α ) = L( PSα f ) − L( PS ) , ~ = − ∑ x ~ ( x) log Z α ( x) + α E ( f ) p Chúng ta sẽ biểu diễn sự tăng thêm của mô hình này bởi: 26 (26) ~ ∆ L( S , f ) = max α G S , f (α ) (27) và mô hình tối ưu bởi: ~ PS ∪ f = arg max G S , f (α ) trên pαS,f (28) Tính toán giá trị gần... của mô hình cực đại entropy Tham số hình thức và cách tính toán các tham số đó Ý nghĩa và cơ sở của việc lựa chọn các đặc trưng sao cho hiệu quả nhất Từ đó áp dụng lý thuyết vào bài toán phân loại văn bản tiếng Việt và ứng dụng chặn nội dung web trên cơ sở phân loại nội dung trang web (dựa vào bài toán phân loại văn bản) Để hiểu sâu sắc thuật toán, luận văn đề ra mục tiêu xây dựng từ đầu thuật toán mô. .. nói cách khác, mô hình luôn luôn dự đoán đó là “dans” Mô hình khác tuân theo ràng buộc này dự đoán “pendant” với xác suất là ½, và “à” với xác suất là ½ Nhưng theo cảm giác của chúng ta thì cả hai mô hình này đều không ổn cho lắm: hệ thống dịch luôn luôn lựa chọn 1 trong số 5 từ (cụm từ) tiếng Pháp, và làm thế nào chúng ta có thể chứng minh mỗi phân phối xác suất 12 đó là đúng? Mỗi mô hình mới chỉ dừng... với các đặc trưng có hiệu lực Sυf p Như công thức (19), tập đặc trưng này quyết định tập các mô hình: 24 f C(S U f)f = {p € P | E(f) = Ẽ(f) với mọi f € S U f} (21) Mô hình tối ưu trong không gian mô hình này là: Ps∪ ~ = arg max p∈C ( S ∪ ~ ) H ( p) f f (22) Thêm đặc trưng f p cho phép mô hình p sυf p tính toán tốt hơn với mẫu huấn luyện; điều này dẫn đến việc thu được ∆L(S,f p) từ log-likelihood của... Entropy là bị chặn dưới bởi 0, entropy của mô hình không có sự không chắc chắn nào, và chặn trên bởi log|Y|, entropy của phân phối ngang bằng nhau trên toàn bộ các giá trị có thể |Y| của y Với định nghĩa này, chúng ta đã sẵn sàng để biểu diễn nguyên lý của cực đại entropy: Để lựa chọn mô hình từ một tập C các phân phối xác suất được chấp nhận, lựa chọn mô hình p* € C với cực đại entropy H(p): p* = arg max . 9 2.4.4 Support Vector Machine (SVM) 10 Chương 3: Mô hình cực đại entropy 12 3.1 Tổng quát mô hình cực đại entropy 12 3.2 Mô hình cực đại entropy 15 3.2.1 Dữ liệu huấn luyện 15 3.2.2 Thống. Dũng MÔ HÌNH MAXIMUM ENTROPY VÀ ỨNG DỤNG KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Công Nghệ Thông Tin HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Quang Dũng MÔ HÌNH. thiệu mô hình cực đại entropy 2 1.3 Mục tiêu của luận văn 3 Chương 2: Các phương pháp phân loại văn bản 5 2.1 Cái nhìn tổng quát về các phương pháp phân loại văn bản 5 2.2 Mô tả bài toán phân

Ngày đăng: 22/08/2014, 16:15

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w