Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 22 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
22
Dung lượng
278,54 KB
Nội dung
Đại Học Quốc Gia Tp. Hồ Chí Minh Trường Đại Học Công Nghệ Thông Tin Báo cáo cuối kỳ môn Khai Phá Dữ Liệu KỸ THUẬT GOM NHÓM VĂN BẢN BẰNG THUẬT TOÁN K-MEAN GVHD : PGS.TS. Đỗ Phúc Học Viên : Đỗ Duy Phúc MSHV : CH1101122 Lớp : Cao Học K6 Tp. HCM, Tháng 11 Năm 2012 Mục Lục Lời Nói Đầu !"#$ %&'$()*+,!$&-&.&' ,/*&.!01234)245, &'$)67-*$'"#$8 $0*9%,01*(*4:$67 *$67-";$)*(-&,$&< =$,>0?(@A'$0+&&'""" ,0%&*BC%,$$'@" D%CE)4F$'),!G&'H#,IJ&J KG,JK=GJL*0-=,$#$&'HKML 6E)"-/,*9 N.*B&-$&.&'=$3/HGJOGJ& &L,3/H,OGJ&&L"D7&P,$3=8' @$IJ=E+IJ=GJ1$Q30=$,$,7 *',+"R17(13N,+'A8> !G&'H!&'*B3/L%&'(JS C+T',"K,*+3*4*C,*((%C $)UV&'1"W,$#$&'Q=8 :1,++$*B&-&. Q=83*4*C,($*B$J,> GUA$)-&<*,$!")U7 ,A$)(*B$'*(G&P,$P*7G" M+G@=,$A ,#F$KX'DQW8*BY*C $=,$ZRJ;GJ[ZRJ;GG\,[ZRJ]^,[_ R,*V$`J-'+G@a1,Q=8 H&,JGJL-'$&P1,$#OJG,, Q=8" b Phần 1: Cơ Sở Lý Thuyết 1. Khai Phá Dữ Liệu Khai phá dữ liệu (data mining) =-67,A$%khám phá tri thức từ cơ sở dữ liệu( Knowledge discovery in database, KDD). c6+ d<2,e*BCBU4d<$f, $ 7+A$%%C$$$(S)U+1-& '"1&P$!$E)U$d<$7' 6.,$ @E'@!G&'"R,*G&P$ !$U$ @E43" MPEfA$%$)*(/7*B)U+ 1&'Gg(*9/3/,0(( *B,PEG&P!"WE.$=-672=, V$7.fA8&'!G&'4G&'% G&h*$-*,*$$JY*+).1$ 3/%*B=(&h<A"_ 2. Gom Nhóm Văn Bản Gom nhóm văn bản(document/ text clustering)+d<,fgom nhóm dữ liệu(data clustering). B$$'U$d< 3H\,,JJijkL<EH J,JGGiXFL$ HJJOMXL"RU*6, =C,Q=8Gl*B*41 ," m$%,--$'$<EU*-' +$%9Af$6-Hf*4L,+1B'Q =8"R,d<7'6.,*6*BJ+!$$ $G$"n,E=>S-A$%6-"R, +=,$6-Q=8G@B6-H$73fL*B =C-$'Q=8*B6@,$-"B. ,+3*4,=3o8G@B+7,73 Ef$6-*C*B=C-"]<6='*B %p"F6-E*BJ+7&Pf!$$ $ G$" q r%p" M+!$,@(*BJ+$9)+1 ',$,*$'Q=8,s+*4 G<!<+G<$='G,-'$"m$ %,8QGlG8$6$=',$6 ,HVLE"R,$6,8Q+ 'Gl3',4";6`**4%3E+ !$,'A8tD-1fCf$ E)%680,6`)f$1,$$ *$$/" 3. Phân Loại Thuật Toán Gom Nhóm Văn Bản a) Phân loại theo đặc tính của thuật toán ;$1,$,(6,.u$1,$$=' H&GJL$1,$G8GHJJJL" M+$($1,$$=',$G,G$*+!*VJ, U,v'Q=8&<EG<!*VGl@ +E5*(.,+$,@"cf$1 ,$0$6&'$='" w+-$$1,$G8G8*>N+G<6@$ G3,&'"D'f/@% 6f$6 x G,,$ 6sB-G<6@&'+$@*" ]85f$1,$,.$6,V" b) Phân loại theo mô hình biểu diễn dữ liệu R$)*3E,+=,$,$*>*7,f +'*B&s*(.,76,."+$$/% +%=(&h&',Q=8"K*=E.$6,.E (6,.1,$&<J,$/< %=(&h& ',A$%" F-$$C1,'. =(&hv' +J!*.&',+*(4"RU*( + 'Q=8+&.=(&hsB,$C1,& '4@" M+$%C,$=(&hJ!*B.,=N$ UyPU'Q=8+14H&zJL"M+ 14,C*V>*>dG<C@f$*:,+*V>" K-%J!$CA8+&.*V> G@"D', E*V>C*3*4(=,$**0 HI,=JL!$*0%$6*:*V>- G<*){$.@$*:7@" M+CA8$U'< =(&h=NJ!1UO' *B.,(3-"D'+-.,+E=8@ */C.3H,IOLf+1U*.,+ !$6,.@,s1&'" M+*(C4f%J,{4 )<fU"K,1*6+G@-C$=(&h $,4*>dG<!*V$=(&h-2=, VE3'f$UyPUG33's- ,J,+v,*" 4. Các Phương Pháp Đánh Giá ;$1,$,(*B*$$J,4$$"# 37G<*V14$,$@3"]<< ! $,0&<Ed<E)*B<'"D7&P+ E ) |j l E 7 ! $ s H } \,,L,+G@E)Ud<jkGl !$ ~OJGJ";$!$*$$Gl*B=1.*6" ;'<$4'Qf$1,$,độ chính xácHprecisionL độ triệu tậpHrecallL"R,d<jkđộ triệu tập *B *>d:'$'Q=8EAH*C6*B =9'Lđã được truy xuất raG,-tất cả các tài liệu có liên quan' V.,,=+1'*BY"R,*độ chính xác:' 'đã được truy xuất và có liên quanG,-tất cả tài liệu đã được truy xuất. W%3&h*(*B*+'1+$,8,d =N$3,=+'*,=3o3,,E~O JGJ+-*,BCB8*+'1*+7$*B- '*(,.=`.C"RA-k*+'1F*+7$% )~OJGJ9A$*B*>dGu c+7$*+'10*B,s G@HF p L =C(V.*$ G@/$7&P*+7$, !G,-*+'1,B.H/*B${B F •"x F L c(+),'*$$+1,$,/ 8*>NG<V.f+1$6-8,H*B&<*,$ -Q)*$$L$6*B%3H*f$ 1,$,L*B*@$'*B3U$6- 8,"R%)*4'Gu R,*u nu9G@' argmaxu%G@jG,,F*.*B$>@* iu)<f6-8, ju)<f6*f1,$ € R,~OJGJ:*B3B9A$fA$%, ,9'G33:*BG<3f=8 6$"r-*,=9Gđộ thuần khiếtHpurityLf entropy"F*,3Qf$E+6-9+! ,,+H-!%@!L,J,%CG<6 @$3f$'Uv6-EA,vH`! @!L"D/)Gu CG@B6=N-G@Bf$(,.'+G< !)(C1%$-*,E(*B$&P-+ "REC+G<3A$G@B6- 8,$6*B%=1,$%$7$* 1G<:*B3Bf$6" c{=N):N,0Bs H\,,OMjL+-*,C!G,-*+C ,J,"R,<CMj*B@84$*+&*!>H,^J& MjiMjL"RJ,*>dA-n h G@',6-hn l G@ S,6ln h,l G@S,6-h 6l,% )Gu Mj-.,,8••p‚,*$>fG@p*.&'G<G,- '*@$6$6-".*+<fMj +-*,*+7$,A$%,(>*BG<=3 @3G@B$6%3G@B$6- 8,";+G@B*$($=C4,Q=8*48*> +G@6,-k, %C,0B$*, 4@(*BG&P" ƒ M+$%$43Bf+1,$,G<9*>f $6.,A4."M+-C19=1*(*, *+9*>%'Q=%"R,1sHMjL CA8.,*B |MjHJJ,^J&\,,Lu, +1frG@,+.,P(%|Mj *B*>du R,$1SH,\G,L3'0 E,$=C4,$!$$E8E /3'*f*(+/7*6"M+1S +P=(&h<A3+G<9B4v6., ='@" W • Bảng 1: Một ma trận nhầm lẫn cho các phân lớp: A (4 phần tử), B (4 phần tử), C (8 phần tử) W8p(&h8Gu1,$,(6=' 6|6W6='$*@B,6-; +$,8," R38!$E8E*4*B&s,,.6$='" kE*@-$1,$,G&P,0+!$ &P*(*$$*f+1,$,0G$6 $='„U+CA8*0HA$%*B A$ %cứng hóa - hardening$6L=N$*+$>… ,<*+Ef$'";d$',)*+ EB+…$>f+,*%*B,+6 *C+'*4B…f6%Gl+ 8" † 5. Một Số Thuật Toán Tiêu Biểu a) K- means và các mở rộng * Thuật toán k-means R,d<$&'1,$,OJG+! $ f 6 7 "MP E f 1 ,$ n *@ B P EH*B=(&h$*(,*4Lk, *v*@BPE+4*(3"#OJG 1 ,$ E =( , ,. 1 ,$ , $ =' H&GJ ,GL" FE=8&P3fOJGG&P+a1: ,"D%G<79=C+f1OJG0*BE *CE=87$!%*61,$X,&H Ef0$L$E*B-, $7*C0 E!";C1,$Gu ;,+1k *(m 1 (1) ,…,m k (1) 1,$<=N$, =-Gu OW-$u$v*@BPE,*( 3" R,*vx p *B67$,+S i (t) 8( 6,*B$" OW-:uv7,$$*(-=N 6*B 7U$*@BPE*B6,,*" R1,$*B,N*{+P&U.+$G<6=92 *9" * Các dạng mở rộng của k-means R,d<,Q=8*(sB-(&'*s1,$ OJG4@*B=C*9$&.sB!u p• [...]... mà thuật toán k-means gặp vấn đề khi gom nhóm Trong (b) là thuật toán kernel kmeans đã thành công phân biệt rõ hai nhóm như là kết quả của việc chiếu các vectơ văn bản lên một không gian có nhiều chiều hơn b) Các thuật toán sản sinh (generative algorithm) Trong nhóm này tiêu biểu có thuật toán c-means mờ (fuzzy c-means), một thuật toán rất nhạy cảm với các phần tử ngoại lai Trong các tập dữ liệu văn. .. dụng thuật toán K-mean vào phân lớp văn bản ta cần phải thưc hiện vector hóa văn bản mỗi văn bản được biểu diễn dưới dạng vector , việc vector hóa văn bản sử dụng mô hình vector không gian Sau khi có tập các vector ta có thể áp dụng thuật toán K-mean vào gom cụm văn bản b) Mô hình vector không gian Mô hình vector không gian hay mô hình vector hạn là một mô hình đại số cho đại diện các tài liệu văn. .. lặp giữa các bước ước lượng mô hình xác suất và gán văn bản Một vài thuật toán và mô hình xác xuất được sử dụng trong nhóm thuật toán sản sinh như: - Mô hình Gauss 12 - Thuật toán toán ưu hóa mong đợi (expectation maximization) - Mô hình von Mises-Fisher - Thuật toán k-means dưa trên mô hình xác suất (model-based kmeans) c) Các thuật toán gom nhóm phổ (spectral clustering algorithms) Một ma trận... bản lớn và ít thay đổi - Thuật toán k-means cầu trực tuyến (online spherical k-means): đây là thuật toán mở rộng của k-means cầu Nó sử dụng kỹ thuật học cạnh tranh để làm tăng tốc quá trình gom nhóm trong khi vẫn đạt được độ chính xác tương tư hoặc tốt hơn Với khuôn mẫu học cạnh tranh trưc tuyến, các văn bản được truyền đến liên tục.Hoàn toàn trái ngược với một thuật toán chạy hoàn toàn trên...- Thuật toán k-means cầu (spherical k-means): đây là thuật toán tương tư với thuật toán k-means truyền thống Khi sử dụng thuật toán này, dữ liệu văn bản được chuyển thành các vectơ đa chiều và được tối giản hóa.Thêm nữa, nó sử dụng hàm cosin thay vì khoảng cách Euclid để tìm tính tương đồng cho các đổi tượng cần phân nhóm Mặc dù nó phổ biến, một phần do tính dễ cài đặt, nhưng k-means... nhỏ và gọp lại (divide and merge algorithm) - Đồng gom nhóm mờ (fuzzy clustering) 13 Phần 2: Demo Thực Hiện Gom Nhóm Văn Bản Bằng Thuật Toán K-Means 1 Cụ Thể Thuật Toán K-means Đầu vào: - Tập các đối tượng X = {xi| i = 1, 2, …, N} Số cụm: K Đầu ra: - Các cụm Ci( i = 1 K) tách rời Thuật toán k-means gồm bốn bước: 1 Chọn ngẫu nhiên k điểm làm trọng tâm ban đầu của k cụm 2 Gán (hoặc gán lại) từng... hiện của một hạn t trong toàn bộ tập văn bản đầu vào D, được tính bằng công thức: Với là số văn bản mà hạn t xuất hiện, công thức được cộng thêm 1 để tránh trường hợp chia cho 0 d) Xác định các hạn(term) đặc trưng cho văn bản Xác định các hạn đặc trưng cho văn bản chính là việc tách các từ, cụm từ đặc trưng trong văn bản Tách từ trong văn bản là một bải toán khó, đặc biệt trong tiếng Việt... nơi mà các nhóm được phân biệt một cách tốt đẹp, thì tất cả kỹ thuật trên đều có xu hướng hiệu suất tương tư nhau.Tuy nhiên, khi có một sư trùng lắp đáng kể giữa các nhóm, điều điển hình xảy ra với dữ liệu văn bản, thì các đường cắt min-max sẽ thưc hiện tốt hơn Một số thuật toán tiêu biểu thuộc nhóm này như: - Thuật toán chia nhỏ và gọp lại (divide and merge algorithm) - Đồng gom nhóm mờ (fuzzy... tập dữ liệu một lần như thuật toán k-means cầu.Khi các văn bản được đưa vào quá trình phân nhóm, các nhóm sẽ cạnh tranh để giành lấy dữ liệu đầu vào để được phân bổ cho nhóm của mình Và nhóm chiến thắng sẽ tư điều chỉnh mình dưa vào một tỉ lệ học nhất định để có thể phản ứng mạnh hơn cho các dữ liệu đầu vào tiếp theo Thuật toán này thường được áp dụng để phân nhóm bản sau khi được trả về... biến để tìm ra các cụm từ có tần số xuất hiện cao trong văn bản Thuật toán tìm cụm từ phổ biến ở bước 2 như sau: Đầu vào: - Tập các từ đơn (đã loại bỏ hư từ, dấu câu) từ văn bản đang xét min_supp: tuần xuất xuất hiện tối thiểu của một từ/cụm từ trong văn bản Đầu ra: - Tập các từ/cụm từ phổ biến trong văn bản Thuật toán: 1 Tìm tập phổ biến F1 chứa các từ đơn phổ biến (tuần . .H&&J&JJ,L" OcV,0H^^GJL" pb Phần 2: Demo Thực Hiện Gom Nhóm Văn Bản Bằng Thuật Toán K-Means 1. Cụ Thể Thuật Toán K-means c,u O R1$*@B‹Œ• ŽŒp_• O. @E43" MPEfA$%$)*(/7*B)U+ 1&'Gg(*9/3/,0(( *B,PEG&P!"WE.$=-672=, V$7.fA8&'!G&'4G&'% G&h*$-*,*$$JY*+).1$ 3/%*B=(&h<A"_ 2. Gom Nhóm Văn Bản Gom nhóm văn bản( document/ text clustering)+d<,f gom nhóm dữ liệu(data clustering). B$$'U$d< 3H,,JJijkL<EH J,JGGiXFL$. liệu không lồi mà thuật toán k-means gặp vấn đề khi gom nhóm. Trong (b) là thuật toán kernel kmeans đã thành công phân biệt rõ hai nhóm như là kết quả của việc chiếu các vectơ văn bản lên một không