Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 28 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
28
Dung lượng
1,27 MB
Nội dung
!"#$% &$'$'()*+,* / !"#$ %&'(()()*+ '0*,/1231 " ,-$ ./0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000( 12$(343356789:93;6<83=>?@350 0A (0(0@B9<89:93;6<83 =>?@3500000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000A (0A089:93;6<83=>?@350000000000000000000000000000000000000000000C 12$ADEEFG000000000000000000000000000000000000000000000000000000000000000000000000000000000* A0(0HIJK$LM0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000* A0A0LMNOPOQR!0000000000000000000000000000000000000000000000000000000000000000000000000000000* A0S0LMNOPOQR!$#TAU1JIJ000000000000000000000000000000000000000000000000000V A0S0(0WNOX$NOYZK[XZ\]000000000000000000000000000000000000000000000000000000000000000000000000000000000V A0S0A0^H_ZZT[K000000000000000000000000000000000000000000000000000000000000000000000000000000000000000() A0C0`aKNZb0000000000000000000000000000000000000000000000000000000000000000000000000000000() A0c0ade-R`RZfgQSad000000000000000000000000000000000000000000000000000000(S A0+0ade-h,ZKO000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000(S 12$S@i8FB:0000000000000000000000000000000000000000000000000000000000000000000000000000000000000(c S0(0J0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000(c S0A0HR!$j-00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000(+ S0S0LMIMgQkK:3300000000000000000000000000000000000000000000000000000000000000000000000(* 12$Cl.;>m83=>?@35n@o90 0A( C0(0p$ae-1RqYrT-I]00000000000000000000000000000000000000000000000000000000000000A( C0A0p$dbe-1,HYK-T]0000000000000000000000000000000000000000000000000000000000000000000A( C0S0p$'$gstdXZ1,H$NO,-00000000000000000000000000000000000000000000000000A( C0C0l1u$e-I1,H0000000000000000000000000000000000000000000000000000000000000000000000000000000A( C0c0LM_YIZT-I-vh_-Oh&]00000000000000000000000000000000000000000000000000000AA C0+0LM0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000AS C0w0xU!XpI00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000AS C0*0aRH$H0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000AS <3@358y000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000Ac ( 45 8-TzXpIR1kUQI{T`T|O${,dP-,$R'J 12$,}R{ZbZqN~g"&1{b&j|$$|$08-TzXpI I{MKkKp$K12$KHK•HO${€H&d'$g~KNaXp I~THO~,aNbZ~•!XpI{2&uXpI~‚TgHTKH, ƒsTxXpIIJ0 8-TzXpIR1kƒ$X„$s,Z$HU{ZHQ~……RQ {$,†T$LM0,Z$U{•IMhT‡$€,}U{&2I1ksgHTKH ,ƒ{g-TzXpI{T`&'$LMP-,$,Z$8-TzXpI0 -RNOR1k$qIˆLT2&N&^RQ080Z{$6†8QT~$1ˆR% MNT,OsRbp$gQƒsL$2ULZ‰$hTsT| Š|$$,ƒ{ƒ$X„$‹{‡$€$uIˆLT2RQ0Œ- $!Y,1ˆ$f2]$1ˆR%$dKZhTp${Is8-Tz XpI0_bR…‡$g|$•g|$^RQ|$I-Z,k$‰Kg|$T Tze-HO$-'dP-Tb$`,$NTKH,•• '$-:0{Z{•HUbUŽ,Z$IJK0 A 678*+3 9%% !" 3'3'$:";<%==%% !" ,Z$p$(VV)~`HTb$g"M&'ZK•K&'…-|$X• X{${KadK~T{ZR…&KH,•e-|$$|$LKf ƒ$I‘KfTsT~|$$,Os|$~’hU~h,hR%$…KKfR1-THO a{ZH&Zb1ˆ$Me-Z$1ˆ0dLHZbR`$gXZ-~ 2$L,a$ƒgZ-~$HZX„~,Os|$Rs…&Œ,ke- THOa0•R…gQPLI{XpI${O{$IJ{Z$1ˆ}T,-HQU! I1,p,Z$2&uXpI1U†$•~Rj-•0 •†T(VVV~HZ&1:0@OT-{H`$&e-|$ub_h,ghIhO R%Q{'$gXpIR1k&,-‚$†T,Z{f0 8QPL “ ,Z$†T A))A[A))S Y-TgLZ u R!-“ http:www.sims. berkeley.edu/research/projects/how-much-info-2003]~ Xp I Z{ f †$ c r€-UOh&Yc0() (* ]0>pI†$AIf,Z$”$VH$0 p$&'Tƒ$e-&U•$t2&uXpI,Z$`&'$‚$ ${O [`&'XpI†gZ- –r,ZUO—&6h,O@Z$_-&h@h3h,˜Z,ZTh,OY6@_3] –(+ga†YTŒga(™$-U,$NOXpI0:NaXp I,Z$Ac${O~gZXpIPHIJ{,†Th,-UOh&]0 [H2&uXpIgZ- –{$,†UL…sge$U' –h,g{$,d,‰KNq…- –r(Z{,†T$-UOh& [2&uXpI,Os|$ –šQKMAwc`$TŒ${O [2&uXpI12$Tb S –ds|$OR-$XO,}HgZXpIgt$I#sH$-Z X!e-gH{$0`gZXpI12$R'z|‡$…•I1,p2 T`,$-ZX!0 –:„„ZgQZbRf1{KH,• –›,-hhIhZTS)h,-UOh|$sgH{$ –’-IT-,A),$-ZX!TŒ${O [>pIs’Z,X\Xh –ZZ$IhQKM2C“Of}TgQT™${O~I1,p{$,†T h,-UOh&XpI 6}gZXpIPHIJR”zfg-Hp$,ƒ}Tx0 6dRsRœ,-I{I{T&-Z‰$-…•,‰,a,ƒP-,$•H gZXpIgt$I#0H,ƒK„„Ztƒ2P-U-Z$#TKH P-,$,Z$gZ-~HXUHZa€HsˆQ{HLT- ~p$,ƒZ-€HR!R1k$ON{K12$KHKRs,! HU•T$ŽZ~•,-Rˆe-|$$gHTKH,ƒ{g-TzXp I,Z$p$†T$fRNO‚TRHKƒ$HffQe-Htƒ~ 2P-~|$OsKH,•,ƒ•HgZXpIgt$I#{HKX„$s XpIgH-0 Hƒ$X„${|$e-|$$g-TzXpI…•}TdO,Z$ sIj1QK!~$N{$ULZ•T~OQ~&~KH$-IM~ }TgQT|$~I1,H~KNIZb†UL0 bKas|$$T|,1ˆ$3&',-H$w†TA))(Z,‚$g- TzXpII{T`,Z$()|$$tUMde-QgžWW30 C 3'1'%% !" |$$gHTKH,ƒ•XpIR1kR!$j-I{&,a€d•Xp Ip$|$paI{sTx{1-R1kUQRQ08-TzXpII{ T`U1JP-,$~I{PH,}gHTKH,ƒ•XpI08-TzXpI R1kKNa{gLZ&H~KNaT`I1k$IJXpI‚TKH,-H T‘ZœHIM…Ÿ$j-0 }(0AQuá trình khám phá tri thức H,}gHTKH,ƒT|L,Z$}AI{T`PH,}IœKKƒbK~ &qX„$s2&uXpI~THO~K12$KHK'$g,Z$KNaXp }(0( Lĩnh vực ứng dụng thành công của khai mỏ dự liệu c I~•!XpI~,ƒNbZ~‚T}T,-p$,ƒ•gZXpI gt$I#0 }(0SCác lĩnh vực liên quan đến khám phá tri thức và khai mỏ dữ liệu O,}gHTKH,ƒU-Z$#TSU1Jas€qIŸg-TzXpI {RH$HgQPL0•T„Rs,-e-ƒ$X„$~uU1Js€qIŸ‰$-f [MKkKXpI•$#XpIgH-0 [XpIfQZT„Rs,-~T‘~,1ˆ$XpI0 [_•X•XpI~O•Rtg•&-ZZK•kKJ$LMg-Tz XpIT{U1JQKhZR1k&qX„$0 [@{T&bXpIg^K„R'J,1ˆ$XpI,Œ$~X1•-ZœXp I,Œ$g|$kKI~…•$LTXpI20 -gR%Q{€qIŸXpI€Z$~RQU1Jg-TzXpIQ{ €NOX$HT|}J&Œ,ke- –HO –,aNbZ –:NaXpIssU‚$K12$KHK'$g –:12$KHK,P-•!XpI0 _1Jg-TzXpIR1k€hTI{U1J,$NTe-PH,}gHTKH, ƒ0|$,dKƒbK~IœKRIœKIbH|$1€NOX$T|}~ bZ,ƒsXpI~g•TR!IbT|}~Q1-Rb}KL€NOX$T| }gH0 8-TzXpIMK,$$LPOQHdRs2UL1KNIJK~,O#~ $ZT…T{IMgQkK0 + Phân lớpWNOX$T|}KNIZbX-,MKXpI…%YIJK]0 Ví dụ&‰$-…& MKXpI1Rq~TŒ1…%I{1,H-O 1U}1ˆ$~T„I{€NOX$T|}KNIJKMKXpI1Rq {1,H-O1U}1ˆ$R•g…T`1RqTJRQ}T|}X UHZR1kI{1{O…KLI{1,H-Og|$¡ Hồi quy: WNOX$T|}KNIZb,MKXpI…%YIJK]I{$H ,!I„0 Ví dụ&$1ˆ-€NOX$T|}UHZHZT1J&|$8|$Yg•&' ]•HOQ'1ˆQ~T•-0 Gom nhóm: WNOX$T|}$ZT„TMKXpIYg|$…%]&-Z ZHXpI•$…THad12$-{XpIe--…T gH-…HadgH-0 Ví dụ:‰$-f$ZT…T&,Z$T`IJK&-ZZH& •$…T$z•$U-YgZ-€%`~gZ-]0ZT…T ‡$1dRsg|$$HT&H0 Luật kết hợp::HT'IP-$p-HUQe-XpI~¢$b IMgQkK…•KHPOIM1một khách hàng mua bơ, bánh mì thì cũng mua sữa0 -U1Jg-TzXpI~QKRQI{RH$H,ƒ&,-•s€q IŸ{g-TzXpI08•TR!gQPLX-{ZT„U-Rfe-ƒ$X„$0 $j-I{“…$1ˆ&qX„$ZœO$-sIjTJ…gL†$U!RH $HR1k,ƒ&,-0a}MOgQPL&,-•PH,}gHTKH,ƒ fX••~X•X!gQPLR•$‰K$1ˆ&qX„$ZœO$-…•RH$H {•R1kgQPL&,-0QgQPLg|$RbR1k&ZJT„Rs,-~ $1ˆ-…•P-OIbHU1Js€qIŸ-Og-TzXpIR•IœKIbPH,} gHTKH,ƒ0 p$$LM,Z$()$LMP-,$,Z$g-TzXpIU-Z $#T (0 8IH$$s$ A0 _-UO$NO2 S0 NOPOQR! w C0 :12$KHKMKkKT|}1U-$$$~UZZ&$0 c0 •$$‘ +0 HO{•2Œ,k w0 LM$ZT„Tgh-& *0 @MgQkK…I{K,Z,0 [...]... Recall và Precision Accuracy: Số thư được dự báo dùng chia cho tổng số thư 24 Bảng so sánh kết quả phân lớp 25 TÀI LIỆU THAM KHẢO 1 Bạch Hưng Khang, Hoàng Kiếm (1989), Trí tuệ nhân tạo, các phương pháp và ứng dụng, Nxb Khoa học và Kỹ thuật 2 Hoàng Văn Kiếm, Bài giảng môn Ứng dụng tri thức và khai mỏ dữ liệu 3 Đỗ Thanh Nghị - Lê Thanh Vân (2012), Giáo trình các hệ tri thức và khai thác dữ liệu, Nxb... gọi là Apriori được đề xuất đầu tiên bởi Agrawal và các cộng sự cho phép khám phá ra các mối liên quan giữa các biến dữ liệu Luật kết hợp được ứng dụng rất nhiều trong thực tế, luôn nằm trong nhóm đầu của các giải thuật ứng dụng thành công của khai mỏ dữ liệu Giải thuật cũng góp mặt vào trong 10 giải thuật quan trọng của khai mỏ dữ liệu Ví dụ: Tập dữ liệu chứa các giao dịch sau: 16 3.2 Các định nghĩa... trọng của khai mỏ dữ liệu 2.1 Các lớp giải thuật học - Kết quả sinh ra dễ dịch (if… then) - Khá đơn giản, nhanh, hiệu quả được sử dụng nhiều - Liên tục trong nhiều năm qua, cây quyết được bình chọn là giải thuật được dùng nhiều nhất và thành công nhất - Giải quyết các vấn đề của phân loại, hồi qui - Làm việc cho dữ liệu số và loại - Được ứng dụng thành công trong hầu hết về phân tích dữ liệu, phân... trúc): biểu diễn về cấu trúc bảng Mô hình túi từ: Thư điện tử dạng vectơ có giá tri thành phần thứ i là tần số xuất hiện từ thứ I trong thư Tập thư điện tử: (bảng ma trận), mỗi dòng là một thư, mỗi cột tương ứng với một từ trong từ điển Xây dựng mô hình phân lớp thư rác, số chiều rất lớn đến vài chục nghìn, mỗi chiều chứa ít thông tin cho phân lớp + Mô hình phân lớp dữ liệu với số chiều rất lớn... thừa, mâu thuẫn không có lợi cho ứng dụng 21 Chương 4 Ý TƯỞNG ỨNG DỤNG KHAI MỎ DỮ LIỆU ĐỂ LỌC THƯ RÁC 4.1 Những tiện ích của thư điện tử (Email) - Đơn giản, nhanh chóng, chi phí thấp - Được nhiều người sử dụng 4.2 Những vấn nạn của thư rác (Spam) - Quản cáo, khiêu dâm, phản động thậm chí là những mã độc hại đính kèm - Gây lãng phí và phiền toái 4.3 Những thống kê về tổn thất do thư rác gây ra - Theo... luật kết hợp được sử dụng rất nhiều trong ứng dụng khai mỏ dữ liệu như đầu tư sản xuất, marketing, phân tích rủi ro,…, do kết quả sinh ra các luật dễ hiểu Tuy nhiên, giải thuật khám phá luật kết hợp thường sinh ra tập khổng lồ các luật kết hợp, thường chứa các luật dư thừa, mâu thuẫn Vấn đề này dẫn đến việc cần có chiến lược để chọn tập luật tốt, hữu ích Nghĩa là người ta cần khai mỏ luật kết hợp Hiện... tự từ tập các mô hình {rMNBi} - Mỗi mô hình ngẫu nhiên chỉ sử dụng ngẫu nhiên n=sqrt(N) chiều - Mô hình xây dựng sau tập trung vào khắc phục lỗi từ các mô hình xây dựng trước đó - Phân lớp: Bình chọn số đông từ {rMNBi} - Hiệu quả: Phân lớp rất chính xác với số chiều lớn 4.7 Chuẩn bị dữ liệu Tạo dữ liệu - Thu thập 1921 thư (1143 thư rác và 778 không phải thư rác) - Tiền xử lý với Bow (McCallum, 1998):... nhiều thư rác, quy về thư gốc - Mô hình túi từ: Bảng dữ liệu, 1921 phần tử (thư), 28719 thuộc tính (từ) và 2 thuộc tính (thư rác hay không phải thư rác) - Nghi thức kiểm tra chéo 3-fold 4.8 Tiêu chí đánh giá Recall, Precision, F1, Accuracy Recall: Số thư rác được phát hiện đúng là thư rác chia cho tổng số thư rác Precision: Số thư rác được phát hiện đúng là thư rác chia cho tổng số thư được dự báo... thực hiện trên nút gốc đến nút lá Ví dụ: Mô hình cây quyết định được xây từ việc học trên tập dữ liệu weather Dữ liệu weather dựa trên các thuộc tính (Outlook, Temp, Humidity, Windy), quyết định (play, no) 9 Hình 2.1: Tập dữ liệu weather Hình 2.2: Cây quyết định cho tập dữ liệu weather Cây có 5 nút lá tương ứng với năm luật quyết định sau đây: + IF (Outlook=sunny) AND (Humidity=high) THEN Play=No... (Top-down) 10 - Bắt đầu từ nút gốc, tất cả dữ liệu học ở nút gốc - Phân hoạch dữ liệu một cách đệ quy bằng việc chọn một thuộc tính để thực hiện phân hoạch tốt nhất có thể 2.3.2 Cắt nhánh Bottom-up Cắt nhánh cây con hoặc cắt nhánh cây từ dưới lên trên, để tránh học vẹt (overfitting, over leaning) 2.4 Chọn thuộc tính phân hoạch Ở mọi nút được đánh giá dựa trên phân tích dữ liệu học tốt nhất có thể: Việc đánh . vực ứng dụng thành công của khai mỏ dự liệu c I~•!XpI~,ƒNbZ~‚T}T,-p$,ƒ•gZXpI gt$I#0 }(0SCác lĩnh vực liên quan đến khám phá tri thức. liệu c I~•!XpI~,ƒNbZ~‚T}T,-p$,ƒ•gZXpI gt$I#0 }(0SCác lĩnh vực liên quan đến khám phá tri thức và khai mỏ dữ liệu O,}gHTKH,ƒU-Z$#TSU1Jas€qIŸg-TzXpI {RH$HgQPL0•T„Rs,-e-ƒ$X„$~uU1Js€qIŸ‰$-f [MKkKXpI•$#XpIgH-0 [XpIfQZT„Rs,-~T‘~,1ˆ$XpI0 [_•X•XpI~O•Rtg•&-ZZK•kKJ$LMg-Tz XpIT{U1JQKhZR1k&qX„$0 [@{T&bXpIg^K„R'J,1ˆ$XpI,Œ$~X1•-ZœXp I,Œ$g|$kKI~…•$LTXpI20 -gR%Q{€qIŸXpI€Z$~RQU1Jg-TzXpIQ{ €NOX$HT|}J&Œ,ke- –HO –,aNbZ –:NaXpIssU‚$K12$KHK'$g –:12$KHK,P-•!XpI0 _1Jg-TzXpIR1k€hTI{U1J,$NTe-PH,}gHTKH, ƒ0|$,dKƒbK~IœKRIœKIbH|$1€NOX$T|}~ bZ,ƒsXpI~g•TR!IbT|}~Q1-Rb}KL€NOX$T| }gH0 8-TzXpIMK,$$LPOQHdRs2UL1KNIJK~,O#~ $ZT…T{IMgQkK0 + Phân. dụ|}NOPOQR!R1k€NO•,MKXpIh-h,0 >pIh-h,X-,H`aYIZZg~hTK~TXO~’XO]~ POQR!YKI-O~Z]0 V }A0(Tập dữ liệu weather }A0ACây quyết định cho tập dữ liệu weather NO…c‰IH12$ƒ$J†TIMPOQR!&-RNO –3›YIZZg¤&O]>YTXO¤$]r:I-O¤Z –3›YIZZg¤&O]>YTXO¤Z,T-I]r:I-O¤Eh& –3›YIZZg¤Zh,-&]>r:I-O¤Eh& –3›YIZZg¤,-]>Y’XO¤,h]r:I-O¤Z –3›YIZZg¤,-]>Y’XO¤˜-I&h]r:I-O¤Eh& 1'Q'-G-H6IJH6KCCLMNIM.HOP*6+R/1S7ECDE* 2.3.1.