1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG KHAI MỎ DỮ LIỆU MỘT SỐ BÀI TOÁN VỀ DATAMINING

28 584 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 1,27 MB

Nội dung

       !"#$%   &$'$'()*+,* /  !"#$ %&'(()()*+ '0*,/1231 " ,-$ ./0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000( 12$(343356789:93;6<83=>?@350 0A (0(0@B9<89:93;6<83 =>?@3500000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000A (0A089:93;6<83=>?@350000000000000000000000000000000000000000000C 12$ADEEFG000000000000000000000000000000000000000000000000000000000000000000000000000000000* A0(0HIJK$LM0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000* A0A0LMNOPOQR!0000000000000000000000000000000000000000000000000000000000000000000000000000000* A0S0LMNOPOQR!$#TAU1JIJ000000000000000000000000000000000000000000000000000V A0S0(0WNOX$NOYZK[XZ\]000000000000000000000000000000000000000000000000000000000000000000000000000000000V A0S0A0^H_ZZT[K000000000000000000000000000000000000000000000000000000000000000000000000000000000000000() A0C0`aKNZb0000000000000000000000000000000000000000000000000000000000000000000000000000000() A0c0ade-R`RZfgQSad000000000000000000000000000000000000000000000000000000(S A0+0ade-h,ZKO000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000(S 12$S@i8FB:0000000000000000000000000000000000000000000000000000000000000000000000000000000000000(c S0(0J0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000(c S0A0HR!$j-00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000(+ S0S0LMIMgQkK:3300000000000000000000000000000000000000000000000000000000000000000000000(* 12$Cl.;>m83=>?@35n@o90 0A( C0(0p$ae-1RqYrT-I]00000000000000000000000000000000000000000000000000000000000000A( C0A0p$dbe-1,HYK-T]0000000000000000000000000000000000000000000000000000000000000000000A( C0S0p$'$gstdXZ1,H$NO,-00000000000000000000000000000000000000000000000000A( C0C0l1u$e-I1,H0000000000000000000000000000000000000000000000000000000000000000000000000000000A( C0c0LM_YIZT-I-vh_-Oh&]00000000000000000000000000000000000000000000000000000AA C0+0LM0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000AS C0w0xU!XpI00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000AS C0*0aRH$H0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000AS <3@358y000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000Ac ( 45 8-TzXpIR1kUQI{T`T|O${,dP-,$R'J 12$,}R{ZbZqN~g"&1{b&j|$$|$08-TzXpI I{MKkKp$K12$KHK•HO${€H&d'$g~KNaXp I~THO~,aNbZ~•!XpI{2&uXpI~‚TgHTKH, ƒsTxXpIIJ0 8-TzXpIR1kƒ$X„$s,Z$HU{ZHQ~……RQ {$,†T$LM0,Z$U{•IMhT‡$€,}U{&2I1ksgHTKH ,ƒ{g-TzXpI{T`&'$LMP-,$,Z$8-TzXpI0 -RNOR1k$qIˆLT2&N&^RQ080Z{$6†8QT~$1ˆR% MNT,OsRbp$gQƒsL$2ULZ‰$hTsT| Š|$$,ƒ{ƒ$X„$‹{‡$€$uIˆLT2RQ0Œ- $!Y,1ˆ$f2]$1ˆR%$dKZhTp${Is8-Tz XpI0_bR…‡$g|$•g|$^RQ|$I-Z,k$‰Kg|$T Tze-HO$-'dP-Tb$`,$NTKH,•• '$-:0{Z{•HUbUŽ,Z$IJK0  A 678*+3 9%% !" 3'3'$:";<%==%%  !" ,Z$p$(VV)~`HTb$g"M&'ZK•K&'…-|$X• X{${KadK~T{ZR…&KH,•e-|$$|$LKf ƒ$I‘KfTsT~|$$,Os|$~’hU~h,hR%$…KKfR1-THO a{ZH&Zb1ˆ$Me-Z$1ˆ0dLHZbR`$gXZ-~ 2$L,a$ƒgZ-~$HZX„~,Os|$Rs…&Œ,ke- THOa0•R…gQPLI{XpI${O{$IJ{Z$1ˆ}T,-HQU! I1,p,Z$2&uXpI1U†$•~Rj-•0 •†T(VVV~HZ&1:0@OT-{H`$&e-|$ub_h,ghIhO R%Q{'$gXpIR1k&,-‚$†T,Z{f0 8QPL  “ ,Z$†T A))A[A))S Y-TgLZ  u R!-“ http:www.sims. berkeley.edu/research/projects/how-much-info-2003]~  Xp  I  Z{  f  †$  c r€-UOh&Yc0() (* ]0>pI†$AIf,Z$”$VH$0 p$&'Tƒ$e-&U•$t2&uXpI,Z$`&'$‚$ ${O [`&'XpI†gZ- –r,ZUO—&6h,O@Z$_-&h@h3h,˜Z,ZTh,OY6@_3] –(+ga†YTŒga(™$-U,$NOXpI0:NaXp I,Z$Ac${O~gZXpIPHIJ{,†Th,-UOh&]0 [H2&uXpIgZ- –{$,†UL…sge$U' –h,g{$,d,‰KNq…- –r(Z{,†T$-UOh& [2&uXpI,Os|$ –šQKMAwc`$TŒ${O [2&uXpI12$Tb  S –ds|$OR-$XO,}HgZXpIgt$I#sH$-Z X!e-gH{$0`gZXpI12$R'z|‡$…•I1,p2 T`,$-ZX!0 –:„„ZgQZbRf1{KH,• –›,-hhIhZTS)h,-UOh|$sgH{$ –’-IT-,A),$-ZX!TŒ${O [>pIs’Z,X\Xh –ZZ$IhQKM2C“Of}TgQT™${O~I1,p{$,†T h,-UOh&XpI 6}gZXpIPHIJR”zfg-Hp$,ƒ}Tx0 6dRsRœ,-I{I{T&-Z‰$-…•,‰,a,ƒP-,$•H gZXpIgt$I#0H,ƒK„„Ztƒ2P-U-Z$#TKH P-,$,Z$gZ-~HXUHZa€HsˆQ{HLT- ~p$,ƒZ-€HR!R1k$ON{K12$KHKRs,! HU•T$ŽZ~•,-Rˆe-|$$gHTKH,ƒ{g-TzXp I,Z$p$†T$fRNO‚TRHKƒ$HffQe-Htƒ~ 2P-~|$OsKH,•,ƒ•HgZXpIgt$I#{HKX„$s XpIgH-0 Hƒ$X„${|$e-|$$g-TzXpI…•}TdO,Z$ sIj1QK!~$N{$ULZ•T~OQ~&~KH$-IM~ }TgQT|$~I1,H~KNIZb†UL0 bKas|$$T|,1ˆ$3&',-H$w†TA))(Z,‚$g- TzXpII{T`,Z$()|$$tUMde-QgžWW30  C 3'1'%% !" |$$gHTKH,ƒ•XpIR1kR!$j-I{&,a€d•Xp Ip$|$paI{sTx{1-R1kUQRQ08-TzXpII{ T`U1JP-,$~I{PH,}gHTKH,ƒ•XpI08-TzXpI R1kKNa{gLZ&H~KNaT`I1k$IJXpI‚TKH,-H T‘ZœHIM…Ÿ$j-0 }(0AQuá trình khám phá tri thức H,}gHTKH,ƒT|L,Z$}AI{T`PH,}IœKKƒbK~ &qX„$s2&uXpI~THO~K12$KHK'$g,Z$KNaXp  }(0( Lĩnh vực ứng dụng thành công của khai mỏ dự liệu c I~•!XpI~,ƒNbZ~‚T}T,-p$,ƒ•gZXpI gt$I#0 }(0SCác lĩnh vực liên quan đến khám phá tri thức và khai mỏ dữ liệu O,}gHTKH,ƒU-Z$#TSU1Jas€qIŸg-TzXpI {RH$HgQPL0•T„Rs,-e-ƒ$X„$~uU1Js€qIŸ‰$-f  [MKkKXpI•$#XpIgH-0 [XpIfQZT„Rs,-~T‘~,1ˆ$XpI0 [_•X•XpI~O•Rtg•&-ZZK•kKJ$LMg-Tz XpIT{U1JQKhZR1k&qX„$0 [@{T&bXpIg^K„R'J,1ˆ$XpI,Œ$~X1•-ZœXp I,Œ$g|$kKI~…•$LTXpI20 -gR%Q{€qIŸXpI€Z$~RQU1Jg-TzXpIQ{ €NOX$HT|}J&Œ,ke- –HO –,aNbZ –:NaXpIssU‚$K12$KHK'$g –:12$KHK,P-•!XpI0 _1Jg-TzXpIR1k€hTI{U1J,$NTe-PH,}gHTKH, ƒ0|$,dKƒbK~IœKRIœKIbH|$1€NOX$T|}~ bZ,ƒsXpI~g•TR!IbT|}~Q1-Rb}KL€NOX$T| }gH0 8-TzXpIMK,$$LPOQHdRs2UL1KNIJK~,O#~ $ZT…T{IMgQkK0  + Phân lớpWNOX$T|}KNIZbX-,MKXpI…%YIJK]0 Ví dụ&‰$-…& MKXpI1Rq~TŒ1…%I{1,H-O 1U}1ˆ$~T„I{€NOX$T|}KNIJKMKXpI1Rq {1,H-O1U}1ˆ$R•g…T`1RqTJRQ}T|}X UHZR1kI{1{O…KLI{1,H-Og|$¡ Hồi quy: WNOX$T|}KNIZb,MKXpI…%YIJK]I{$H ,!I„0 Ví dụ&$1ˆ-€NOX$T|}UHZHZT1J&|$8|$Yg•&' ]•HOQ'1ˆQ~T•-0 Gom nhóm: WNOX$T|}$ZT„TMKXpIYg|$…%]&-Z ZHXpI•$…THad12$-{XpIe--…T gH-…HadgH-0 Ví dụ:‰$-f$ZT…T&,Z$T`IJK&-ZZH& •$…T$z•$U-YgZ-€%`~gZ-]0ZT…T ‡$1dRsg|$$HT&H0 Luật kết hợp::HT'IP-$p-HUQe-XpI~¢$b IMgQkK…•KHPOIM1một khách hàng mua bơ, bánh mì thì cũng mua sữa0 -U1Jg-TzXpI~QKRQI{RH$H,ƒ&,-•s€q IŸ{g-TzXpI08•TR!gQPLX-{ZT„U-Rfe-ƒ$X„$0 $j-I{“…$1ˆ&qX„$ZœO$-sIjTJ…gL†$U!RH $HR1k,ƒ&,-0a}MOgQPL&,-•PH,}gHTKH,ƒ fX••~X•X!gQPLR•$‰K$1ˆ&qX„$ZœO$-…•RH$H {•R1kgQPL&,-0QgQPLg|$RbR1k&ZJT„Rs,-~ $1ˆ-…•P-OIbHU1Js€qIŸ-Og-TzXpIR•IœKIbPH,} gHTKH,ƒ0 p$$LM,Z$()$LMP-,$,Z$g-TzXpIU-Z $#T (0 8IH$$s$ A0 _-UO$NO2 S0 NOPOQR!  w C0 :12$KHKMKkKT|}1U-$$$~UZZ&$0 c0 •$$‘ +0 HO{•2Œ,k w0 LM$ZT„Tgh-& *0 @MgQkK…I{K,Z,0  [...]... Recall và Precision Accuracy: Số thư được dự báo dùng chia cho tổng số thư 24 Bảng so sánh kết quả phân lớp 25 TÀI LIỆU THAM KHẢO 1 Bạch Hưng Khang, Hoàng Kiếm (1989), Trí tuệ nhân tạo, các phương pháp và ứng dụng, Nxb Khoa học và Kỹ thuật 2 Hoàng Văn Kiếm, Bài giảng môn Ứng dụng tri thức và khai mỏ dữ liệu 3 Đỗ Thanh Nghị - Lê Thanh Vân (2012), Giáo trình các hệ tri thức và khai thác dữ liệu, Nxb... gọi là Apriori được đề xuất đầu tiên bởi Agrawal và các cộng sự cho phép khám phá ra các mối liên quan giữa các biến dữ liệu Luật kết hợp được ứng dụng rất nhiều trong thực tế, luôn nằm trong nhóm đầu của các giải thuật ứng dụng thành công của khai mỏ dữ liệu Giải thuật cũng góp mặt vào trong 10 giải thuật quan trọng của khai mỏ dữ liệu Ví dụ: Tập dữ liệu chứa các giao dịch sau: 16 3.2 Các định nghĩa... trọng của khai mỏ dữ liệu 2.1 Các lớp giải thuật học - Kết quả sinh ra dễ dịch (if… then) - Khá đơn giản, nhanh, hiệu quả được sử dụng nhiều - Liên tục trong nhiều năm qua, cây quyết được bình chọn là giải thuật được dùng nhiều nhất và thành công nhất - Giải quyết các vấn đề của phân loại, hồi qui - Làm việc cho dữ liệu số và loại - Được ứng dụng thành công trong hầu hết về phân tích dữ liệu, phân... trúc): biểu diễn về cấu trúc bảng  Mô hình túi từ: Thư điện tử dạng vectơ có giá tri thành phần thứ i là tần số xuất hiện từ thứ I trong thư  Tập thư điện tử: (bảng ma trận), mỗi dòng là một thư, mỗi cột tương ứng với một từ trong từ điển  Xây dựng mô hình phân lớp thư rác, số chiều rất lớn đến vài chục nghìn, mỗi chiều chứa ít thông tin cho phân lớp + Mô hình phân lớp dữ liệu với số chiều rất lớn... thừa, mâu thuẫn không có lợi cho ứng dụng 21 Chương 4 Ý TƯỞNG ỨNG DỤNG KHAI MỎ DỮ LIỆU ĐỂ LỌC THƯ RÁC 4.1 Những tiện ích của thư điện tử (Email) - Đơn giản, nhanh chóng, chi phí thấp - Được nhiều người sử dụng 4.2 Những vấn nạn của thư rác (Spam) - Quản cáo, khiêu dâm, phản động thậm chí là những mã độc hại đính kèm - Gây lãng phí và phiền toái 4.3 Những thống kê về tổn thất do thư rác gây ra - Theo... luật kết hợp được sử dụng rất nhiều trong ứng dụng khai mỏ dữ liệu như đầu tư sản xuất, marketing, phân tích rủi ro,…, do kết quả sinh ra các luật dễ hiểu Tuy nhiên, giải thuật khám phá luật kết hợp thường sinh ra tập khổng lồ các luật kết hợp, thường chứa các luật dư thừa, mâu thuẫn Vấn đề này dẫn đến việc cần có chiến lược để chọn tập luật tốt, hữu ích Nghĩa là người ta cần khai mỏ luật kết hợp Hiện... tự từ tập các mô hình {rMNBi} - Mỗi mô hình ngẫu nhiên chỉ sử dụng ngẫu nhiên n=sqrt(N) chiều - Mô hình xây dựng sau tập trung vào khắc phục lỗi từ các mô hình xây dựng trước đó - Phân lớp: Bình chọn số đông từ {rMNBi} - Hiệu quả: Phân lớp rất chính xác với số chiều lớn 4.7 Chuẩn bị dữ liệu Tạo dữ liệu - Thu thập 1921 thư (1143 thư rác và 778 không phải thư rác) - Tiền xử lý với Bow (McCallum, 1998):... nhiều thư rác, quy về thư gốc - Mô hình túi từ: Bảng dữ liệu, 1921 phần tử (thư), 28719 thuộc tính (từ) và 2 thuộc tính (thư rác hay không phải thư rác) - Nghi thức kiểm tra chéo 3-fold 4.8 Tiêu chí đánh giá Recall, Precision, F1, Accuracy Recall: Số thư rác được phát hiện đúng là thư rác chia cho tổng số thư rác Precision: Số thư rác được phát hiện đúng là thư rác chia cho tổng số thư được dự báo... thực hiện trên nút gốc đến nút lá Ví dụ: Mô hình cây quyết định được xây từ việc học trên tập dữ liệu weather Dữ liệu weather dựa trên các thuộc tính (Outlook, Temp, Humidity, Windy), quyết định (play, no) 9 Hình 2.1: Tập dữ liệu weather Hình 2.2: Cây quyết định cho tập dữ liệu weather Cây có 5 nút lá tương ứng với năm luật quyết định sau đây: + IF (Outlook=sunny) AND (Humidity=high) THEN Play=No... (Top-down) 10 - Bắt đầu từ nút gốc, tất cả dữ liệu học ở nút gốc - Phân hoạch dữ liệu một cách đệ quy bằng việc chọn một thuộc tính để thực hiện phân hoạch tốt nhất có thể 2.3.2 Cắt nhánh Bottom-up Cắt nhánh cây con hoặc cắt nhánh cây từ dưới lên trên, để tránh học vẹt (overfitting, over leaning) 2.4 Chọn thuộc tính phân hoạch Ở mọi nút được đánh giá dựa trên phân tích dữ liệu học tốt nhất có thể: Việc đánh . vực ứng dụng thành công của khai mỏ dự liệu c I~•!XpI~,ƒNbZ~‚T}T,-p$,ƒ•gZXpI gt$I#0 }(0SCác lĩnh vực liên quan đến khám phá tri thức. liệu c I~•!XpI~,ƒNbZ~‚T}T,-p$,ƒ•gZXpI gt$I#0 }(0SCác lĩnh vực liên quan đến khám phá tri thức và khai mỏ dữ liệu O,}gHTKH,ƒU-Z$#TSU1Jas€qIŸg-TzXpI {RH$HgQPL0•T„Rs,-e-ƒ$X„$~uU1Js€qIŸ‰$-f  [MKkKXpI•$#XpIgH-0 [XpIfQZT„Rs,-~T‘~,1ˆ$XpI0 [_•X•XpI~O•Rtg•&-ZZK•kKJ$LMg-Tz XpIT{U1JQKhZR1k&qX„$0 [@{T&bXpIg^K„R'J,1ˆ$XpI,Œ$~X1•-ZœXp I,Œ$g|$kKI~…•$LTXpI20 -gR%Q{€qIŸXpI€Z$~RQU1Jg-TzXpIQ{ €NOX$HT|}J&Œ,ke- –HO –,aNbZ –:NaXpIssU‚$K12$KHK'$g –:12$KHK,P-•!XpI0 _1Jg-TzXpIR1k€hTI{U1J,$NTe-PH,}gHTKH, ƒ0|$,dKƒbK~IœKRIœKIbH|$1€NOX$T|}~ bZ,ƒsXpI~g•TR!IbT|}~Q1-Rb}KL€NOX$T| }gH0 8-TzXpIMK,$$LPOQHdRs2UL1KNIJK~,O#~ $ZT…T{IMgQkK0  + Phân. dụ|}NOPOQR!R1k€NO•,MKXpIh-h,0 >pIh-h,X-,H`aYIZZg~hTK~TXO~’XO]~ POQR!YKI-O~Z]0  V }A0(Tập dữ liệu weather }A0ACây quyết định cho tập dữ liệu weather NO…c‰IH12$ƒ$J†TIMPOQR!&-RNO –3›YIZZg¤&O]>YTXO¤$]r:I-O¤Z –3›YIZZg¤&O]>YTXO¤Z,T-I]r:I-O¤Eh& –3›YIZZg¤Zh,-&]>r:I-O¤Eh& –3›YIZZg¤,-]>Y’XO¤,h]r:I-O¤Z –3›YIZZg¤,-]>Y’XO¤˜-I&h]r:I-O¤Eh& 1'Q'-G-H6IJH6KCCLMNIM.HOP*6+R/1S7ECDE* 2.3.1.

Ngày đăng: 10/04/2015, 15:20

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w