Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
249,68 KB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH ________ ________ BÀI THU HOẠCH MÔN HỌC KHAI PHÁ DỮ LIỆU Đề Tài: Ứng Dụng Tìm Kiếm Các Rút Gọn Từ Một Hệ Thông Tin Học viên thực hiện: Nguyễn Anh Nhân MSSV: CH1101114 Trần Thanh Quốc Thắng MSSV: CH1101131 TP. HCM, năm 2012 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG !"#$%&'#( )#*#+#(,!"#$%&'#( -#./##(012+-#./#34+5+#678#+9.!:;+<3#< =#>,2+<#(3?+5+#7@+:%:ABA2,2:CD%:)8#1E,F:6 78#2!678#+9.!:;'"G='1#(='+A'"1H)I%:,*# '+J"K+AL*:6+5+#,2:%:+#J$:M+5+#:N/:J6+O#- .P0,5:4=>=2.<+#J$:M+5+#,2QR1LS+5+#12,5+M) 2 '+5+#.;12:F:"T:;C:J:U+3#J+:%:+O7"#J76:V+18: ,2++M$.LS:'+A#+9:+W'+5+#206;QX127@+H 1S#,5:4+G1*:G:5+%:#Y:96:ZL:;+<%$=[A@A\# +AG:%:2"#=G);.]+A7@+32#+;:ZL127@++%: +9:+AG,#(:"#$%'='1#(.;,23#J:U+2'+A#+9: :;1S#:G:GL-#)C,O1^=G.;722"G8::0Y#Y :9,!:%::%:+9:.<"#$%'='1#(:;C:+W+AG'"R# ='1#("1H.\A #) #%GQLG7#+:_11.\.LA.`E:a"#$%='1#(L Qb"#$%='1#(12,#(:Qc=[='1#(1`:Qc.<"%7$%'d# +V:,2:e#+#('d0J+.`+AG+Lf1#)g *#7@+:%:+#J$:M9 =[f6#JQEh00=.\$%+3#<b"#$%='1#(6+L-.LS:D_7 12,#(:"%7$%+A#+9:+AG:%::fQi='1#(6127@+d%+Aj+AC:Dk+ '+5+#1l6+AL*:.P0:L3#J+,2:;"em'C:6=L*#=/ :%:d#1M+6A23@:6d#+V:+AG:fQi='1#()g;#+;71/#6"#$%=' 1#(127@+d%+Aj8:+A#+9:7*#+W'='1#(.m++M$.LS:) I#$%='1#(127@+3L*::ad%+AO"#$%+A#+9:nKnowledge Discovery ProcesQo63GH7 • p%:.`,k.!,2"5#='1#(.<#e#d0J+,k.!nProblem understanding and data understandingo) • l3`='1#(nData preparationo63GH7:%:d%+AO127Q/: ='1#(ndata cleaningo6+C:S$='1#(ndata integrationo6:8='1#( ndata selectiono63#J.#='1#(ndata transformationo) MÔN HỌC: KHAI PHÁ DỮ LIỆU 3 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG • I#$%='1#(nData miningoD%:.`nhiệm vụ khai phá dữ liệu,2 1F:8kỹ thuật khai phá dữ liệu)IJ+de:G+7@+nguồn tri thức thô) • %#%nEvaluationo=F+AY7@+QR+#Y:C+#J2kiểm tra,2 lọcH+A#+9:+.LS:) • A#<"#nDeploymento) %+AO"#$%+A#+9:"5:q127@+d%+AO++F+W3L*: .+#Y.J3L*::R#:472127@+d%+AO1]$,2:;d0+Ai1/#:%: 3L*:.\d) )%+AO"%7$%+A#+9: 1. Các bước trong quá trình khám phá tri thức %+AO"%7$%+A#+9:127@+:r#1]$H7:%:3L*: • s&+:1_#n127Q/:='1#(o • s&+#+_A+#Gn+C:S$='1#(o • s&+Q_1_:+#Gn:81F='1#(o • s&++AQtGA7+#Gn3#J.#='1#(o • s&+7##n"#$%='1#(o • s++_A_,1+#Gn.%#%7uo • sIGv1_=_$A_Q_++#Gn3#<=#>+A#+9:o %+AO"%7$%+A#+9:127@+:r#1]$H7:%:3L*:.LS:+F: +#,*# • s&+QGA:_Qn:%:H='1#(o • s&+vA_GQ_n"G='1#(o MÔN HỌC: KHAI PHÁ DỮ LIỆU 4 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG • sQ"wA_1_,+=+n='1#(:[+<QX.LS:"#$%o • s++_AQn7u"J+de+W"#$%='1#(o • sIGv1_=_n+A#+9:./+.LS:o Data mining Data mining Input data Input data Results Results Preprocessing Preprocessing Postprocessing Postprocessing Operational Operational Database Database Selection Selection Selection Selection Utilization Utilization Cleaned Verified Focused Eval. of interes- tingness Raw data Time based selection Selected usable patterns 1 3 2 MÔN HỌC: KHAI PHÁ DỮ LIỆU 5 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG MÔN HỌC: KHAI PHÁ DỮ LIỆU 6 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG 2. Khái niệm khai phá dữ liệu I#$%='1#(?7AU++AC:+5+#'C:6:L3#J+6+#!7l6 $P+C:='1#(3%+F.@6#e#+C:='1#(+AY:%:+M$='1#(1*) I#$%='1#(w&+7##6127@+3L*::a+#J+AOI&&nIGv1_=_ &#Q:G,_A0#&+3Q_o6::k$+A#+9:r+ASAd0J+.`6=F3%G,2"%# d%+='1#() LS1*='1#(Qx:;.<"#$%63k+"T1G/#='1#(.LS:1L+A' 0+/7+-#6:;:k+AU:03%:k+AU:0$#:k+AU: • &'1#(.LS:1L+A' • %:+M$+#+A0!+Rnt1+t#1_Qo • %::fQi='1#(d(nA_1+#G1=+3Q_Qo0d(.R# +LSnG3y_:+A_1+#G1=+3Q_Qo • %::fQi='1#(#G+%:n+AQ:+#G1=+3Q_Qo0"G='1#( n=+vA_GQ_Qo • %::fQi='1#(L*9=[ • fQi='1#("5#nQ$+#1=+3Q_Qo6:fQi='1#(+-## n+_7$GA1=+3Q_Qo6:fQi='1#("5+-##nQ$+#Gw+_7$GA1 =+3Q_Qo6:fQi='1#(:r#+-##n+#7_Q_A#_Q=+3Q_Qo6:f Qi='1#(,m3en+_D+=+3Q_Qo6:fQi='1#(.$Lf+#( n71+#7_=#=+3Q_Qo6z • %:"G+5+#+_{GA1={#=_{_36z • &'1#(+/7+-#:%:=N='1#(n=+Q+A_7Qo Các ứng dụng và chức năng của khai phá dữ liệu - P+C:='1#(6r+ASAd0J+.` - P+C:de1^+`+AL- - e1^$P+C:Aa#AG - e1^,2$P+C::%:Q#| MÔN HỌC: KHAI PHÁ DỮ LIỆU 7 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG - %:9=["%:L"#$%,m3e6$P:#+2#1#({_36.#! +A`08:6+2#:C63eG#<7))) - 9:m:a"#$%='1#( - 5+e"%##(7) - M+"J+S$ - P1*$,2=F.G% - G7:[7 - I#$%:r# 3. Các bước trong khai phá dữ liệu Bước thứ nhấtO+26D%:.`,2.`E32#+G%12+O7#<1E ,F:9=[+W.;O+232#+G%6D%:.`:%:#(7,[:$e# G2+2)}L*:20QXd0J+.`:G,#(:AU+A.LS::%:+A#+9:'C: ,2:G$~$:8:%:$Lf$%$"#$%='1#(+C:S$,*#7[:.C: 9=[,23e:k+:a='1#() Bước thứ hai+M$,2+#!Dc1^='1#()2++M$,2Dc1^+56:N .LS:8#12+#!Dc1^='1#(?71G/#3|#>n127Q/:='1#(o6Dc1^,#(: +#J='1#(n127#2='1#(o63#J.#='1#(,2AU+8='1#(J: +#J+63L*:20+L-:#J7#!+-##k++AG+G23@d#+AO $%+#(+A#+9:)&G='1#(.LS:1k0+W#!H"%:6"5 .Hk+z:;+<P0A:%:71u)3L*:206='1#(QXk+d%6 .0.a6.LS:AU+8,2A-#A/:G%) Bước thứ baI#$%='1#(6AU+A:%:+A#+9:)2"#$%='1#(60 ;#:%:"%:12+AC:A:%:7uG]:•,2:%:75Ol=L*#:%:='1#() ##.G/20Ak+d+A863GH7:%::5.G/L:9:m6#(7 ,[,27[:.C::a"#$%='1#(6=4$Lf$%$"#$%2G€ 5+L-6:%:32#+G%"#$%='1#(3GH7:%:32#+G%7 +C75+e•.LA+C:k+:k+:a='1#(6:%:32#+G%=F3%Gw 3GH7:e,#(:$%+#(:%:Q0=#>=F+AY='1#(#(:;)T+_G32# MÔN HỌC: KHAI PHÁ DỮ LIỆU 8 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG +G%D%:.`.LS:72+1F:8:%:$Lf$%$"#$%='1#(:G $4S$) Bước thứ tưc=[:%:+A#+9:$%+#(.LS:)2#<+A#+9:.\+O7 .LS:6.]:3#(+12127Q%+|:%:75+e,2=F.G%)%:3L*:+AY:;+<1]$ .#1]$1/#7@+QR16"J+de+.LS::;+<.LS:1k0+A3O+AY+k+:e :%:1+F:#()%:"J+de:ad%+AO$%+#(+A#+9::;+<.LS: .L,29=[+AG:%:1E,F:"%:)&G:%:"J+de:;+<12:%: =F.G%G]::%:75+eY:U:;+<.LS:.L,2G:%:(+Rr+AS Ad0J+.`?7+F.@G%d%+AO20) ;71/#I&&127@+d%+AO"J+Dk+A+A#+9:+W"G='1#(72+AG .;"#$%='1#(12:5.G/d+A8k+) 4. Nhiệm vụ chính trong khai phá dữ liệu %+AO"#$%='1#(12d%+AO$%+#(A7u+5+#)AG .;6#e#+M+"#$%+O7"#J7:%:7u.%d+P7+_G=/D%:.` L:%:1M+6$P1*$6H#d06:P0d0J+.`))) a. Phân lớp (phân loại - classification) 2,#(:D%:.`7@+27%D/+W7@+7u='1#(,2G7@++AGQR :%:1*$.\.LS:3#J++AL*:.;)[:+#Y:a+M++G%$P1*$12+O7A7R# d(2G.;#'+@:+C=F3%G,2+@:+C$P1*$)L+Jd% +AO$P1*$:;+<Qc=[7R#d(20.<=F3%G:G:%:7[:7*#) %:"#J+9:.LS:$%+#(3#<=#>=L*#=/:%:1M++_G:%:Q bJ:%:+@:+C=F3%G:a7@+7[:+Ge7\.#!"#(:a:%:+#!.! +O7[:?7+AG1*$:qA+AG"J+1Mg) C=[@+7[:3#<=#>+5+#,!P,#Y:;:%:+@:+C=F 3%G128+Y6+#6#*#+C6+AO.@8:,kz,2+@:+C$P1G/#12 +AO.@1\./G:aP,#Y) b. Hồi qui (regression) 2,#(:8:7@+27%D/+W7@+7u='1#(+27@+3#J=F.G% :;#%+A`+F:)#(7,[:aH#d0+Lf+FL$P1*$6.#<7"%: :C12i:r+@:+C.<=F3%G121#Y+[::9"5$e#A-#A/:) #(: =F3%G:%:#%+A`QR+L-.LS:1273i#:%:$Lf$%$+R"Y: MÔN HỌC: KHAI PHÁ DỮ LIỆU 9 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG .#<6:‚/LH#d0+0J+C)0#Y6$Lf$%$75O G%:Z.LS:Qc=[6,C=[:P0d0J+.`) ƒ=[:aH#d012Ak+#!6,C=[=F.G%QR1LSQ#,M+$%+ d#(+-#+AG"AW3?:%:=N+O7,#Q;3?:%:+#J+3` :e73#J+WD„L*:1LSQ%:Dk+L-#3(:;+<:J+3?:%:"#<7 +A:%:+A#(:9„=F3%G::aL-#=4.R#,*#7@+Qe$l7z c. Phân nhóm (clustering) 2,#(:75+e:.<+O7A:%:+M$0:%:;761G/#75+e='1#() %:;7:;+<+%:G]:$P:k$0R#1Y);E12=' 1#(:;+<,W+@:;7201/#,W+@:;7"%:)%:9=["# $%='1#(:;#(7,[$P;7L$%+#(+M$:%:"%:2:; $e9#R+AG&+#J$+`„D%:.`:%:d$+W:%: $Lf$%$.G+#HG/#z#Yd:]+:X.J,#(:$P;712 #(7,[.%#%='1#(6277M+.@D%:Qk+.3#J•:%:+AL-+AG &) d. Tổng hợp (summarization) 2:5,#(:1#Yd.J:%:$Lf$%$+O7"#J77@+75+e+M$ :G='1#()I…+M++S$+L-%$=[+AG,#(:$P+C:='1#(:; +C+m7=N,23%G:%G+F.@)#(7,[:C12QeQ#A:%:75+e .]:+AL:G7@+1*$)5+e1G/#20127@+"#<+S$6+;7+V+:%:.]: +C::a+k+:e0J+:%:7[::a7@+1*$)%:75+e.]:+AL +<#(+_G1M+:;=/QbJ7@+7[:+@:,!1*$.\:q+AG+#! .!+O7[:.;:;+k+:e:%:+@:+C.\Y+AG"J+1Mg)L^A?1M+ =/20:;:%:"%:3#(+QG,*#1M+$P1*$)M+$%+#(.]:+AL:G 1*$:qQeQ#"#:%:7[:.\+@:,!1*$.;) e. Mô hình hoá sự phụ thuộc (dependency modeling) 2,#(:+O7"#J77@+75O75+eQF$[+@:#':%:3#J6+@: +C+_G#79:9::k+AU::a75O75+en+L-=L*#=/.H +`o)AG.;6:%:3#J$[+@:3@$M,2G:%:3#J"%:)9:.` 1LS75O75+e79:.@$[+@:)'$[+@:20+L-.LS: 3#<+`=L*#=/+_G1M+bJw+OgnJ+#!.!12.U+O"J+1M.Uo) !0Y+V:6:e+#!.!,2"J+1M.!:;+<12QF"J+S$1G#::a:%: MÔN HỌC: KHAI PHÁ DỮ LIỆU 10 [...]... tắc và rút gọn hàm này cho ra hàm phân biệt dạng hội chuẩn tắc, cuối cùng là in ra các rút gọn hoàn toàn cho hệ thông tin đã nhập Hình 3 Ma trận phân biệt Hình 4 Hàm phân biệt và các rút gọn của hệ thông tin Hình vuông đỏ trong Hình 5 minh họa 1 trong các vị trí dùng để nhập giá trị cho hệ thông tin Ứng dụng sẽ yêu cầu người dùng phải nhập đầy đủ dữ liệu cho tất cả các ô trống trong hệ thông tin Khi... hoặc ca 2 rút gọn này nói lên rằng: để bảo toàn khả năng phân loại của tập thuộc tính ban đầu, ta cần sử dụng tập thuộc tính {b,a} hoặc {c,a} Đây cũng chính là 2 rút gọn hoàn toàn của hệ thông tin MÔN HỌC: KHAI PHÁ DỮ LIỆU 18 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG Phần 2: Ứng Dụng Tìm Kiếm Các Rút Gọn Từ Một Hệ Thông Tin I Giới thiệu tổng quan về ứng dụng Hình... biến được sử dụng để ước lượng độ tin cậy của các tập luật kết hợp III Phương pháp rút gọn thuộc tính từ một hệ thông tin 1 Khái niệm Việc dư thừa các thuộc tính trong một hệ thông tin là điều khó tránh khỏi Việc dư thừa các thuộc tính sẽ làm ảnh hưởng đến tốc độ truy cập dữ liệu và khả năng lưu trữ trong hệ thống Do đó, cần thiết phải tìm kiếm các thuộc tính có thể được bỏ đi mà thông tin chúng ta... tổng quan về ứng dụng Hình 1 Màn hình khởi tạo của ứng dụng MÔN HỌC: KHAI PHÁ DỮ LIỆU 19 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG Hình 2 Màn hình kết quả của ứng dụng Ứng dụng tìm kiếm các rút gọn của một hệ thông tin cho phép người dùng nhập vào một hệ thông tin bao gồm bốn đối tượng và bốn thuộc tính Ứng dụng sau đó sẽ tính toán và hiển thị kết quả tính toán... CNTT QUA MẠNG các thông tin về các phòng ban và các trưởng phòng Như vậy sẽ suy ra được mối quan hệ giữa các nhân viên và các trưởng phòng Phương pháp suy diễn dựa trên các sự kiện chính xác để suy ra các tri thức mới từ các thông tin cũ Mẫu chiết xuất được bằng cách sử dụng phương pháp này thường là các luật suy diễn Phương pháp quy nạp: phương pháp quy nạp suy ra các thông tin được sinh ra từ cơ sở dữ... thuộc tính P của một hệ thông tin một số thuộc tính có thể bỏ được thì ta được một tập rút gọn của P Nói cách khác, rút gọn của tập thuộc tính P là tập thuộc tính con B giữ nguyên khả năng phân loại P Dễ dàng thấy rằng, vì lõi của P là tập các thuộc tính không thể bỏ được của P nên tất cả các rút gọn của P đầu chứa tập thuộc tính lõi Một rút gọn B của tập thuộc tính P được gọi là rút gọn hoàn toàn nếu... quy nạp Một cơ sở dữ liệu là một kho thông tin nhưng các thông tin quan trọng hơn cũng có thể được suy diễn từ kho thông tin đó Có hai kỹ thuật chính để thực hiện việc này là suy diễn và quy nạp Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các thông tin trong cơ sở dữ liệu Ví dụ như toán tử liên kết áp dụng cho bảng quan hệ, bảng đầu chứa thông tin về các nhân viên và phòng ban,... hoặc DB Đây cũng chính là hai rút gọn hoàn toàn của hệ thông tin Hình 6 Các rút gọn của hệ thông tin II Tổng quan về cách hiện thực ứng dụng Ứng dụng được viết bằng ngôn ngữ lập trình C# trên nền Window Form Application Các hàm chính của chương trình bao gồm: Bảng 1: Các hàm chính trong chương trình Tên hàm public bool KiemTraHeThongTin() public void KhoiTao() public void TinhMaTranXX() public void InMaTranXX()... với các mô hình Hai phương pháp logic và thống kê chuẩn có thể sử dụng trong mô hình kiểm định Phương pháp tìm kiếm: Phương pháp này bao gồm hai thành phần: tìm kiếm tham số và tìm kiếm mô hình Trong tìm kiếm tham số, giải thuật cần tìm kiếm các tham số để tối ưu hóa các tiêu chuẩn đánh giá mô hình với các dữ liệu quan sát được và với một mô tả mô hình đã định Việc tìm kiếm không cần thiết đối với một. .. đổi tạo nên một họ các mô hình Với mỗi một mô tả mô hình, phương pháp tìm kiếm tham số được áp dụng để đánh giá chất lượng mô hình Các phương pháp tìm kiếm mô hình thường sử dụng các kỹ thuật tìm kiếm heuristic vì kích thước của không gian các mô hình có thể thường ngăn cản các tìm kiếm tổng thể, hơn nữa các giải pháp đơn giản (closed form) không dễ đạt được b Phương pháp suy diễn / quy nạp Một cơ sở . MINH ________ ________ BÀI THU HOẠCH MÔN HỌC KHAI PHÁ DỮ LIỆU Đề Tài: Ứng Dụng Tìm Kiếm Các Rút Gọn Từ Một Hệ Thông Tin Học viên thực hiện: Nguyễn Anh Nhân MSSV: CH1101114 Trần Thanh Quốc. dụng ƒ=[+O7"#J7:%:AU+8:a7@+(+5+#:G$~$L-# =4M$,2G7@+(+5+#3GH73R.R#+LS,23R+@:+C) ƒ=[Q.;QX+C+G%,2#<+`"J+de+C+G%:G7+AM$P 3#(+627$P3#(+=/+0<:l+V:,2AU+82720:GA27 $P3#(+=/@#:l+V:6:R#:412#A:%:AU+8G2+G2:G( +5+#.M$) Hình 3. Ma trận phân biệt Hình 4. Hàm phân biệt và các rút gọn của hệ thông tin O,5.|+AGO–7#8‡+AG:%:,`+AC=4.<M$#% +A`:G(+5+#)ƒ=[QX0Y:L-#=4$e#M$.0.a=' 1#(:G+k+:e:%:5+AR+AG(+5+#)I#L-#=4.M$.0.a :%:#%+A`+O9=[7*#3V+.:5,#(:,#(:+C+G%) MÔN. Màn hình khởi tạo của ứng dụng MÔN HỌC: KHAI PHÁ DỮ LIỆU 19 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG Hình 2. Màn hình kết quả của ứng dụng ƒ=[+O7"#J7:%:AU+8:a7@+(+5+#:G$~$L-# =4M$,2G7@+(+5+#3GH73R.R#+LS,23R+@:+C) ƒ=[Q.;QX+C+G%,2#<+`"J+de+C+G%:G7+AM$P 3#(+627$P3#(+=/+0<:l+V:,2AU+82720:GA27 $P3#(+=/@#:l+V:6:R#:412#A:%:AU+8G2+G2:G( +5+#.M$) Hình