Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 104 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
104
Dung lượng
8,37 MB
Nội dung
TRƯ NG ð I H C TÂY ðÔ KHOA K THU T CÔNG NGH LU N VĂN T T NGHI P ð I H C KHAI M D LI U VÀ KHÁM PHÁ TRI TH C Sinh viên th c hi n: Cán b hư ng d n: H tên: Quách Luyl ða MSSV: 0751010009 L p: ð i h c Tin h c Ths Dương Văn Hi u C n Thơ, 2011 TRƯ NG ð I H C TÂY ðÔ KHOA K THU T CÔNG NGH LU N VĂN T T NGHI P ð I H C KHAI M D LI U VÀ KHÁM PHÁ TRI TH C Sinh viên th c hi n Cán b hư ng d n H tên: Quách Luyl ða MSSV: 0751010009 L p: ð i h c Tin h c Ths Dương Văn Hi u Cán b ph n bi n H c hàm, h c v , h tên cán b ph n bi n Lu n văn ñư c b o v t i: H i ñ ng ch m lu n văn t t nghi p B môn …… …………………… … Khoa K Thu t Công Ngh , Trư ng ð i h c Tây ðơ vào ngày tháng năm … Mã s đ tài: Có th tìm hi u lu n văn t i: • Thư vi n: Trư ng ð i h c Tây ðơ • Website: L I CÁM ƠN “ði kh p th gian không t t b ng M Gánh n ng cu c đ i khơng kh b ng Cha Nư c bi n mênh mông khơng đong đ y tình M Mây tr i l ng l ng khơng ph kín cơng Cha” Khuy t danh Vi t Nam ði kh p th gian không t t m , chăm lo cu c s ng cho không b ng cha, gánh n ng y cha m khơng nói ra, tơi có th c m nh n bi t đư c qua mái tóc b c c a m , nh ng gi t m hôi da rám n ng c a cha T t c nh ng vi c làm c a cha m ch ñ cho gia đình đư c s ng vui v h nh phúc, cho anh em tơi đư c ăn h c nên ngư i Gánh n ng y gia tăng n ng n vai cha m t m bư c vào ngư ng c a ñ i h c V i bao lo l ng t ăn, m c, vi c h c hành làm tăng gánh n ng cho cha m Gánh n ng y không th th y ñư c ti ng cư i c a cha, ánh m t ti ng nói c a m Tôi xin g i l i cám ơn k t qu h c t p nh ng năm tháng h c xa nhà ñ làm quà dâng t ng lên cha m c a tôi! Tôi xin chân thành cám ơn quý th y cô ban giám hi u, th y cô khoa th y cô tr!c ti p gi ng d y chúng tơi, cung c p cho chúng tơi đư c nh ng ki n th"c, nh ng k# c n thi t cu c s ng chun mơn T có th v n d$ng vào h c t p trình nghiên c"u ð c bi t, xin chân thành cám ơn th y Dương Văn Hi u, m c dù có nhi u khó khăn v m t đ%a lý cơng vi c, th y ñã t o m i ñi u ki n đ hư ng d&n chúng tơi hồn thành khóa lu n Tôi xin chân thành cám ơn! Kho ng th i gian theo h c t i trư ng, v i nh ng l l&m v a bư c vào môi trư ng m i, v i nhi u b n m i Chính nh ng ngư i b n đ ng hành v i tơi bư c ñư ng ñ i h c, v i nh ng lý tư'ng tính cách khác Chính nh ng câu chuy n bu n – vui – gi n – ghét nh ng s! giúp đ h c t p cơng tác, b n giúp tơi thêm trư'ng thành hơn, trao d i ñư c nhi u ki n th"c t b n Tôi xin chân thành cám ơn! Và l i c m ơn sau cùng, xin chân thành cám ơn anh ch%, nh ng ngư i b n, cô nhân viên trư ng giúp đ quan tâm tơi su t th i gian theo h c t i trư ng Tôi xin chân thành cám ơn! Xin chân thành cám ơn! luyldaquach@gmail.com NGHIÊN C U KHAI M D LI U VÀ KHÁM PHÁ TRI TH C M CL C L I CÁM ƠN B NG KÝ HI U VÀ VI T T T Chương I : T NG QUAN I.1 ð T V N ð I.2 L CH S GI I QUY T V N ð I.3 PH M VI C A ð TÀI 10 I.4 PHƯƠNG PHÁP NGHIÊN C U 10 Chương II : CƠ S LÝ THUY T 11 II.1 KHÁI NI M V KHAI PHÁ D LI U 11 II.1.1 Khái ni m: 11 II.1.2 Nhi m v c a khai thác d li u: 12 II.1.3 ng d ng c a khai phá d li u: 14 II.2 CÁC KHÁI NI M CƠ B N 15 II.2.1 D li u ki u d li u: 15 II.2.2 Ch t lư ng c a d li u: 19 II.3 Thu th p ti n x lý d li u: 23 II.3.1 T!ng h p d li u: 23 II.3.2 L y m"u: 24 II.3.3 Gi#m b$t thu%c tính: 25 II.3.4 L&a ch'n t p thu%c tính con: 26 II.3.5 T(o thu%c tính m$i: 27 II.3.6 R)i r(c hóa nh* phân hóa: 29 II.3.7 Chuy n đ!i thu%c tính: 30 II.4 M%t s, k- thu t khai phá d li u: 30 II.4.1 Phân c m d li u (Cluster analysis): 30 II.4.2 H.i quy (Regression): 33 II.4.3 Cây quy/t ñ*nh (Decision tree): 37 II.4.4 K – lân c n g0n nh t: (K Nearest neighbour-KNN) 44 II.4.5 Gi#i thu t di truy n: 46 II.4.6 M(ng neuron nhân t(o (Neural networks): 50 II.4.7 Lu t k/t h p (Association rule): 57 Chương III : N1I DUNG NGHIÊN C U 67 III.1 NGHIÊN C U V PH2N M M KHAI PHÁ D LI U 67 III.1.1 Gi$i thi u Tanagra: 67 III.1.2 Tìm hi u v Tanagra: 68 III.1.3 ng d ng Tanagra: 81 III.2 CHƯƠNG TRÌNH NG D3NG: 83 III.2.1 Khai phá d li u b4ng lu t k/t h p: 83 III.2.2 Khai phá d li u b4ng quy/t ñ*nh: 93 K T LU5N VÀ KI N NGH PH3 L3C Ph l c I: ðo kho#ng cách gi a ñ,i tư ng Ph l c II: Thu t gi#i Heuristic Ph l c III: Hư$ng d"n s d ng chương trình khai phá lu t k/t h p Ph l c IV: Hư$ng d"n s d ng chương trình khai phá quy/t đ*nh TÀI LI U THAM KH O SVTH: Quách Luyl ða Trang NGHIÊN C U KHAI M D LI U VÀ KHÁM PHÁ TRI TH C luyldaquach@gmail.com B NG KÝ HI U VÀ VI T T T 01 02 03 T6 VI T T T ANN AND, DNA GA Artifical neural network Acid DeoxyriboNucleic Genetic Algorithm 04 GUI Graphical user interface 05 06 07 Item Itemset KNN 08 KDD 09 RAM 10 XML 11 web Item Itemset K Nearest neighbour Knowledge Discovery in Databases Ram memory Extensible Markup Language website, web page STT TI NG ANH SVTH: Quách Luyl ða NGHĨA TI NG VI T M(ng th0n kinh nhân t(o Ph0n t nucleotic a xít Gi#i thu t di truy n Giao di n đ h'a ngư)i dùng Món hàng, m c, T p m c, hàng,… K-lân c n g0n nh t Khám phá tri th8c t9 d li u B% nh$ ram Ngơn ng đánh d u m: r%ng Trang web Trang luyldaquach@gmail.com NGHIÊN C U KHAI M D LI U VÀ KHÁM PHÁ TRI TH C TĨM T T S& bùng n! thơng tin ngày lan r%ng nhanh chóng, bên c(nh d li u ngày gia tăng v s, lư ng Các nhà khoa h'c ñã nghiên c8u v kh# s d ng nh ng d li u y ñ ph c v nhu c0u kinh doanh, h'c t p nghiên c8u Vi c khai thác d li u d&a nh ng d li u ñã t.n t(i ñư c g'i khai phá d li u (Data mining) Quá trình khai phá d li u bư$c ngo