I. Giới thiệu Khai phá dữ liệu là một ngành khoa học thực nghiệm. Nó được thiết kế sao cho bạn có thể nhanh chống thử nghiệm những cách thức hiện tại trên cơ sở dữ liệu mới một cách linh hoạt. Nó cung cấp nhiều sự hỗ trợ cho toàn bộ quá trình xử lý số liệu thực nghiệm, bao gồm chuẩn bị dữ liệu đầu vào, việc ước lượng học những sơ đồ thống kê, và hình dung dữ liệu ra và kết quả của việc học. Weka được phát triển bởi đại học Waikato bang New Zealand, và có tên là Waikato Environment for Knowledge Analysis. Hệ thống được viết bởi java và phân phối dưới thuật ngữ GNU. Nó cung cấp một giao diện tương tự cho nhiều giải thuật học khác nhau với nhiều phương thức chho quá trình xử lý để ước lượng kết quả bằng sơ đồ cho bất kì một dữ liệu nào. Workbenh bao gồm những phương thức chuẩn cho các vấn đề của khai phá dữ liệu như: phân lớp,hồi quy, phân nhóm, phân cụm, luật kết hợp, và các thuộc tính kết hợp. Tập dữ liệu này chứa các chi tiết về lá cờ của các quốc gia, từ tập dữ liệu này ta có thể dự đoán tôn giáo của 1 quốc gia thông qua kích thước và màu sắc trong lá cờ. II. Xây dựng cơ sở dữ liệu Đề tài sử dụng dataset Flags cung cấp giá trị của 30 thuộc tính phân loại cho mỗi lá cờ của mỗi quốc gia. Thông tin về các thuộc tính: 1. Tên: Tên quốc gia. 2. Lãnh thổ: thuộc châu lục nào trong 6 châu lục, 1= Châu Bắc Mỹ, 2= Châu Nam Mỹ, 3 = Châu Âu, 4 = Châu Phi, 5 = Châu Á, 6 = Châu Đại Dương. 3. Khu vực: địa lý góc phần tư, 1= NE, 2 = SE, 3 = SW, 4 = NW. 4. Diện tích: tính đơn vị nghìn km2. 5. Dân số: tính đơn vị là triệu dân. 6. Ngôn ngữ: 1= tiếng Anh, 2= tiếng Tây Ban Nha, 3 = tiếng Pháp, 4= tiếng Đức, 5= Slavic, 6=Indo-Châu Âu, 6 = Trung quốc. 7. Tôn giáo: 0 = Công giáo, 1 = khác Kitô giáo, 2 = Hồi giáo, 3 = Phật giáo, 4 = Hindu, 5 = dân tộc, 6 = chủ nghĩa Mác, 7 = khác. 8. Thanh: Số lượng các thanh dọc trong lá cờ. 9. Sọc: Số các đường sọc ngang trong lá cờ 10. Màu sắc: Số lượng màu sắc khác nhau trong cờ 11. Màu đỏ: 0 nếu không có màu đỏ, 1 nếu có màu đỏ. 12. Màu xanh lá cây: tương tự màu đỏ 13. Màu xanh: tương tự màu đỏ 14. Màu vàng: tương tự màu đỏ 15. Màu trắng: tương tự màu đỏ 16. Màu đen: tương tự màu đỏ 17. Màu cam: tương tự màu đỏ 18. Màu chính: màu chiếm ưu thế trong lá
I. Giới thiệu ! "#$%!&'()* !+,-& .&/0$1#2 34 56727*(3#'27/ &7.897:;&" )!: ;<=;27':>7&;?&<;;@AB #7 )C77D#*EFG+ (,8E7*,(%.&/0$ 1"*.8 H(3 +/:& ; 3 (%47+,9ID*23.A2 D2DJ2E27KLEA% 7,M9.#2NEA"O9 P.#O.K*7Q&M II. Xây dựng cơ sở dữ liệu R,$J;S+&59TUKD!-M9 -.# Thông tin về các thuộc tính: 1. L'IL'.# 2. VWXIDJ&YDJ2PZ[D\Q]^2_Z[D ]^2TZ[D`2aZ[Db2cZ[Dd2YZ[DR!e( 3. 7I5162PZ>2_Zf>2TZf:2aZ: 4. eKIK(75/_ 5. eD#IK(75&D 6. OIPZ@2_ZLDA\2TZb2aZR%2cZ f72YZgh[D`2YZL&.# 7. LOIUZ[O2PZO2_ZB32TZbE2aZ B2cZD2YZ9i]2jZ 8. LIf#&M 9. fIf#M&M 10. ]QIf#Q&M 11. ]kIUOk2Pk 12. ]0DAI(k 13. ]0I(k 14. ]7I(k 15. ]&QI(k 16. ];I(k 17. ]I(k 18. ]KI& 19. lm&mIf#7m&m&M 20. R.If#no%p. 21. ;&If#.Mq 22. If#6 23. &If#r&Mr "O 24. Vs,IPr&ts, "!2U 25. LIP/A2U! 26. \"IP/87O&7On7KJ2A,p2O U 27. RIP/8n7KJ2! 2DA2 A Mp2U! 28. 7t 8IVPI7&'Mn7KJ2(D24p2U ! 29. ;?IQ)&' '& 30. &I]Q)* '8 III. Thực nghiệm trên Weka 1. Tiền xử lý dữ liệu ):;>0&;& [[feVS Hu;S;"nv&??p&3 Mw*?;()@;g?7 x+&'$Xb&;b&;9:;I ' y O z { y z z y ' | } ' z ~ { ~ z ; } { ~ D y A &7 ~ ~ AO z ;O ~ y y &( ~ O y y z nup2' y y & z n ;p2O y ( z O} y & z n[pI ' y O z { y z z y ' | } ' z ~ ;&{ ~ ; y &( ~ ~ O y ' z O y 'nfp7 ~ y & z ( y nl;p• | &( ~ f y y y & z ]nF y & z | D y p2]0nF y & z ( y D y p2 ;nF y & z & { ~ p2RO z ' z D | nfe;7p/I [A""9KNnumeric sang nominal Chuyển đổi kiểu dữ liệu của thuộc tính area LA"XKarea 7*&5(%In€TUUp2\ nTUU€Z&;€PUUUp2VnPUUU€Z&;€Z__aU_p [[;&DAJS;&;&7;2& ;2 ]>0&; [7 "L7 " [[;&DAJFilters unsupervised/attribute/NumericToNominal&3 " A"X" [[;&DAJS;& unsupervised/attribute/AddValues7EO#I [7 )K&'7•Filter, ‚0+ 8 I [87?;&;&&;&3ƒ;;l;:„ x+ !2…P&3A†Nho‡&3u2…_&3A†Binh Thuong” &3[u2…T&3A†Lon”&3[u Chuyển đổi kiểu dữ liệu của thuộc tính Population LKPopulation A"X(%7*&5I gnb€PUp2\LnPU€Zb€YUp2 enYU€Zb€ZPUUˆp V(#7*K&' .8A"X7A+A)b%&5 g2L\2e fW0$107 "! 8 LE+A&H)K&;70$10 #&5‚O$J1, 2, 32"! k&5A 8!7*5![fl&3)!62‰A &51,2,3W 5! k IV. Xây dựng cây quyết định bằng J48. • \*6'$J+8"&DAI h +7 ClassifyE$J H+7‰ChooseŠDA JJTrees/J48I h R"&&' 7•AUse tranning set &3+Start h .8I ZZZƒ?&ZZZ f;;I<;?;&&;;‹aˆh[U_ch]_ ƒ;I?P g;IPŒa