Untitled ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG SENGTHONG XAYAVONG PHÂN LỚP DỮ LIỆU HOA IRIS SỬ DỤNG THUẬT TOÁN NAIVE BAYES, RANDOMFOREST VÀ KNN (K NEAREST NEIGHBORS) L[.]
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG SENGTHONG XAYAVONG PHÂN LỚP DỮ LIỆU HOA IRIS SỬ DỤNG THUẬT TOÁN NAIVE BAYES, RANDOMFOREST VÀ KNN (K - NEAREST NEIGHBORS) LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH Thái Nguyên – 2020 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG SENGTHONG XAYAVONG PHÂN LỚP DỮ LIỆU HOA IRIS SỬ DỤNG THUẬT TOÁN NAIVE BAYES, RANDOMFOREST VÀ KNN (K - NEAREST NEIGHBORS) LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 84 01 01 Người hướng dẫn khoa học: TS Nguyễn Văn Núi Thái Nguyên – 2020 I LỜI CAM ĐOAN Họ tên học viên: Sengthong Xayavong Lớp cao học: CK17A Trường Đại học Công nghệ thông tin Truyền thông – Đại học Thái Nguyên Chuyên ngành: Khoa học máy tính Tên đề tài luận văn: PHÂN LỚP DỮ LIỆU HOA IRIS SỬ DỤNG THUẬT TOÁN NAIVE BAYES, RANDOMFOREST VÀ KNN (K - NEAREST NEIGHBORS) Học viên xin cam đoan cơng trình nghiên cứu than học viện Các kết nghiên cứu kết luận luận văn trung thực, không chép từ nguồn hình thức Trong q trình làm học viên có tham khảo tài liệu liên quan nhằm khẳng định thêm tin cậy cấp thiết đề tài Việc tham khảo nguồn tài liệu thực trích dẫn ghi nguồn tài liệu tham khảo quy định Thái Nguyên, ngày 08 tháng 10 năm 2020 Tác giả luận văn Sengthong xayavong II LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc tới TS Nguyễn Văn Núi, Trường Đại học Công nghệ Thông tin Truyền thông, người thầy dành nhiều thời gian tận tình bảo, hướng dẫn, giúp đỡ tơi suốt trình tìm hiểu, nghiên cứu Thầy người định hướng đưa nhiều góp ý quý báu q trình tơi thực luận văn Tơi xin chân thành cảm ơn thầy, cô khoa Công nghệ thông tin – trường Đại học Công nghệ Thông tin Truyền thông cung cấp cho kiến thức tạo cho điều kiện thuận lợi suốt q trình tơi học tập trường Tơi bày tỏ lịng biết ơn giúp đỡ lãnh đạo quan, đồng nghiệp cung cấp liệu, tài liệu cho lời khun q báu Tơi xin cảm ơn gia đình, người thân, bạn bè thành viên nhóm nghiên cứu động viên tạo điều kiện tốt cho Tôi xin chân thành cảm ơn! Thái Nguyên, ngày 08 tháng 10 năm 2020 Tác giả luận văn Sengthong Xayavong III MỤC LỤC LỜI CAM ĐOAN I LỜI CẢM ƠN II DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT VI DANH MỤC CÁC BẢNG VII DANH MỤC HÌNH VIII MỞ ĐẦU Chương 1: Tổng quan khai phá liệu phát tri thức 1.1 Giới thiệu tổng quan 1.1.1 Giới thiệu chung khám phá tri thức khai phá liệu 1.1.2 Quá trình khám phá tri thức 1.1.3 Khai phá liệu 1.1.4 Quá trình khai phá liệu 1.1.5 Ứng dụng khai phá liệu 1.2 Một số kỹ thuật khai phá liệu .7 1.2.1 Luật kết hợp (Association Rules) .7 1.2.2 Khai thác mẫu (Sequential / Temporal patterns) 1.2.3 Phân cụm liệu (Clustering) 1.2.4 Phân nhóm- đoạn (Clustering / Segmentation) 1.2.5 Hồi quy (Regression) 1.2.6 Tổng hợp hóa (Summarization) 1.2.7 Mơ hình hóa phụ thuộc (dependency modeling) 1.2.8 Phát biến đổi độ lệch (Change and deviation detection) 10 1.3 Một số so sánh khai phá liệu phương pháp khác 10 1.3.1 So sánh với phương pháp hệ chuyên gia 10 1.3.2 So sánh với phương pháp phân loại thống kê 11 1.3.3 So sánh với phương pháp học máy 12 1.3.4 So sánh với phương pháp học sâu .14 Chương 2: Một số kỹ thuật phân lớp liệu .16 2.1 Tổng quan phân lớp liệu 16 2.2 Phân lớp liệu Naive Bayes .19 IV 2.2.1 Định nghĩa thuật tốn Nạve Bayes 19 2.2.3 Đặc điểm thuật toán Naïve Bayes .22 2.2.4 Ứng dụng thuật tốn Nạve Bayes 23 2.3 Phân lớp liệu RandomForest 24 2.3.1 Định nghĩa thuật toán Ramdomforest .24 2.3.2 Đặc điểm Random Forest 27 2.3.3 Mơ hình phân lớp với Random Forest 29 2.3.4 Ứng dụng thuật toán Ramdom Forest .29 2.4 Phân lớp liệu KNN (K-nearest neighbor) 29 2.4.1 Định nghĩa thuât toán KNN 29 2.4.2 Mơ tả thuật tốn K-NN 31 2.4.3 Đặc điểm thuật toán KNN 33 2.4.4 Ứng dụng thuật toán K-NN 33 2.5 Một số thuật toán phân lớp liệu khác 34 2.5.1 Cây định ứng dụng phân lớp liệu 34 2.5.2 Phân lớp với máy vector hỗ trợ (SVM) .34 Chương 3: Ứng dụng phân lớp liệu hoa Iris 35 3.1 Giới thiệu hoa Iris toán phân lớp hoa Iris 35 3.1.1 Giới thiệu tập liệu hoa Iris 35 3.1.2 Sử dụng tập liệu 36 3.1.3 Tập liệu .36 3.1.4 Định nghĩa toán phân lớp hoa Iris 41 3.2 Thu thập tiền xử lý liệu 41 3.2.1 Làm liệu 42 3.2.2 Chọn lọc liệu .42 3.2.3 Chuyển đổi liệu 43 3.2.4 Rút gọn liệu 43 3.3 Giới thiệu công cụ Weka, cấu hình ứng dụng phân lớp hoa Iris 43 3.3.1 Khái niệm 43 3.3.2 Ưu điểm Weka 44 3.3.3 Những tính vượt trội Weka 45 V 3.3.4 Kiến trúc thư viện Weka 45 3.3.5 Các môi trường chức Weka .46 3.3.6 Định dạng liệu weka 48 3.4 Áp dụng thuật toán Naive Bayes, RandomForest KNN phân lớp dự đoán hoa Iris 49 3.4.1 Áp dụng thuật toán Naive Bayes phân lớp dự đoán hoa Iris 50 3.4.2 Áp dụng thuật toán RandomForest phân lớp dự đoán hoa Iris 53 3.4.3 Áp dụng thuật toán KNN phân lớp dự đoán hoa Iris .56 3.5 Đánh giá mơ hình phân lớp liệu Hoa IRIS 59 3.5.1 Đánh giá hiệu mơ hình sử dụng phương pháp đánh giá chéo (k-fold cross-validation) 59 3.5.2 Đánh giá mơ hình sử dụng phương pháp Hold-out 59 3.5.3 Kết luận thực nghiệm phân lớp liệu IRIS 60 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .61 TÀI LIỆU THAM KHẢO 62 VI DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Ý nghĩa KPDL Khai phá liệu CSDL Cơ sở liệu KNN K-nearest neighbor KDD Knowledge Discovery in Database RF Ramdom Forest SVM Support Vector Machines NBC Naive Bayes Classification TT VII DANH MỤC CÁC BẢNG Bảng 1:Thông tin loài Setosa 36 Bảng 2:Thơng tin lồi Iris-Versicolor 38 Bảng 3: thông tin Loài Iris-Virginica 39 Bảng 4: tổng kết thống kê Giá trị hoa Iris 42 Bảng 5: ý nghĩa mơi trường Weka 3.8.4 46 Bảng 6: ý nghĩa môi trường Explorer Weka 3.8.4 48 Bảng 7: Tổng hợp đánh giá thật toán chia tập liệu thành 10 phần (chọn fold=10) 59 Bảng 8: Tổng hợp kết đánh giá hiệu phân lớp, dự đốn mơ hình phương pháp kiểm thử độc lập 60 VIII DANH MỤC HÌNH Hình 1:Q trình khám phá tri thức Hình 2:Quá trình khai phá liệu Hình 3: Lược đồ hệ chuyên gia .11 Hình 1: Bài tốn phân lớp .16 Hình 2: Quá trình phân lớp liệu - (a) Bước xây dựng mơ hình phân lớp 18 Hình 3: Quá trình phân lớp liệu - (b1) Ước lượng độ xác mơ hình 19 Hình 4:Q trình phân lớp liệu - (b2) Phân lớp liệu 19 Hình 5:Mơ hình rừng ngẫu nhiên 25 Hình 6:Các bước phân lớp với Random Forest 27 Hình 7:Mơ hình phân lớp với Random Forest 29 Hình 8: Bản dổ KNN nhiễu k =1 31 Hình 9: Minh họa KNN 32 Hình 1: Minh họa iris flower dataset 35 Hình 2: Lồi chim Mecca chọn biểu tượng ứng dụng Weka 43 Hình 3: mơi trường Weka .46 Hình : Sơ đồ tổng thể Mơ hình phân lớp dự đoán hoa Iris luận văn 50 Hình 5:Cấu hình tham số cho thuật tốn Naive Bayes 51 Hình 6: Kết phân lớp liệu cho thuật toán Naive Bayes Tập luyện tập 66% (Tập kiểm chứng 34%) 52 Hình 7:Kết phân lớp liệu cho thuật toán Naive Bayes chia tập liệu thành 10 phần (chọn fold=10) 53 Hình 8:Cấu hình tham số cho thuật toán Ramdomforest 54 Hình 9: Kết phân lớp liệu cho thuật toán Ramdomforest Tập luyện tập 66% (Tập kiểm chứng 34%) .55 Hình 10:Kết phân lớp liệu cho thuật toán Ramdomforest chia tập liệu thành 10 phần (chọn fold=10) 56 Hình 11:Cấu hình tham số cho thuật toán k-Nearest Neighbors 57 48 Bảng 6: ý nghĩa môi trường Explorer Weka 3.8.4 Môi trường Mô tả Preprocess Để chọn thay đổi (xử lý) liệu làm việc Classify Để huấn luyện kiểm tra mơ hình học máy (phân lớp, hồi quy/dự đốn) Cluster Để học nhóm từ liệu (phân cụm) Associate: Để khám phá luật kết hợp từ liệu Select attributes Để xác định lựa chọn thuộc tính liên quan (quan trọng) liệu Visualize Để xem (hiển thị) biểu đồ tương tác chiều liệu 3.3.6 Định dạng liệu weka Weka hỗ trợ nhiều định dạng như: ARFF: *.arff CVS files: *.cvs C4.5 files: *.name, *.data XRFF files: *.xrff Trong đó, ARFF định dạng sử dụng phổ biến Weka ARFF định dạng sử dụng Weka, biểu diễn dạng file text đọc cách đơn giản chương trình notepad… mà khơng cần phải có chương trình chun dụng Các liệu file giá trị thuộc tính thể (instance) có chung tập hợp thuộc tính ARFF dễ thao tác dễ hiểu, người dùng tự tạo cho file ARFF hiểu quy định chuẩn Tuy nhiên, định dạng chuyên dụng cho chương trình Weka nên ứng dụng khác khơng thể đọc Do đó, sử dụng kết hợp Weka với chương trình khác người dung buộc phải xây dựng module để chuyển kiểu liệu từ ARFF sang kiểu liệu tương ứng với chương trình Cấu trúc tập tin *.ARFF bao gồm thành phần: Header: chứa khai báo quan hệ, danh sách thuộc tính (tên, kiểu liệu) 49 Data: gồm nhiều dòng, dòng thể giá trị thuộc tính cho mẫu % Title: Iris Plants Database Chú thích @RELATION iris Tên tập liệu @ATTRIBUTE sepallength REAL @ATTRIBUTE sepalwidth REAL @ATTRIBUTE petallength REAL @ATTRIBUTE petalwidth REAL Tên thuộc tính @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris virginica} Thuộc tính phân lớp @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa instances 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa Các kiểu liệu hỗ trợ ARFF bao gồm: - numeric: kiểu liệu số, gồm real integer - nominal: kiểu liệu danh sách - string: kiểu liệu dạng chuỗi - date: kiểu liệu thời gian (ngày tháng năm, phút giây…) 3.4 Áp dụng thuật toán Naive Bayes, RandomForest KNN phân lớp dự đoán hoa Iris Trong luân văn này, ta áp dụng phương pháp phân lớp (classification) lên tập liệu hoa Iris Các thuật toán sử dụng gồm: Naive Bayes, RandomForest, K-Nearest neighbor Mơ hình phân lớp dự đốn đề xuất đề tài hiển thị chi tiết qua hình đây: 50 Hình : Sơ đồ tổng thể Mơ hình phân lớp dự đốn hoa Iris luận văn 3.4.1 Áp dụng thuật toán Naive Bayes phân lớp dự đoán hoa Iris Kịch 1: thực nghiệm huấn luyện chế độ phân lớp Percentage split để xác định tỉ lệ phân chia, Trong tập liệu ta chia tập train (luyện tập) tập test (kiểm chứng) theo nguyên tắc sau: - Tập luyện tập: Là tập chứa 66% số liệu liệu đầu vào - Tập kiểm chứng: Là tập chứa 34% số liệu liệu đầu vào lại 1) Nhấp vào nút “Choose” Lựa chọn chọn Tập tin “Nạve Bayes” trực tuyến nhóm “Bay Bayes” 2) Nhấp vào tên thuật toán để xem lại cấu hình thuật tốn 51 Hình 5:Cấu hình tham số cho thuật tốn Naive Bayes Theo mặc định, phân phối Gaussian giả sử cho thuộc tính số Các phân phối thay đổi thuật tốn để sử dụng cơng cụ ước tính Kernel với đối số sử dụng Kernel Estimator phù hợp với phân phối thực tế thuộc tính tập liệu bạn Tuy nhiên, thơng số tự động chuyển đổi thuộc tính số thành thuộc tính danh nghĩa với tham số sử dụng Supervised Discretization 3) Nhấn vào “Ok” để đóng cấu hình thuật tốn 4) Ta chọn thuộc tính phân lớp “class”, chọn Classifer tương ứng, sau bấm Start để tiến hành xây dựng mơ hình đánh giá độ xác Sau chạy thuật tốn liệu Iris Có thể thấy với cấu hình mặc định, thuật tốn Nạve Bayes đạt độ xác 94.1176% 52 Hình 6: Kết phân lớp liệu cho thuật toán Naive Bayes Tập luyện tập 66% (Tập kiểm chứng 34%) Kết quả: - Tỷ lệ phân lớp 94.1176% (48 mẫu) - Tỷ lệ phân lớp sai 5.8824% (3 mẫu) - Mức độ phân lớp lớp a (Iris-setosa), lớp b (Irisversicolor) lớp c (Iris-virginica) là: - Ma trận Confusion thể mẫu Iris-setosa (a) phân 15, phân sai mẫu Iris-versicolor (b) phân 18, phân sai Iris-virginica phân 15, phân sai - Kịch 2: thực nghiệm huấn luyện chế độ phân Cross-validation Tập liệu chia k tập (folds) có kích thước xấp xỉ nhau, phân loại học dánh giá phướng pháp cross-validation Trong thực nghiệm xác định chọn fold=10, để đạt hiệu phân lớp sau: 53 Sau chạy thuật toán liệu Iris Có thể thấy với cấu hình mặc định, thuật toán định đạt độ xác 96% Hình 7:Kết phân lớp liệu cho thuật toán Naive Bayes chia tập liệu thành 10 phần (chọn fold=10) Kết quả: - Tỷ lệ phân lớp 96% (144 mẫu) - Tỷ lệ phân lớp sai 4% (6 mẫu) - Ma trận Confusion thể mẫu Iris-setosa (a) phân 50, phân sai mẫu Iris-versicolor (b) phân 48, phân sai Iris-virginica phân 46, phân sai 3.4.2 Áp dụng thuật toán RandomForest phân lớp dự đoán hoa Iris Random Forest (rừng ngẫu nhiên) Là phương pháp phân lớp hồi quy dựa việc kết hợp kết dự đoán số lượng lớn định liên tưởng tới việc bầu cử theo nguyên tắc phổ thông đầu phiếu Nếu sử dụng định chẳng khác việc bầu cử mà có người bỏ phiếu Việc sinh định từ mẫu liệu nhằm đa dạng hoá “phiếu bầu” (giống việc thành phần, tầng lớp, giai cấp bỏ phiếu) cho kết luận Việc 54 áp dụng kỹ thuật sinh mẫu liệu hay việc lựa chọn rẽ nhánh ngẫu nhiên tạo “dị tật” rừng (giống việc cho phép công dân khơng cần phân biệt trình độ học vấn, sức khỏe bầu cử) Càng nhiều loại hình, nhiều phiếu bầu cung cấp cho nhìn đa chiều, chi tiết kết luận có tính xác, gần với thực tế Trong thực tế RF trở thành công cụ tin cậy cho phân tích liệu đặc biệt liệu tin sinh học Chọn thuật toán Ramdomforest: 1) Nhấp vào nút “Choose” chọn “Ramdomforest” nhóm “Trees” 2) Nhấp vào tên thuật toán để xem lại cấu hình thuật tốn Hình 8:Cấu hình tham số cho thuật tốn Ramdomforest 55 3) Sau nhấn vào “Ok” để đóng cấu hình thuật tốn 4) Ta chọn thuộc tính phân lớp “class”, chọn Classifer tương ứng, sau bấm Start để tiến hành xây dựng mơ hình đánh giá độ xác Sau chạy thuật tốn liệu Iris Có thể thấy với cấu hình mặc định, thuật tốn Ramdomforest đạt độ xác 96% Hình 9: Kết phân lớp liệu cho thuật toán Ramdomforest Tập luyện tập 66% (Tập kiểm chứng 34%) Kết quả: - Tỷ lệ phân lớp 96.0784% (49 mẫu) - Tỷ lệ phân lớp sai 3.9216% (2 mẫu) 56 Hình 10:Kết phân lớp liệu cho thuật toán Ramdomforest chia tập liệu thành 10 phần (chọn fold=10) Kết quả: - Tỷ lệ phân lớp 95.3333% (143 mẫu) - Tỷ lệ phân lớp sai 4.6667% (7 mẫu) 3.4.3 Áp dụng thuật toán KNN phân lớp dự đoán hoa Iris Thuật toán hỗ trợ phân lớp hồi quy Nó gọi KNN cho ngắn gọn Nó hoạt động cách lưu trữ toàn tập liệu huấn luyện truy vấn để xác định vị trí mẫu đào tạo tương tự đưa dự đốn Như vậy, khơng có mơ hình ngồi tập liệu huấn luyện thơ phép tính thực truy vấn liệu huấn luyện yêu cầu dự đoán Chọn thuật toán k-Nearest Neighbors: 1) Nhấp vào nút “Choose” chọn “IBk” nhóm “Lazy” 2) Nhấp vào tên thuật tốn để xem lại cấu hình thuật tốn 57 Hình 11:Cấu hình tham số cho thuật tốn k-Nearest Neighbors Theo hình 3.11 cấu hình Weka cho thuật tốn k-Neares Neighbors xác định giá trị tham số K (số láng giềng gần nhất) K=3 dùng khoảng cách Euclidean để tính khoảng cách trường hợp, điều tốt cho liệu số có tỷ lệ Khoảng cách Manhattan tốt để sử dụng thuộc tính bạn khác biện pháp loại 3) Sau nhấn vào “Ok” để đóng cấu hình thuật tốn 4) Ta chọn thuộc tính phân lớp “class”, chọn Classifer tương ứng, sau bấm Start để tiến hành xây dựng mơ hình đánh giá độ xác Sau chạy thuật tốn liệu Iris Có thể thấy với cấu hình mặc định, thuật tốn KNN đạt độ xác 96% 58 Hình 12: Kết phân lớp liệu cho thuật toán K-NN Tập luyện tập 66% (Tập kiểm chứng 34%) Kết quả: - Tỷ lệ phân lớp 96.0784% (49 mẫu) - Tỷ lệ phân lớp sai 3.9216% (2 mẫu) Hình 13:Kết phân lớp liệu cho thuật toán k-Nearest Neighbors chia tập liệu thành 10 phần (chọn fold=10) Kết quả: - Tỷ lệ phân lớp 95.3333% (143 mẫu) - Tỷ lệ phân lớp sai 4.6667% (7 mẫu) 59 3.5 Đánh giá mơ hình phân lớp liệu Hoa IRIS 3.5.1 Đánh giá hiệu mơ hình sử dụng phương pháp đánh giá chéo (k-fold cross-validation) Trong nghiên cứu này, ta chọn k=10 để kiểm tra, đánh giá hiệu phân lớp/dự đốn mơ hình xây dựng Theo phương pháp (10-fold cross-validation), tập liệu huấn luyện chia thành 10 tương đối nhau, phần luân phiên sử dụng để kiểm tra phần lại dùng cho tập huấn luyện Kết thực nghiệm phương pháp đánh giá chéo 10-fold cross-validation tổng hợp bảng bên Bảng 7: Tổng hợp đánh giá thuật toán chia tập liệu thành 10 phần (chọn fold=10) Thuật Accuracy Toán phân lớp Error_ Precision Recall Confusion matrix Rate Naïve Bayes 96 % 4% 0.964 0.960 95.3 % 4.6 % 0.953 0.953 95.3 % 4.6 % 0.953 0.953 Random Forest KNN (K=3) 3.5.2 Đánh giá mơ hình sử dụng phương pháp Hold-out Bên cạnh việc đánh giá hiệu mơ hình phân lớp/dự đốn phương pháp đánh giá chéo 10-fold cross-validation; việc sử dụng liệu kiểm thử độc lập để đánh giá hiệu mơ hình giúp việc kiểm thử hiệu dự đốn mơ hình mang tính chất khách quan trung thực Như đề cập trên, từ liệu hoa Iris thu thập trước đó, 34% liệu lấy ngẫu nhiên để xây dựng tập liệu kiểm thử độc lập (testing dataset) Qua trình phân tích, đánh giá sử dụng phương pháp kiểm thử độc lập, kết chi tiết 60 hiệu dự đốn mơ hình cho phương pháp phân lớp tổng hợp thể thông quan bảng bên Bảng 8: Tổng hợp kết đánh giá hiệu phân lớp, dự đốn mơ hình phương pháp kiểm thử độc lập Thuật Toán phân lớp Accuracy Error_ Precision Recall Confusion matrix Rate Naïve Bayes 94.11 % 5.8% 0.942 0.941 96.07 % 3.92% 0.965 0.961 96.07 % 3.92% 0.965 0.961 Random Forest KNN (K=3) 3.5.3 Kết luận thực nghiệm phân lớp liệu IRIS Qua kết phân lớp trên, ta thấy mô hình phân lớp dự đốn hoa IRIS (dựa Weka thuật tốn Nạve Bayes; Random Forest; KNN) cho đạt độ xác 95% Điều cho thấy mơ hình phân lớp hồn tồn phù hợp với tốn dự đốn loại hoa IRIS, đặc biệt mơ hình phân lớp dự đốn sử dụng thuật tốn Nạve Bayes cho hiệu dự đốn cao Ngồi ra, thơng qua kết nhận từ số mơ hình phân lớp trên, đặc biệt mơ hình phân lớp dựa vào thuật tốn Nạve Bayes, ta biết loại hoa IRIS nói chung thuộc vào lồi cụ thể (Setosa, Versicolor Virginica) nhờ vào đặc trưng chiều dài, chiều rộng đài hoa cánh hoa Về đặc điểm nhận dạng bên ngồi thơng qua chiều dài, chiều rộng đài hoa cánh hoa hầu hết hoa IRIS có cánh hoa với chiều rộng nhỏ thường lồi Iris-setosa; hoa có chiều rộng cánh hoa từ 2.0 cm trở lên thường nhận biết loài Iris-Virginica 61 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết đạt Dựa vào nghiên cứu gần thuật tốn phân lớp liệu, khóa luận nghiên cứu, chọn lọc phát triển số vấn đề đạt kết ban đầu sau: - Trình bày khái niệm sở lý thuyết khai phá liệu phát tri thức, thuật toán phân lớp liệu ứng dụng - Tìm hiểu tốn phân lớp liệu áp dụng cho phân lớp dự đoán hoa IRIS - Sử dụng công cụ phần mềm Weka ứng dụng phân lớp liệu hoa IRIS thuật tốn Nạve Bayes, RamdomForest K-NN Hướng phát triển luận văn Trên sở kết đạt được, tiếp tục nghiên cứu số vấn đề sau: - Tìm hiểu thêm vấn đề phân lớp liệu ứng dụng thuật toán - Nghiên cứu ứng dụng phần mềm Weka để tiến hành phân tích liệu ứng dụng lĩnh vực cụ thể phân lớp liệu Mặc dù em cố gắng thời gian hiểu biết lĩnh vực khai phá liệu hạn chế nên luận văn chắn không tránh khỏi khuyết điểm định Trong tương lai, em cố gắng khắc phục hạn chế, tiếp tục nghiên cứu vấn đề nêu Rất mong nhận ý kiến đóng góp quý thầy độc giả để luận văn hồn thiện 62 TÀI LIỆU THAM KHẢO [1] Đỗ Phúc (2017), Giáo trình khai phá liệu, NXB Đại học Quốc gia Hồ Chí Minh [2] Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2013), Giáo trình khai phá liệu, NXB Đại học Quốc gia Hà Nội [3] Phan Xuân Hiếu (2013),Bài giảng môn học KPDL kho liệu, Trường Đạihọc Công nghệ, Đại học Quốc gia Hà Nội [4] Website: https://ndhcuong.wordpress.com/hoc-phan/khai-pha-du-lieu/ [5] Website: http://archive.ics.uci.edu/ml/datasets/iris [6] Website: https://en.wikipedia.org/wiki/Iris_flower_data_set [7] Joydeep Ghosh (2003), Scalable Clustering, Chapter 10, pp 247-278, Formal version appears in: The Handbook of Data Mining, Nong Ye (Ed) [8] S Eyheramendy, D Lewis and D Madigan, On the Naive Bayes Model for Text Categorization, In Proceedings of Artificial Intelligence & Statistics 2003 [9] Weka - Data Mining with Open Source Machine Learning Software in Java Available from: http://www.cs.waikato.ac.nz/ml/weka/