Phân lớp dữ liệu hoa iris sử dụng thuật toán naive bayes, randomforest và KNN (k NEAREST NEIGHBORS)

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG SENGTHONG XAYAVONG PHÂN LỚP DỮ LIỆU HOA IRIS SỬ DỤNG THUẬT TOÁN NAIVE BAYES, RANDOMFOREST VÀ KNN (K - NEAREST NEIGHBORS) LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH Thái Nguyên – 2020 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG SENGTHONG XAYAVONG PHÂN LỚP DỮ LIỆU HOA IRIS SỬ DỤNG THUẬT TOÁN NAIVE BAYES, RANDOMFOREST VÀ KNN (K - NEAREST NEIGHBORS) LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 84 8 01 01 Người hướng dẫn khoa học: TS Nguyễn Văn Núi Thái Nguyên – 2020 I LỜI CAM ĐOAN Họ và tên học viên: Sengthong Xayavong Lớp cao học: CK17A Trường Đại học Công nghệ thông tin và Truyền thông – Đại học Thái Nguyên Chuyên ngành: Khoa học máy tính Tên đề tài luận văn: PHÂN LỚP DỮ LIỆU HOA IRIS SỬ DỤNG THUẬT TOÁN NAIVE BAYES, RANDOMFOREST VÀ KNN (K - NEAREST NEIGHBORS) Học viên xin cam đoan đây là công trình nghiên cứu của bản than học viện Các kết quả nghiên cứu và các kết luận trong luận văn là trung thực, không sao chép từ bất kỳ một nguồn nào và dưới bất kỳ hình thức nào Trong quá trình làm học viên có tham khảo các tài liệu liên quan nhằm khẳng định thêm sự tin cậy và cấp thiết của đề tài Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định Thái Nguyên, ngày 08 tháng 10 năm 2020 Tác giả luận văn Sengthong xayavong 22 LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc tới TS Nguyễn Văn Núi, Trường Đại học Công nghệ Thông tin và Truyền thông, người thầy đã dành nhiều thời gian tận tình chỉ bảo, hướng dẫn, giúp đỡ tôi trong suốt quá trình tìm hiểu, nghiên cứu Thầy là người định hướng và đưa ra nhiều góp ý quý báu trong quá trình tôi thực hiện luận văn Tôi xin chân thành cảm ơn các thầy, cô ở khoa Công nghệ thông tin – trường Đại học Công nghệ Thông tin và Truyền thông đã cung cấp cho tôi những kiến thức và tạo cho tôi những điều kiện thuận lợi trong suốt quá trình tôi học tập tại trường Tôi cũng bày tỏ lòng biết ơn về sự giúp đỡ của lãnh đạo cơ quan, đồng nghiệp đã cung cấp dữ liệu, tài liệu và cho tôi những lời khuyên quý báu Tôi xin cảm ơn gia đình, người thân, bạn bè và các thành viên trong nhóm nghiên cứu luôn động viên và tạo mọi điều kiện tốt nhất cho tôi Tôi xin chân thành cảm ơn! Thái Nguyên, ngày 08 tháng 10 năm 2020 Tác giả luận văn Sengthong Xayavong 33 MỤC LỤC LỜI CAM ĐOAN I LỜI CẢM ƠN II DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT VI DANH MỤC CÁC BẢNG VII DANH MỤC HÌNH VIII MỞ ĐẦU 1 Chương 1: Tổng quan về khai phá dữ liệu và phát hiện tri thức 3 1.1 Giới thiệu tổng quan 3 1.1.1 Giới thiệu chung về khám phá tri thức và khai phá dữ liệu 3 1.1.2 Quá trình khám phá tri thức 3 1.1.3 Khai phá dữ liệu 5 1.1.4 Quá trình của khai phá dữ liệu 6 1.1.5 Ứng dụng của khai phá dữ liệu 7 1.2 Một số kỹ thuật khai phá dữ liệu cơ bản .7 1.2.1 Luật kết hợp (Association Rules) .7 1.2.2 Khai thác mẫu tuần tự (Sequential / Temporal patterns) 7 1.2.3 Phân cụm dữ liệu (Clustering) 8 1.2.4 Phân nhóm- đoạn (Clustering / Segmentation) 8 1.2.5 Hồi quy (Regression) 9 1.2.6 Tổng hợp hóa (Summarization) 9 1.2.7 Mô hình hóa sự phụ thuộc (dependency modeling) 9 1.2.8 Phát hiện sự biến đổi và độ lệch (Change and deviation detection) 10 1.3 Một số so sánh giữa khai phá dữ liệu và các phương pháp cơ bản khác 10 1.3.1 So sánh với phương pháp hệ chuyên gia 10 1.3.2 So sánh với phương pháp phân loại thống kê 11 1.3.3 So sánh với phương pháp học máy 12 1.3.4 So sánh với phương pháp học sâu .14 Chương 2: Một số kỹ thuật phân lớp dữ liệu .16 2.1 Tổng quan về phân lớp dữ liệu 16 2.2 Phân lớp dữ liệu Naive Bayes .19 44 2.2.1 Định nghĩa thuật toán Naïve Bayes 19 2.2.3 Đặc điểm của thuật toán Naïve Bayes .22 2.2.4 Ứng dụng của thuật toán Naïve Bayes 23 2.3 Phân lớp dữ liệu RandomForest 24 2.3.1 Định nghĩa thuật toán Ramdomforest .24 2.3.2 Đặc điểm của Random Forest 27 2.3.3 Mô hình phân lớp với Random Forest 29 2.3.4 Ứng dụng thuật toán Ramdom Forest .29 2.4 Phân lớp dữ liệu KNN (K-nearest neighbor) 29 2.4.1 Định nghĩa thuât toán KNN 29 2.4.2 Mô tả thuật toán K-NN 31 2.4.3 Đặc điểm của thuật toán KNN 33 2.4.4 Ứng dụng thuật toán K-NN 33 2.5 Một số thuật toán phân lớp dữ liệu khác 34 2.5.1 Cây quyết định ứng dụng trong phân lớp dữ liệu 34 2.5.2 Phân lớp với máy vector hỗ trợ (SVM) 34 Chương 3: Ứng dụng phân lớp dữ liệu hoa Iris 35 3.1 Giới thiệu về hoa Iris và bài toán phân lớp hoa Iris 35 3.1.1 Giới thiệu về tập dữ liệu hoa Iris 35 3.1.2 Sử dụng tập dữ liệu 36 3.1.3 Tập dữ liệu .36 3.1.4 Định nghĩa bài toán phân lớp hoa Iris 41 3.2 Thu thập và tiền xử lý dữ liệu 41 3.2.1 Làm sạch dữ liệu 42 3.2.2 Chọn lọc dữ liệu .42 3.2.3 Chuyển đổi dữ liệu 43 3.2.4 Rút gọn dữ liệu 43 3.3 Giới thiệu về công cụ Weka, cấu hình và ứng dụng phân lớp hoa Iris 43 3.3.1 Khái niệm 43 3.3.2 Ưu điểm của Weka 44 3.3.3 Những tính năng vượt trội của Weka 45 55 3.3.4 Kiến trúc thư viện Weka 45 3.3.5 Các môi trường chức năng chính của Weka .46 3.3.6 Định dạng dữ liệu của weka 48 3.4 Áp dụng các thuật toán Naive Bayes, RandomForest và KNN trong phân lớp dự đoán hoa Iris 49 3.4.1 Áp dụng thuật toán Naive Bayes trong phân lớp dự đoán hoa Iris 50 3.4.2 Áp dụng thuật toán RandomForest trong phân lớp dự đoán hoa Iris 53 3.4.3 Áp dụng thuật toán KNN trong phân lớp dự đoán hoa Iris .56 3.5 Đánh giá mô hình phân lớp dữ liệu Hoa IRIS 59 3.5.1 Đánh giá hiệu năng mô hình sử dụng phương pháp đánh giá chéo (k-fold cross-validation) 59 3.5.2 Đánh giá mô hình sử dụng phương pháp Hold-out 59 3.5.3 Kết luận thực nghiệm phân lớp dữ liệu IRIS 60 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .61 TÀI LIỆU THAM KHẢO 62 66 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT T T 1 2 3 4 5 6 7 C h K P C S K N K D R F S V N B Ý n K ha C ơ K K n R a S u N ai 77 DANH MỤC CÁC BẢNG Bảng 1:Thông tin loài Setosa 36 Bảng 2:Thông tin loài Iris-Versicolor 38 Bảng 3: thông tin Loài Iris-Virginica 39 Bảng 4: tổng kết thống kê Giá trị của hoa Iris 42 Bảng 5: ý nghĩa các môi trường chính trên Weka 3.8.4 46 Bảng 6: ý nghĩa các môi trường Explorer trên Weka 3.8.4 48 Bảng 7: Tổng hợp đánh giá các thật toán chia tập dữ liệu thành 10 phần (chọn fold=10) 59 Bảng 8: Tổng hợp kết quả đánh giá hiệu năng phân lớp, dự đoán của mô hình bằng phương pháp kiểm thử độc lập 60 VIII 8 DANH MỤC HÌNH Hình 1 1:Quá trình khám phá tri thức 5 Hình 1 2:Quá trình khai phá dữ liệu 6 Hình 1 3: Lược đồ hệ chuyên gia .11 Hình 2 1: Bài toán phân lớp .16 Hình 2 2: Quá trình phân lớp dữ liệu - (a) Bước xây dựng mô hình phân lớp 18 Hình 2 3: Quá trình phân lớp dữ liệu - (b1) Ước lượng độ chính xác của mô hình 19 Hình 2 4:Quá trình phân lớp dữ liệu - (b2) Phân lớp dữ liệu mới 19 Hình 2 5:Mô hình rừng ngẫu nhiên 25 Hình 2 6:Các bước phân lớp với Random Forest 27 Hình 2 7:Mô hình phân lớp với Random Forest 29 Hình 2 8: Bản dổ của KNN nhiễu k =1 31 Hình 2 9: Minh họa của KNN 32 Hình 3 1: Minh họa về iris flower dataset 35 Hình 3 2: Loài chim Mecca được chọn là biểu tượng của ứng dụng Weka 43 Hình 3 3: môi trường chính của Weka 46 Hình 3 4 : Sơ đồ tổng thể Mô hình phân lớp dự đoán hoa Iris trong luận văn 50 Hình 3 5:Cấu hình tham số cho thuật toán Naive Bayes 51 Hình 3 6: Kết quả phân lớp dữ liệu cho thuật toán Naive Bayes Tập luyện tập 66% (Tập kiểm chứng 34%) 52 Hình 3 7:Kết quả phân lớp dữ liệu cho thuật toán Naive Bayes chia tập dữ liệu thành 10 phần (chọn fold=10) 53 Hình 3 8:Cấu hình tham số cho thuật toán Ramdomforest 54 Hình 3 9: Kết quả phân lớp dữ liệu cho thuật toán Ramdomforest Tập luyện tập 66% (Tập kiểm chứng 34%) .55 Hình 3 10:Kết quả phân lớp dữ liệu cho thuật toán Ramdomforest chia tập dữ liệu thành 10 phần (chọn fold=10) 56 Hình 3 11:Cấu hình tham số cho thuật toán k-Nearest Neighbors 57  Data: gồm nhiều dòng, mỗi dòng thể hiện giá trị của các thuộc tính cho một mẫu % Title: Iris Plants Database Chú thích @RELATION iris Tên của tập dữ liệu @ATTRIBUTE sepallength REAL @ATTRIBUTE sepalwidth REAL @ATTRIBUTE petallength REAL @ATTRIBUTE petalwidth REAL @ATTRIBUTE class Tên thuộc tính {Iris-setosa,Iris-versicolor,Iris virginica} Thuộc tính phân lớp @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa instances 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa  Các kiểu dữ liệu được hỗ trợ trong ARFF bao gồm: - numeric: là kiểu dữ liệu số, gồm real và integer - nominal: là kiểu dữ liệu danh sách - string: là kiểu dữ liệu dạng chuỗi - date: kiểu dữ liệu thời gian (ngày tháng năm, giờ phút giây…) 3.4 Áp dụng các thuật toán Naive Bayes, RandomForest và KNN trong phân lớp dự đoán hoa Iris Trong luân văn này, ta sẽ áp dụng các phương pháp phân lớp (classification) lên tập dữ liệu hoa Iris Các thuật toán được sử dụng gồm: Naive Bayes, RandomForest, và K-Nearest neighbor Mô hình phân lớp dự đoán đề xuất trong đề tài này được hiển thị chi tiết qua hình dưới đây: Hình 3 4 : Sơ đồ tổng thể Mô hình phân lớp dự đoán hoa Iris trong luận văn 3.4.1 Áp dụng thuật toán Naive Bayes trong phân lớp dự đoán hoa Iris Kịch bản 1: thực nghiệm huấn luyện trong chế độ phân lớp Percentage split để xác định tỉ lệ phân chia, Trong tập dữ liệu trên ta chia tập train (luyện tập) và tập test (kiểm chứng) theo nguyên tắc như sau: - Tập luyện tập: Là tập chứa 66% số liệu của bộ dữ liệu đầu vào - Tập kiểm chứng: Là tập chứa 34% số liệu của bộ dữ liệu đầu vào còn lại 1) Nhấp vào nút “Choose” Lựa chọn và chọn Tập tin “Naïve Bayes” trực tuyến trong nhóm “Bay Bayes” 2) Nhấp vào tên của thuật toán để xem lại cấu hình thuật toán Hình 3 5:Cấu hình tham số cho thuật toán Naive Bayes Theo mặc định, một phân phối Gaussian được giả sử cho từng thuộc tính số Các phân phối này có thể thay đổi thuật toán để sử dụng công cụ ước tính Kernel với đối số sử dụng Kernel Estimator có thể phù hợp hơn với phân phối thực tế của các thuộc tính trong tập dữ liệu của bạn Tuy nhiên, các thông số này có thể tự động chuyển đổi các thuộc tính số thành thuộc tính danh nghĩa với tham số sử dụng Supervised Discretization 3) Nhấn vào “Ok” đây để đóng cấu hình thuật toán 4) Ta chọn thuộc tính phân lớp là “class”, chọn các Classifer tương ứng, sau đó bấm Start để tiến hành xây dựng mô hình và đánh giá độ chính xác Sau chạy thuật toán trên bộ dữ liệu Iris Có thể thấy rằng với cấu hình mặc định, thuật toán Naïve Bayes đạt được độ chính xác 94.1176% Hình 3 6: Kết quả phân lớp dữ liệu cho thuật toán Naive Bayes Tập luyện tập 66% (Tập kiểm chứng 34%) Kết quả: - Tỷ lệ phân lớp đúng là 94.1176% (48 mẫu) - Tỷ lệ phân lớp sai là 5.8824% (3 mẫu) - Mức độ chính của bộ phân lớp đối với mỗi lớp a (Iris-setosa), lớp b (Irisversicolor) và lớp c (Iris-virginica) là: - Ma trận Confusion thể hiện các mẫu Iris-setosa (a) phân đúng là 15, phân sai là 0 mẫu Iris-versicolor (b) phân đúng là 18, phân sai là 1 và Iris-virginica phân đúng là 15, phân sai là 2 - Kịch bản 2: thực nghiệm huấn luyện trong chế độ phân Cross-validation Tập dữ liệu sẽ được chia đều k tập (folds) có kích thước xấp xỉ nhau, và bộ phân loại học được sẽ được dánh giá bởi phướng pháp cross-validation Trong thực nghiệm này tôi xác định chọn fold=10, để đạt hiệu quả phân lớp như sau: Sau chạy thuật toán trên bộ dữ liệu Iris Có thể thấy rằng với cấu hình mặc định, thuật toán cây quyết định đạt được độ chính xác 96% Hình 3 7:Kết quả phân lớp dữ liệu cho thuật toán Naive Bayes chia tập dữ liệu thành 10 phần (chọn fold=10) Kết quả: - Tỷ lệ phân lớp đúng là 96% (144 mẫu) - Tỷ lệ phân lớp sai là 4% (6 mẫu) - Ma trận Confusion thể hiện các mẫu Iris-setosa (a) phân đúng là 50, phân sai là 0 mẫu Iris-versicolor (b) phân đúng là 48, phân sai là 2 và Iris-virginica phân đúng là 46, phân sai là 4 3.4.2 Áp dụng thuật toán RandomForest trong phân lớp dự đoán hoa Iris Random Forest (rừng ngẫu nhiên) Là một phương pháp phân lớp và hồi quy dựa trên việc kết hợp kết quả dự đoán của một số lượng lớn các cây quyết định chúng ta có thể liên tưởng tới việc bầu cử theo nguyên tắc phổ thông đầu phiếu Nếu sử dụng một cây quyết định chẳng khác nào việc bầu cử mà chỉ có 1 người bỏ phiếu Việc sinh các cây quyết định từ một mẫu dữ liệu nhằm đa dạng hoá các “phiếu bầu” (giống như việc mọi thành phần, tầng lớp, giai cấp đều được đi bỏ phiếu) cho kết luận Việc áp dụng các kỹ thuật sinh ra các mẫu dữ liệu hay việc lựa chọn rẽ nhánh ngẫu nhiên sẽ tạo ra các cây “dị tật” trong rừng (giống việc cho phép công dân không cần phân biệt trình độ học vấn, sức khỏe đi bầu cử) Càng nhiều loại hình, càng nhiều phiếu bầu sẽ cung cấp cho chúng ta cái nhìn đa chiều, chi tiết hơn và do đó kết luận sẽ có tính chính xác, gần với thực tế hơn Trong thực tế RF đã trở thành một công cụ tin cậy cho phân tích dữ liệu đặc biệt là dữ liệu tin sinh học Chọn thuật toán Ramdomforest: 1) Nhấp vào nút “Choose” và chọn “Ramdomforest” trong nhóm “Trees” 2) Nhấp vào tên của thuật toán để xem lại cấu hình thuật toán Hình 3 8:Cấu hình tham số cho thuật toán Ramdomforest 3) Sau đó nhấn vào “Ok” đây để đóng cấu hình thuật toán 4) Ta chọn thuộc tính phân lớp là “class”, chọn các Classifer tương ứng, sau đó bấm Start để tiến hành xây dựng mô hình và đánh giá độ chính xác Sau chạy thuật toán trên bộ dữ liệu Iris Có thể thấy rằng với cấu hình mặc định, thuật toán Ramdomforest đạt được độ chính xác 96% Hình 3 9: Kết quả phân lớp dữ liệu cho thuật toán Ramdomforest Tập luyện tập 66% (Tập kiểm chứng 34%) Kết quả: - Tỷ lệ phân lớp đúng là 96.0784% (49 mẫu) - Tỷ lệ phân lớp sai là 3.9216% (2 mẫu) Hình 3 10:Kết quả phân lớp dữ liệu cho thuật toán Ramdomforest chia tập dữ liệu thành 10 phần (chọn fold=10) Kết quả: - Tỷ lệ phân lớp đúng là 95.3333% (143 mẫu) - Tỷ lệ phân lớp sai là 4.6667% (7 mẫu) 3.4.3 Áp dụng thuật toán KNN trong phân lớp dự đoán hoa Iris Thuật toán hỗ trợ cả phân lớp và hồi quy Nó cũng được gọi là KNN cho ngắn gọn Nó hoạt động bằng cách lưu trữ toàn bộ tập dữ liệu huấn luyện và truy vấn nó để xác định vị trí của các mẫu đào tạo tương tự nhất khi đưa ra dự đoán Như vậy, không có mô hình nào ngoài tập dữ liệu huấn luyện thô và phép tính duy nhất được thực hiện là truy vấn bộ dữ liệu huấn luyện khi yêu cầu dự đoán Chọn thuật toán k-Nearest Neighbors: 1) Nhấp vào nút “Choose” và chọn “IBk” trong nhóm “Lazy” 2) Nhấp vào tên của thuật toán để xem lại cấu hình thuật toán Hình 3 11:Cấu hình tham số cho thuật toán k-Nearest Neighbors Theo hình 3.11 cấu hình Weka cho thuật toán k-Neares Neighbors chúng ta được xác định giá trị tham số K (số láng giềng gần nhất) K=3 và dùng khoảng cách Euclidean để tính khoảng cách giữa các trường hợp, điều này tốt cho dữ liệu số có cùng tỷ lệ Khoảng cách Manhattan là tốt để sử dụng nếu thuộc tính của bạn khác nhau về các biện pháp hoặc loại 3) Sau đó nhấn vào “Ok” đây để đóng cấu hình thuật toán 4) Ta chọn thuộc tính phân lớp là “class”, chọn các Classifer tương ứng, sau đó bấm Start để tiến hành xây dựng mô hình và đánh giá độ chính xác Sau chạy thuật toán trên bộ dữ liệu Iris Có thể thấy rằng với cấu hình mặc định, thuật toán KNN đạt được độ chính xác 96% Hình 3 12: Kết quả phân lớp dữ liệu cho thuật toán K-NN Tập luyện tập 66% (Tập kiểm chứng 34%) Kết quả: - Tỷ lệ phân lớp đúng là 96.0784% (49 mẫu) - Tỷ lệ phân lớp sai là 3.9216% (2 mẫu) Hình 3 13:Kết quả phân lớp dữ liệu cho thuật toán k-Nearest Neighbors chia tập dữ liệu thành 10 phần (chọn fold=10) Kết quả: - Tỷ lệ phân lớp đúng là 95.3333% (143 mẫu) - Tỷ lệ phân lớp sai là 4.6667% (7 mẫu) 3.5 Đánh giá mô hình phân lớp dữ liệu Hoa IRIS 3.5.1 Đánh giá hiệu năng mô hình sử dụng phương pháp đánh giá chéo (k-fold cross-validation) Trong nghiên cứu này, ta chọn k=10 để kiểm tra, đánh giá hiệu năng phân lớp/dự đoán của mô hình đã xây dựng Theo phương pháp này (10-fold crossvalidation), tập dữ liệu huấn luyện được chia thành 10 con tương đối bằng nhau, mỗi phần luân phiên được sử dụng để kiểm tra và 9 phần còn lại dùng cho tập huấn luyện Kết quả thực nghiệm phương pháp đánh giá chéo 10-fold cross-validation được tổng hợp ở bảng 7 bên dưới Bảng 7: Tổng hợp đánh giá các thuật toán chia tập dữ liệu thành 10 phần (chọn fold=10) T h uậ t N aï ve A Er Pr R cc ro ec ec ur r_ isi al ac o l Con ion m 9 4 0 0 6 % 9 9 % 6 6 B R an 9 4 0 0 d 5 6 9 9 o 3 % 5 5 K 9 4 0 0 N 5 6 9 9 N 3 % 5 5 3.5.2 Đánh giá mô hình sử dụng phương pháp Hold-out Bên cạnh việc đánh giá hiệu năng mô hình phân lớp/dự đoán bằng phương pháp đánh giá chéo 10-fold cross-validation; việc sử dụng bộ dữ liệu kiểm thử độc lập để đánh giá hiệu năng mô hình giúp việc kiểm thử hiệu năng dự đoán của mô hình mang tính chất khách quan và trung thực hơn Như đã đề cập ở trên, từ bộ dữ liệu hoa Iris đã thu thập trước đó, 34% dữ liệu được lấy ngẫu nhiên để xây dựng tập dữ liệu kiểm thử độc lập (testing dataset) Qua quá trình phân tích, đánh giá sử dụng phương pháp kiểm thử độc lập, kết quả chi tiết về hiệu năng dự đoán của mô hình cho các phương pháp phân lớp được tổng hợp và thể hiện thông quan bảng 8 bên dưới Bảng 8: Tổng hợp kết quả đánh giá hiệu năng phân lớp, dự đoán của mô hình bằng phương pháp kiểm thử độc lập T h u ậ t N aï ve A cc ur ac y Er Pr R ro ec ec r_ isi al o l R n Con ion m 9 5 0 0 4 8 9 9 B 11 % 4 4 R an 9 3 0 0 d 6 9 9 9 o 0 2 6 6 K 9 3 0 0 6 9 9 9 N 0 2 6 6 3.5.3 Kết luận thực nghiệm phân lớp dữ liệu IRIS N Qua kết quả phân lớp trên, ta thấy rằng cả 3 mô hình phân lớp dự đoán hoa IRIS (dựa trên Weka và các thuật toán Naïve Bayes; Random Forest; và KNN) đều cho đạt độ chính xác trên 95% Điều này cho thấy các mô hình phân lớp ở trên hoàn toàn phù hợp với bài toán dự đoán loại hoa IRIS, đặc biệt là mô hình phân lớp dự đoán sử dụng thuật toán Naïve Bayes cho hiệu năng dự đoán cao nhất Ngoài ra, thông qua các kết quả nhận được từ một số mô hình phân lớp ở trên, đặc biệt là mô hình phân lớp dựa vào thuật toán Naïve Bayes, ta có thể biết được một loại hoa IRIS nói chung thuộc vào loài cụ thể (Setosa, Versicolor hoặc Virginica) nào đó nhờ vào đặc trưng về chiều dài, chiều rộng của đài hoa và cánh hoa Về đặc điểm nhận dạng bên ngoài thông qua chiều dài, chiều rộng của đài hoa và cánh hoa thì hầu hết các hoa IRIS có cánh hoa với chiều rộng nhỏ hơn thì thường là loài Iris-setosa; những hoa có chiều rộng cánh hoa từ 2.0 cm trở lên thường được nhận biết là loài Iris-Virginica KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN  Kết quả đạt được Dựa vào các nghiên cứu gần đây trong thuật toán phân lớp dữ liệu, khóa luận đã nghiên cứu, chọn lọc cũng như phát triển một số vấn đề và đạt được những kết quả ban đầu như sau: - Trình bày khái niệm cơ sở lý thuyết của khai phá dữ liệu và phát hiện tri thức, các thuật toán phân lớp dữ liệu và ứng dụng - Tìm hiểu các bài toán phân lớp dữ liệu áp dụng cho phân lớp và dự đoán hoa IRIS - Sử dụng công cụ phần mềm Weka ứng dụng trong phân lớp dữ liệu hoa IRIS bằng thuật toán Naïve Bayes, RamdomForest và K-NN  Hướng phát triển của luận văn Trên cơ sở các kết quả đã đạt được, có thể tiếp tục nghiên cứu một số vấn đề như sau: - Tìm hiểu thêm vấn đề của phân lớp dữ liệu và ứng dụng các thuật toán - Nghiên cứu ứng dụng phần mềm Weka để tiến hành phân tích dữ liệu ứng dụng trong các lĩnh vực cụ thể là phân lớp dữ liệu Mặc dù em đã rất cố gắng nhưng do thời gian và hiểu biết về lĩnh vực khai phá dữ liệu còn hạn chế nên luận văn chắc chắn sẽ không tránh khỏi những khuyết điểm nhất định Trong tương lai, em sẽ cố gắng khắc phục những hạn chế, tiếp tục nghiên cứu những vấn đề đã nêu ở trên Rất mong nhận được ý kiến đóng góp của các quý thầy cô và độc giả để luận văn được hoàn thiện hơn TÀI LIỆU THAM KHẢO [1] Đỗ Phúc (2017), Giáo trình khai phá dữ liệu, NXB Đại học Quốc gia Hồ Chí Minh [2] Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2013), Giáo trình khai phá dữ liệu, NXB Đại học Quốc gia Hà Nội [3] Phan Xuân Hiếu (2013),Bài giảng môn học KPDL và kho dữ liệu, Trường Đạihọc Công nghệ, Đại học Quốc gia Hà Nội [4] Website: https://ndhcuong.wordpress.com/hoc-phan/khai-pha-du-lieu/ [5] Website: http://archive.ics.uci.edu/ml/datasets/iris [6] Website: https://en.wikipedia.org/wiki/Iris_flower_data_set [7] Joydeep Ghosh (2003), Scalable Clustering, Chapter 10, pp 247-278, Formal version appears in: The Handbook of Data Mining, Nong Ye (Ed) [8] S Eyheramendy, D Lewis and D Madigan, On the Naive Bayes Model for Text Categorization, In Proceedings of Artificial Intelligence & Statistics 2003 [9] Weka 3 - Data Mining with Open Source Machine Learning Software in Java Available from: http://www.cs.waikato.ac.nz/ml/weka/ ... TIN VÀ TRUYỀN THÔNG SENGTHONG XAYAVONG PHÂN LỚP DỮ LIỆU HOA IRIS SỬ DỤNG THUẬT TOÁN NAIVE BAYES, RANDOMFOREST VÀ KNN (K - NEAREST NEIGHBORS) LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH Chuyên ngành: KHOA... liệu weka 48 3.4 Áp dụng thuật toán Naive Bayes, RandomForest KNN phân lớp dự đoán hoa Iris 49 3.4.1 Áp dụng thuật toán Naive Bayes phân lớp dự đoán hoa Iris 50 3.4.2 Áp dụng. .. Ứng dụng phân lớp liệu hoa Iris 35 3.1 Giới thiệu hoa Iris toán phân lớp hoa Iris 35 3.1.1 Giới thiệu tập liệu hoa Iris 35 3.1.2 Sử dụng tập liệu 36 3.1.3 Tập liệu

Định dạng
Số trang	81
Dung lượng	2,78 MB