Đề tài xây dựng mô hình phân lớp kết hợp dạng voting dựa trên mô hình phân lớp cơ sở naivebayes, cây quyết định (j48) và k – lân cận để dự đoán trên tập dữ liệu
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 36 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
36
Dung lượng
6,27 MB
Nội dung
ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KINH TẾ KHOA HỆ THỐNG THÔNG TIN KINH TẾ ĐỒ ÁN KẾT THÚC HỌC PHẦN MÔN KHAI PHÁ DỮ LIỆU Đề tài: Xây dựng mơ hình phân lớp kết hợp dạng Voting dựa mơ hình phân lớp sở Naivebayes, Cây định (J48) K – Lân Cận để dự đoán tập liệu Giảng viên hướng dẫn: TS NGUYỄN ĐÌNH HOA CƯƠNG Sinh viên thực hiện: LÊ CHÁNH NHẪN Lớp: K51 TIN HỌC KINH TẾ Mã sinh viên: 17K4081030 Huế, 06/2022 LỜI CẢM ƠN Em xin chân thành cảm ơn thầy giáo Nguyễn Đình Hoa Cương – giảng viên phụ trách học phần Khai phá liệu hướng dẫn định hướng cho em bạn lớp K53 Tin học kinh tế cách thực để có báo cáo kết thúc học phần Với cá nhân em, từ hướng dẫn thầy, em có định hướng đề án kết thúc môn học thực tốt bước quy trình làm báo cáo Qua đây, em muốn gửi lời cảm ơn đến thầy giáo Nguyễn Đình Hoa Cương q thầy Khoa Hệ Thống Thơng Tin Quản Lí giúp đỡ, hướng dẫn cho em suốt trình học tập thực hoàn thành báo cáo Do kinh nghiệm làm đồ án, tiểu luận chưa nhiều nên q trình làm khơng tránh khỏi lỗi sai thiếu sót, em mong nhận nhiều hướng dẫn, bảo từ giảng viên học phần Khai phá liệu - thầy giáo Nguyễn Đình Hoa Cương q thầy khoa Qua báo cáo này, lần em xin chân thành gửi lời cảm ơn sâu sắc, lời chúc sức khỏe đến quý thầy cô Khoa Hệ Thống Thông Tin Quản Lý, chúc thầy cô đạt nhiều thành tựu thành công nghiệp giảng dạy Em xin chân thành cảm ơn ! Lê Chánh Nhẫn I MỤC LỤC LỜI CẢM ƠN I MỤC LỤC II DANH MỤC HÌNH VẼ IV DANH MỤC BẢNG BIỂU V DANH MỤC THUẬT NGỮ VI CHƯƠNG I: CƠ SỞ LÝ THUYẾT 1.1 Tổng quan khai phá liệu .1 1.1.1 Khái niệm khai phá liệu 1.1.2 Quá trình phát tri thức sở liệu 1.1.3 Lợi ích khai phá liệu .2 1.1.4 Thách thức khai phá liệu 1.2 Các phương pháp khai phá liệu 1.2.1 Khai phá luật kết hợp 1.2.2 Phân lớp liệu 1.2.3 Phân cụm 1.3 Các mơ hình phân lớp sử dụng tiểu luận 1.3.1 Mơ hình Naive Bayes 1.3.2 Mơ hình định (J48) 1.3.3 Mơ hình K – lân cận 1.3.4 Mơ hình kết hợp: Phương pháp Voting CHƯƠNG II: PHƯƠNG PHÁP NGHIÊN CỨU 10 II 2.1 Mô tả liệu 10 2.2 Phương pháp phân chia liệu 10 2.2.1 Phương pháp Hold - out 10 2.2.2 Phương pháp Cross validation (10 – fold cross validation) 11 2.2.3 Phân chia liệu 11 2.3 Xây dựng mơ hình 12 2.4 Đánh giá mơ hình 21 2.4.1 Phép đo Precetion - Recall 22 2.4.2 Phép đo F1 23 2.5 Kết thực hành 23 CHƯƠNG III: TỔNG KẾT THỰC HÀNH - 25 3.1 Kết luận - 25 3.2 Hạn chế - 25 DANH MỤC TÀI LIỆU THAM KHẢO .26 KẾT QUẢ KIỂM TRA ĐẠO VĂN 28 III DANH MỤC HÌNH VẼ Hình 1: Minh họa quy trình phát tri thức sở liệu (nguồn: tailieuso.udn.vn) Hình 2: Minh họa phân cụm (nguồn: giảng phân cụm – TS Nguyễn Đình Hoa Cương) Hình 3: Minh họa mơ hình Nạve Bayes (nguồn: https://sebastianraschka.com/) .7 Hình 4: Minh họa định (J48) (nguồn: viblo.asia) .8 Hình 5: Minh họa mơ hình kNN (nguồn: viblo.asia) Hình 6: Quy trình phân chia liệu 12 Hình 7:Minh họa cho sơ đồ vẽ đường ROC .21 Hình 8: Minh họa phép đo Precetion – Recall 22 Hình 9: Đường ROC mơ hình với liệu Diabetes.arff (Nhãn lớp: tested_negative) 24 IV DANH MỤC BẢNG BIỂU Bảng 1: Các thuộc tính liệu .10 Bảng 2: Kết mô hình với liệu Diabetes.arff 23 V DANH MỤC THUẬT NGỮ Số thứ tự Từ viết tắt KDD ROC Arff Khai thác tri thức ( Knowledge discovery in databases) Receiver Operating Characteristic Attribute - Relation File Format Tên tiếng Anh/ Nghĩa tiếng Việt Số thứ tự Từ tiếng Anh Nghĩa tiếng Việt Decision Tree k – Nearest Neighbors Clustering Lazy learning Weka Association Rule Mining Data Mining Cây định k – lân cận Phân cụm Lười biếng Waikato Environment for Knowledge Analysis Khai phá luật kết hợp Khai phá liệu VI CHƯƠNG I: CƠ SỞ LÝ THUYẾT 1.1 Tổng quan khai phá liệu 1.1.1 Khái niệm khai phá liệu Khai phá liệu [1] hay Data Mining khái niệm đời vào năm cuối thập kỷ 80 Nó bao hàm loạt kỹ thuật nhằm phát thơng tin có giá trị tiềm ẩn tập liệu lớn (các kho liệu) Khai phá liệu tập hợp, hệ thống phương pháp tính tốn, thuật tốn áp dụng cho sở liệu lớn phức tạp mục đích loại bỏ chi tiết ngẫu nhiên, chi tiết ngoại lệ, khám phá mẫu, mơ hình, quy luật tiềm ẩn, thơng tin có giá trị liệu Khai phá liệu thành công nghệ tiên tiến ngày nay, q trình khám phá kiến thức vơ giá cách phân tích khối lượng lớn liệu đồng thời lưu trữ chúng nhiều sở liệu khác 1.1.2 Quá trình phát tri thức sở liệu Quá trình phát tri thức (KDD) [2] q trình tìm thơng tin tiềm ẩn có giá trị mà trước chưa phát hiện, tìm xu hướng phát triển yếu tố tác động lên chúng Quá trình xử lý khai phá liệu bắt đầu cách xác định xác vấn đề cần giải Sau xác định liệu liên quan dùng để xây dựng giải pháp Bước thu thập liệu có liên quan xử lý chúng thành dạng cho giải thuật khai phá liệu hiểu Bước chọn thuật toán khai phá liệu thích hợp thực việc khai phá liệu để tìm mẫu (pattern) có ý nghĩa dạng biểu diễn tương ứng với ý nghĩa (thường biểu diễn dạng luật xếp loại, định, luật sản xuất, biểu thức hồi quy,…) Quá trình phát tri thức bao gồm bước: - Làm liệu (data cleaning): bước nhiễu liệu không quán loại bỏ - Tích hợp liệu (data intergation): liệu từ nhiều nguồn khác tổ hợp lại - Lựa chọn liệu (data selection): liệu thích hợp với nhiệm vụ phân tích trích rút từ sở liệu - Chuyển đổi liệu (data tranform): liệu sau chọn lọc chuyển đổi hay hợp dạng thích hợp cho việc khai phá - Khai phá liệu (data mining): q trình cốt lõi, tất yếu phương pháp thông minh áp dụng nhằm trích rút mẫu liệu - Đánh giá mẫu (pattern evaluation): nhà phân tích liệu dựa số độ đo để xác định lợi ích thực sự, độ quan trọng mẫu biểu diễn tri thức - Biểu diễn tri thức (Knowledge presentation): giai đoạn kĩ thuật biểu diễn hiển thị tri thức sử dụng để đưa tri thức lấy đến người dùng Hình 1: Minh họa quy trình phát tri thức sở liệu (nguồn: tailieuso.udn.vn) 1.1.3 Lợi ích khai phá liệu Xét lợi ích trình phân chia liệu: - Chọn lọc, loại bỏ tất liệu không liên quan liệu trùng lớp tập liệu - Xác định mẫu liệu, liệu có liên quan dùng thuật tốn phân tích, tận dụng liệu để dự báo kết đầu ví dụ xu hướng, hành vi tiêu dùng - Với khai phá liệu, phân tích khối lượng lớn liệu thời gian ngắn sau chuyển đổi liệu thành thơng tin, kiến thức có ý nghĩa Xác định nguồn định dạng liệu (DataSources): Chọn Arff Loader để nạp file liệu Diabetes.arff Chọn tab Evaluation chọn ClassAssigner để xác định thuộc tính phân lớp (Category Variable) mơ hình Để nạp liệu từ dataset vào mơ hình, bấm phải chuột vào Diabetes dataset chọn dataSet, kéo thả kến ClassAssigner 14 Chọn kỹ thuật Train Test mơ hình, Tab Evaluation chọn TestSetMaker Nạp liệu vào TestSetMaker giống nạp liệu từ Diabetes dataSet vào ClassAssigner 15 Chọn Tab Classifiers chọn thuật tốn để xây dựng mơ hình (chọn thuật tốn NaiveBayes, J48, k-lân cận voting) Sau nạp liệu để test mơ hình, bấm phải chuột vào TestSetMaker chọn testSet nối với NaiveBayes, J48, IBK Voting 16 Hiệu chỉnh tham số thuật tốn cách kích đúp vào thuật tốn kích vào Browse để chọn file Classifier model to load theo thuật toán để chọn model 17 18 Chọn Tab Evaluation chọn ClassifierPerformanceEvaluator để đánh giá hiệu mơ hình phân lớp 19 Chọn Tab Visualization chọn ModelPerformanceChart để xem kết mơ hình dạng trực quan quan hình ảnh Đồng thời để xem kết mơ hình cách kích đúp chuột vào ImageSaver chọn Browse để chọn File to save to – nơi lưu kết mơ hình 20 Tương tự, ta xây dựng mơ hình nhiều thuật toán để chọn thuật toán tốt cho mơ hình KnowledgeFlow sử dụng thuật toán phân lớp NaiveBayes, Cây định (J48) k – lân cận (Nearest Neighbors) mơ hình phân lớp kết hợp Voting hình đây: Hình 7:Minh họa cho sơ đồ vẽ đường ROC 2.4 Đánh giá mơ hình Với KnowledgeFlow bạn bước hiệu chỉnh tham số mơ hình, lựa chọn nhiều kỹ thuật, thuật toán khác để xây dựng mơ hình Từ chọn mơ hình tốt cho cơng việc khai phá liệu cụ thể bạn Và phương 21 pháp đánh giá mơ hình có vai trị quan trọng việc đưa dự đốn độ xác mơ hình Độ xác giúp so sánh mơ hình phân lớp khác 2.4.1 Phép đo Precetion - Recall Phép đo Precetion-recall [13] cách đánh giá thường áp dụng cho tốn phân lớp có hai phân lớp liệu Cụ thể hơn, ta hiểu hai lớp liệu có lớp nghiêm trọng lớp cần dự đốn xác Hình 8: Minh họa phép đo Precetion – Recall Trong đó: - True Positive: số điểm phân loại lớp Positive - True Negative: số điểm phân loại lớp Negative - False Positive: Là số điểm phân loại lớp Posivite - False Negative: Là số điểm phân loại lớp Negative Tỷ lệ xác (Precision) tỷ lệ tái (Recall) tính theo cơng thức: Precision = Recall = (5) Dựa vào cơng thức (5), ta nhận định tỷ lệ xác (Precision) cao đồng nghĩa với việc số điểm phân lại theo lớp Positive cao Đồng thời, tỷ lệ tái (Recall) cao đồng nghĩa với việc số điểm phân loại theo phân lớp Negative cao 22 2.4.2 Phép đo F1 Tiêu chí để đánh giá F1 [14] kết hợp hai tiêu chí Precision Recall F1= (6) Có thể nói cách xác F1 gần tương đương với giá trị nằm nửa khoảng (0, 1] Và F1 vị trí cao, phân lớp thực tốt Trường hợp recall precision có mức tương đương (thì trường hợp tốt mong đợi), F1=1 ngược lại 2.5 Kết thực hành Bảng 2: Kết mơ hình với liệu Diabetes.arff Phép đo Precision Recall F-Measure Mơ hình NaiveBayes IBk J48 Voting(Mơ hình phân lớp kết hợp đề xuất) 0.748 0.697 0.738 0.750 0.752 0.704 0.735 0.752 0.748 0.692 0.716 0.743 Đường ROC liệu Diabetes: 23 Hình 9: Đường ROC mơ hình với liệu Diabetes.arff (Nhãn lớp: tested_negative) 24 CHƯƠNG III: TỔNG KẾT THỰC HÀNH 3.1 Kết luận Sau thiết lập thực hành xây dựng mơ hình phân lớp kết hợp Voting dựa mơ hình sở NaiveBayes, Cây định (J48) k-Lân cận (Nearest Neighbors), ta thấy liệu Diabetes mơ hình phân lớp kết hợp Voting đánh giá vượt trội mơ hình phân lớp khác ba phép đo Precision, Recall F-Measure Qua đó, thấy liệu Diabetes cho kết đồng đều, chênh lệch với khơng q mơ hình 3.2 Hạn chế Qua việc tiến hành, ta thấy phương pháp phân chia liệu cho kết mong muốn mà tính chất liệu có vai trị quan trọng việc ảnh hướng đến độ xác, hiệu mơ hình Cũng qua việc thực hành ta nhận người thực hành cần phải có đầy đủ kiến thức chuyên ngành, thái độ học tập nghiêm túc để tiếp cận, thiết lập nghiên cứu sâu tập tài liệu để đánh giá cách hiệu quả, qua biết nhiều tài liệu tham khảo chuyên ngành mà theo đuổi Thơng qua việc sử dụng đánh giá KnowledgeFlow, ta nhận thấy KnowledgeFlow Weka công cụ thuận lợi cho việc xây dựng mơ hình khai phá liệu Với KnowledgeFlow bạn bước hiểu chỉnh tham số mơ hình, lựa chọn nhiều kỹ thuật, thuật tốn khác để xây dựng mơ hình Từ chọn mơ hình tốt cho công việc khai phá liệu cụ thể bạn 25 DANH MỤC TÀI LIỆU THAM KHẢO [1] “Khai phá liệu,” Wikipedia tiếng Việt Mar 15, 2021, Accessed: Apr 29, 2021.[Online].Available: https://vi.wikipedia.org/w/index.php?title=Khai_ph %C3%A1_d%E1%BB%AF_li%E1%BB%87u&oldid=64601945 [2]“ufpdf26980.pdf.”Accessed:May06,2022.[Online].Available: https://www.haui.edu.vn/media/26/ufpdf26980.pdf [3] “Sử dụng KnowledgeFlow Weka để xây dựng mơ hình Khai phá liệu - BIS.” http://bis.net.vn/forums/p/426/770.aspx (accessed May 04, 2021) [4] “Khai phá mẫu phổ biến luật kết hợp,” Viblo, Oct 30, 2020 https://viblo.asia/p/khai-pha-mau-pho-bien-va-luat-ket-hop-gGJ59QAa5X2 (accessed May 04, 2021) [5] “dm_-_chapter_6_-_association_rule.pdf.” Accessed: May 06, 2022 [Online] Available: http://scholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm_- _chapter_6_-_association_rule.pdf [6] “What is data clustering? - Quora.” https://www.quora.com/What-is-data- clustering (accessed May 05, 2021) [7] “Mơ hình phân lớp Naive Bayes,” Viblo, Jun 22, 2019 https://viblo.asia/p/mo- hinh-phan-lop-naive-bayes-vyDZO0A7lwj (accessed May 04, 2021) [8] N C sẻ, “Thuật toán định C4.5 | sinhvientot.net.” https://sinhvientot.net/thuat-toan-cay-quyet-dinh-c45/ (accessed May 04, 2021) [9] “cây định - Tìm Google.” https://www.google.com/search?q=c %C3%A2y+quy%E1%BA%BFt+%C4%91%E1%BB %8Bnh&rlz=1C1CHBD_viVN943VN943&oq=c%C3%A2y+quy%E1%BA%BFt+ %C4%91%E1%BB 26 %8Bnh&aqs=chrome.0.0l10.7728j0j4&sourceid=chrome&ie=UTF-8 (accessed Apr 29, 2021) [10] “KNN (K-Nearest Neighbors) #1,” Viblo, Jul 16, 2019 https://viblo.asia/p/knn- k-nearest-neighbors-1-djeZ14ejKWz (accessed May 04, 2021) [11] “PHƯƠNG PHÁP ĐÁNH GIÁ MƠ HÌNH PHÂN LOẠI (CLASSIFICATION MODEL EVALUTATION),” Big Data Uni, Oct 09, 2019 https://bigdatauni.com/tintuc/phuong-phap-danh-gia-mo-hinh-phan-loai-classification-model-evalutation.html (accessed May 04, 2021) [12] 2016 ~ Footstepsinvietnam, “Cross-validation gì?,” Joyful Engineering, Jan 25, https://turbosnu.wordpress.com/2016/01/25/cross-validation-la-gi/ (accessed May 05, 2021) [13] “Precision, Recall F1-score gì? – Cái Hữu Thức’s notes.” https://caihuuthuc.wordpress.com/2020/02/23/precision-recall-va-f1-score-la-gi/ (accessed May 06, 2021) [14] “Đánh giá model AI với Precision, Recall va F1 Score,” Mì AI, Jun 16, 2020 https://www.miai.vn/2020/06/16/oanh-gia-model-ai-theo-cach-mi-an-lien-chuong-2precision-recall-va-f-score/ (accessed May 06, 2021) 27 KẾT QUẢ KIỂM TRA ĐẠO VĂN 28