BÀI tập lớn xây DỰNG mô HÌNH PHÂN lớp THEO PHƯƠNG PHÁP kết hợp VOTING dựa TRÊN các mô HÌNH cơ sở j48, SVM và NAIVE BAYES

ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KINH TẾ KHOA HỆ THỐNG THÔNG TIN KINH TẾ - - BÀI TẬP LỚN XÂY DỰNG MƠ HÌNH PHÂN LỚP THEO PHƯƠNG PHÁP KẾT HỢP VOTING DỰA TRÊN CÁC MƠ HÌNH CƠ SỞ J48, SVM VÀ NAIVE BAYES Giáo viên hướng dẫn: TS Nguyễn Đình Hoa Cương Sinh viên thực hiện: Phan Thị Cẩm Nhi Mã sinh viên: 19K4081019 Huế, 6/2022 LỜI CẢM ƠN Để hoàn thành học phần Khai phá liệu – môn học cuối quãng đường sinh viên, em vô biết ơn giúp đỡ giáo viên thầy Nguyễn Đình Hoa Cương Em xin chân thành cảm ơn thầy tận tình hướng dẫn em biết cách làm báo cáo nói chung bước để có tiểu luận học phần nói riêng Ngồi ra, em cảm nhận thầy ln tạo điều kiện cho em bạn lớp, có quan tâm bảo chúng em kịp thời với nội dung học quý giá suốt q trình lên lớp Thơng qua học video hướng dẫn tâm huyết thầy, em hiểu rõ có thêm kiến thức kỹ thuật bổ ích để thực báo cáo kết thúc học phần Đó phần tảng quan trọng giúp ích cho hành trang làm em sau Bên cạnh đó, em xin gửi lời cảm ơn đến quý thầy cô khoa Hệ thống thông tin kinh tế, với gia đình bạn bè bên động viên, giúp đỡ em q trình học tập hồn thành tiểu luận Bài báo cáo em dựa học q trình tự nghiên cứu Trong lúc làm khơng thể tránh khỏi sai sót, kính mong thầy bỏ qua, em mong nhận giúp đỡ tận tình thầy để báo cáo hoàn thiện Em xin chân thành cảm ơn! Huế, tháng 06 năm 2022 Sinh viên Phan Thị Cẩm Nhi I MỤC LỤC LỜI CẢM ƠN I MỤC LỤC II DANH MỤC HÌNH VẼ IV DANH MỤC BẢNG BIỂU .V DANH MỤC THUẬT NGỮ VI CHƯƠNG I: CƠ SỞ LÝ THUYẾT 1.1 Khai phá liệu .1 1.1.1 Khái niệm 1.1.2 Ứng dụng khai phá liệu .1 1.1.3 Dữ liệu có nhãn liệu khơng nhãn 1.1.4 Các phương pháp khai phá liệu 1.2 Mơ hình phân lớp Naive Bayes 1.3 Mơ hình phân lớp J48 (Cây định) 1.4 Mơ hình SVM (Support Vector Machines) 1.5 Phương pháp phân lớp kết hợp – Voting 10 CHƯƠNG II: PHƯƠNG PHÁP NGHIÊN CỨU 11 2.1 Mô tả tập liệu 11 II 2.2 Phương pháp phân chia liệu 11 2.3 Xây dựng mơ hình .13 2.4 Các phép đo 13 2.4.1 Phép đo Precision-Recall 13 2.4.2 Phép đo F1 14 2.5 Kết thí nghiệm .14 CHƯƠNG III: KẾT LUẬN 17 3.1 Đánh giá kết thí nghiệm 17 3.2 Mặt hạn chế nghiên cứu 17 DANH MỤC TÀI LIỆU THAM KHẢO .18 III DANH MỤC HÌNH VẼ Hình vẽ 1: Q trình khai phá liệu (Nguồn: researchgate.net) Hình vẽ 2: Ví dụ mơ hình phân lớp (Nguồn: SlideShare.net) Hình vẽ 3: Mơ hình định (Nguồn: trituenhantao.io) Hình vẽ 4: Mơ hình SVM (Nguồn: ongxuanhong.wordpress) Hình vẽ 5: Mơ hình phân chia liệu 12 Hình vẽ 6: Sơ đồ KnowledgeFlow để vẽ đường ROC 13 Hình vẽ 7: Đường ROC mơ hình với liệu Diabetes.arff 15 IV DANH MỤC BẢNG BIỂU Bảng 1: Thống kê thuộc tính liệu Diabetes.arff .11 Bảng 2: Kết chạy mô hình với liệu Diabetes.arff 14 V DANH MỤC THUẬT NGỮ STT Tên viết tắt Tên tiếng Anh Tên đầy đủ Tên tiếng Việt J48 (J48 decision tree) Cây định SVM (Support Vector Machines) Máy vector hỗ trợ Weka Môi trường Waikato để Phân tích Kiến thức Association rules Luật kết hợp Spam Phiền Fragmentation methods Phương pháp phân mảnh Hierarchical methods Phương pháp phân tầng Grid-based methods Phương pháp lưới Model-based methods Phương pháp dựa vào mơ hình 10 Constraint-based clustering Phân cụm dựa vào ràng buộc 11 Root node Nút gốc 12 Itemset Hạng mục 13 Min_sup Độ hỗ trợ tối thiểu 14 Min_conf Độ tin cậy tối thiểu VI CHƯƠNG I: CƠ SỞ LÝ THUYẾT 1.1 Khai phá liệu 1.1.1 Khái niệm Khai phá liệu [1] ngành học thời gian gần đây, trình tính tốn, tìm kiếm tri thức (hay mẫu, dạng có nghĩa) việc trích rút hay “khai phá” tri thức từ lượng lớn liệu Các sở liệu lớn chứa thơng tin có giá trị cho chủ sở hữu sở liệu, thông tin dấu khối liệu khơng quan tâm chưa tìm hiểu hay khám phá Hình vẽ 1: Quá trình khai phá liệu (Nguồn: researchgate.net) 1.1.2 Ứng dụng khai phá liệu Việc khai phá liệu [2] giúp cho người có thơng tin lạ đáng ngạc nhiên, việc mà người khó tìm thấy Thơng qua việc khai thác liệu cịn giúp cho người nhiều cơng việc như: - Phân tích ảnh vệ tinh - Phát giao dịch bất hợp pháp - Dự toán điện tải, dự đốn tài Trang - Tiếp thị có định hướng - Dự đoán thời tiết - Phát hành vi khách hàng - Phát tội phạm, phát lừa đảo, thuế, thu nhập hoạt động quyền - Trong thương mại quản lý quan hệ khách hàng, thiết lập mối quan hệ thân thiết, phát gian lận, dịch vụ viễn thông - Máy tìm kiếm, quảng cáo trực tuyến, khai phá web khai phá test 1.1.3 Dữ liệu có nhãn liệu khơng nhãn Giới thiệu liệu có nhãn khơng nhãn: - Dữ liệu có nhãn (labelled data) q trình học có hướng dẫn - Dữ liệu khơng nhãn (unlabelled data) q trình học khơng có hướng dẫn - Một tập liệu cịn gọi thể (instances) - Mỗi thể gồm giá trị thuộc tính tương ứng 1.1.4 Các phương pháp khai phá liệu 1.1.4.1 Khai phá luật kết hợp Khai phá luật kết hợp [3] tìm mẫu có tần suất cao, mẫu kết hợp, liên quan cấu trúc tồn tập hợp đối tượng sở liệu giao dịch, sở liệu quan hệ kho chứa thơng tin khác Nói cách khác tìm tất tập phổ biến từ liệu Bài toán luật kết hợp (association rules) phát biểu sau [4]: - Cho I ={I , I ,… , I n } tập mục (mặt hàng, v.v.) - Cho D tập giao dịch mà giao dịch T tập mục, T ⊆ I - Mỗi giao dịch có mã định danh riêng gọi TID - Cho A tập mục (mặt hàng) Một giao dịch T gọi chứa A A ⊆T - Một luật kết hợp diễn đạt hình thức A ⇒ B, với A ⊂ I , B⊂ I , v A ∩ B=∅ Khác với phương pháp khai phá liệu khác, khai phá luật kết hợp ln có tập kết cho dù áp dụng giải thuật Quá trình khai phá luật kết hợp gồm bước: Trang - Bước 1: Tìm tất tập mục thường gặp (thường xuyên), theo định nghĩa hạng mục (itemset) gọi tập mục thường xuyên độ hỗ trợ lớn độ hỗ trợ tối thiểu (min_sup) - Bước 2: Tạo luật kết hợp mạnh từ tập mục thường xuyên, theo định nghĩa luật kết hợp mạnh phải có độ hỗ trợ độ tin cậy lớn độ hỗ trợ tối thiểu (min_sup) độ tin cậy tối thiểu (min_conf) tương ứng Khai phá luật kết hợp có nhiệm vụ tìm luật mà dự đoán xuất đối tượng dựa vào xuất đối tượng khác giao tác Nhưng khơng có khả khai phá chuổi đối tượng xảy đảm bảo điều kiện 1.1.4.2 Phân lớp Phân lớp [5] việc phân tích liệu dựa tập huấn luyện, giá trị nhãn lớp thuộc tính phân lớp để tạo lập mơ hình mơ tả phân lớp liệu quan trọng Những phân tích giúp hiểu sâu liệu mức lớn bao qt Hình vẽ 1: Ví dụ mơ hình phân lớp (Nguồn: SlideShare.net) Trang Ứng dụng phân lớp thực tế: - Phân loại email thư phiền (spam) hay khơng - Dự đốn xem người nghe thích hát hay thể loại nhạc - Chọn phương thức điều trị phù hợp cho bệnh nhân Đặc trưng mơ hình phân lớp học dựa tập liệu mẫu có sẵn Những liệu thơ đầu vào (như: văn bản, hình ảnh, âm thanh) chuyển đổi thành vector Số chiều vector tùy thuộc vào trường hợp cụ thể Đặc biệt chiều này, có chiều chứa nhãn phân lớp có sẵn tương ứng với trường hợp cụ thể Dựa tập liệu vào dạng vector này, thuật toán đặc thù triển khai để tiến hành thiết lập ánh xạ f(x)=c, c ∈C Trong C tập nhãn x vector với chiều f(x) mơ hình thu thơng qua q trình học Các phương pháp phân chia liệu [6]: - Phương pháp Holdout: Đây phương pháp đơn giản, ta chọn liệu phương pháp giúp ta chia tập liệu đầu vào thành phần với tỷ lệ chọn Tuy nhiên có lưu ý tỷ lệ training set test set thường chọn tương ứng 2/3 1/3 hay 70% 30% - Phương pháp random subsampling: Thực chất phương pháp biến thể phương pháp Holdout, tức lặp lại phương pháp Holdout k lần Độ xác dự đốn tính số trung bình độ xác mơ hình xây dựng lần lặp - Phương pháp cross-validation: nhằm xác nhận chéo k-fold crossvalition tập liệu D thực cách chia tập liệu k tập có kích thược 1.1.4.3 Phân cụm Phân cụm [7] việc nhóm liệu thành cụm cho liệu cụm có tính tương đồng cao độ bất đồng cụm lớn Và bất đồng đánh giá dựa giá trị thuộc tính dùng để mô tả đối tượng liệu Các phương pháp phân cụm phổ biến: - Phương pháp phân mảnh (fragmentation methods) - Phương pháp phân tầng (hierarchical methods) Trang - Phương pháp lưới (grid-based methods) - Phương pháp dựa vào mơ hình (model-based methods) - Phân cụm dựa vào ràng buộc (constraint-based clustering) 1.2 Mơ hình phân lớp Naive Bayes Khái niệm: Nạve Bayes [8], [9]là thuật tốn phân lớp mơ hình hố dựa định lý Bayes xác suất thống kê Cho X liệu đo n thuộc tính khác Cho H giả thuyết (ví dụ: X thuộc phân lớp C) Đối với toán phân lớp, muốn xác định P(H|X) xác suất xảy H X xảy Đây gọi xác suất hậu nghiệm Định lý Naïve Bayes cho phép tính xác suất xảy kiện ngẫu nhiên H biết đến kiện liên quan X xảy Xác suất ký hiệu P(H/X) xác suất xảy giả thuyết H X xảy P(H\X) gọi xác suất hậu nghiệm Các xác suất tính dựa vào định lý Bayes sau đây: (1) P¿ - Cho D tập liệu huấn luyện cới nhãn lớp tương ứng Như thường lệ, liệu mô tả n thuộc tính biểu diễn dạng vector n chiều X = (X1,X2,…,Xn) - Giả sử có m nhẵn lớp khác C 1,C 2,…,C m Cho liệu X, phân lớp gán nhãn cho X lớp có xác suất hậu nghiệm lớn Cụ thể X dự đoán phụ thuộc vào lớp C i nếu: P ( Ci| X ) > P(C j∨ X) với ≤ j≤ m , j≠ i - Giá trị tính dựa vào định lý Bayes: P(H\X) = P ( X| H ) P ( H ) P( X) (2) Vì P(X) khơng thay đổi với lớp nên ta khơng cần tính, ta cần tìm giá trị lớn P( X ∨C i) P ( C i ) Các xác suất thiết lập từ tập liệu cho trước để có kết Trang 1.3 Mơ hình phân lớp J48 (Cây định) Hình vẽ 2: Mơ hình định (Nguồn: trituenhantao.io) Khái niệm: Cây định [10] cấu trúc luồng dạng cây, với nút trung gian (không phải nút lá) đại diện cho phép thử thuộc tính Mỗi nhánh đại diện cho đầu (kết quả) phép thử Và nút (nút cuối cùng) đại diện cho nhãn lớp Nút gọi nút gốc Một đường từ nút gốc đến nút biểu đạt dự đoán phân lớp cho liệu tương ứng Cây định dễ dàng chuyển đổi thành luật phân lớp Nguyên tắc hoạt động: - Nút gốc (root node) điểm bắt đầu cây, nút định tương ứng với dự đốn tốt nhất, cịn nút chứa câu hỏi tiêu chí trả lời, đại diện cho phân loại định - Cây định xử lý liệu phân loại số liệu - Cây định có cấu trúc phân lớp để phân lớp cho đối tượng dựa vào luật để đưa kết tương ứng với định - Cây định cịn cơng cụ mơ tả cho phép tính tốn xác suất có điều kiện Ưu điểm [11]: - Giúp cho người dùng dễ hiểu dễ sử dụng - Cây định quản lý liệu có số chiều lớn Trang - Quá trình biểu đạt dạng dễ dàng - Quá trình phân lớp định thực cách nhanh chóng hiệu - Cây có độ xác cao nhiên phụ thuộc vào liệu đầu vào Nhược điểm: - Nếu liệu phụ thuộc vào thời gian liên tục dùng định khó giải vấn đề - Để xây dựng mơ hình định cao có nhiều lớp chi phí cần tính tốn, dễ xảy lỗi 1.4 Mơ hình SVM (Support Vector Machines) Khái niệm: SVM [12] phương pháp phân lớp, khái niệm thống kê khoa học máy tính cho tập hợp phương pháp học có giám sát liên quan đến để phân loại và phân tích hồi quy SVM áp dụng cho liệu tuyến tính phi tuyến Hình vẽ 3: Mơ hình SVM (Nguồn: ongxuanhong.wordpress) Cách thức hoạt động SVM [13]: Cách thức hoạt động SVM phát biểu sau, cho tập liệu D sau: ( X , y ) , ( X , y ) , … ,( X|D|, y|D|) với X i tập liệu huấn luyện gắn liền với nhãn lớp tương ứng y i (nhận hai giá trị +1 hay -1 (tương ứng với nhãn lớp buys_computer = yes buys_computer = no) Ưu điểm: - Xử lý không gian số chiều cao - Tiết kiệm nhớ Trang - Tính linh hoạt Nhược điểm: - Trong trường hợp số lượng thuộc tính tập liệu lớn so với số lượng liệu SVM cho kết tồi - Chưa thể rõ xác suất Kết luận: SVM phương pháp hiệu cho toán phân lớp liệu, cơng cụ đắc lực cho toán xử lý ảnh, phân loại văn bản, phân tích quan điểm 1.5 Phương pháp phân lớp kết hợp – Voting Tư tưởng phương pháp Voting xây dựng mơ hình kết hợp tảng nhiều mơ hình phân lớp sở khác Nhằm tạo mơ hình cho định xác Ở Voting xây dựng mơ hình sở gồm: - SVM (Support Vector Machines) - Naive Bayes - Cây định (J48) Ưu điểm mơ hình: Cung cấp chế tổng hợp kết bỏ phiếu để đưa mơ hình có kết tốt Nhược điểm: chưa thể tìm mơ hình đáng tin cậy số mơ hình phân lớp sở Trang CHƯƠNG II: PHƯƠNG PHÁP NGHIÊN CỨU 2.1 Mô tả tập liệu Weka (viết tắt Waikato Environment for Knowledge Analysis) [14] phần mềm học máy Đại học Waikato, New Zealand phát triển Java Weka phần mềm tự phát hành theo Giấy phép Công cộng GNU Các trình chuẩn bị liệu, thực thí nghiệm thực phần mềm Weka Bộ liệu sử dụng mơ hình là: - Diabetes.arff (Dữ liệu bệnh tiểu đường) chủ sở hữu ban đầu Viện tiểu đường tiêu hóa quốc gia bệnh thận Nhà tài trợ sở liệu Vincent Sigillito nghiên cứu trung tâm nhóm nghiên cứu RMI Bộ liệu sử dụng mơ hình có sẵn Weka có số liệu thống kê bảng sau: Bảng 1: Thống kê thuộc tính liệu Diabetes.arff Bộ liệu Số lượng Instance Số lượng thuộc tính Nhãn lớp Diabetes.arff 768 2.2 Phương pháp phân chia liệu Để phân chia liệu gồm có phương pháp sau: - Phương pháp Holdout: Là phương pháp đơn giản, phương pháp chia tập liệu đầu vào thành hai tập phân biệt với tỉ lệ cho trước Tỉ lệ training set validation set thường chọn tương ứng 2/3 1/3 hay 70% 30% - Phương pháp huấn luyện mơ hình 10-fold cross validation: kỹ thuật để đánh giá mơ hình dự đốn cách phân vùng mẫu ban đầu thành tập huấn luyện để huấn luyện mơ hình kiểm tra để đánh giá Trang - Cách phân chia liệu nghiên cứu: Hình vẽ 4: Mơ hình phân chia liệu Các bước xây dựng mơ hình phân lớp theo phương pháp Voting: - Bước 1: Mở phần mềm Weka - Bước 2: Chọn tập liệu cần phân chia: vào Explorer → Open file → Chọn tập liệu → Tải liệu lên - Bước 3: Tạo tập liệu huấn luyện (training set) tập liệu kiểm thử (test set): vào mục Choose → Filters → Unsupervised → Instances → Resample → chỉnh sử liệu với tỉ lệ train: 70% lưu lại, test: 30% lưu lại - Bước 4: Lựa chọn classifier meta chọn vote: vào Openfile mở liệu train vừa chia → Trên công cụ chọn Classify → Choose → Meta → Vote - Bước 5: Thiết lập classifier chế độ huấn luyện: Chọn classifier J48, Naibayes, SVM,… → Thiết lập combinationRule → Chọn start - Bước 6: Kiểm thử mơ hình: chọn Supplised test set → Nạp test chia bước vào → Click chuột phải vào mơ hình chọn Re-evaluate model on current test set → Lưu kết lại Trang 10 2.3 Xây dựng mơ hình Xây dựng mơ hình KnowLedge Flow: Hình vẽ 5: Sơ đồ KnowledgeFlow để vẽ đường ROC 2.4 Các phép đo 2.4.1 Phép đo Precision-Recall Do tập liệu không cân bằng, việc sử dụng độ đo accuracy [15] làm sở để đánh giá hiệu suất phân lớp hết yêu cầu đặt dự đoán hai nhãn lớp cần đạt độ xác cao Vì vậy, độ đo khác thích hợp thường sử dụng làm độ đo hiệu suất việc phân lớp như: Recall = TP TP+ FN Precision = (3) TN TN + FP (4) Trong đó, Recall: độ hồi tưởng Precision: độ xác Độ hồi tưởng độ xác số khơng âm nhỏ hơn, muốn mơ hình tốt nên chọn độ hồi tưởng độ xác Trang 11 2.4.2 Phép đo F1 Phép đo F1 gọi kết hợp (harmonic mean) độ xác (precision) độ hồi tưởng (reacall) [15]: Precision∗Recall Precision+ Recall F1= (5) F1 có giá trị nằm khoảng (0,1](0,1] F1 cao, phân lớp tốt Và precision recall tốt nhất, recall precision 0.5 F1= 0.5 2.5 Kết thí nghiệm Kết việc huấn luyện mơ hình liệu Diabetes.arff: Bảng 2: Kết chạy mơ hình với liệu Diabetes.arff Phép đo Precision Recall F-Measure Naive Bayes 0.744 0.749 0.745 J48 0.723 0.730 0.725 SMO 0.762 0.766 0.754 Voting 763 768 757 Mơ hình Dựa vào bảng 6, huấn luyện tập liệu diabetes.arff với mơ hình phân lớp Voting cho kết cao tất phép đo, đến SMO, Naïve bayes cuối J48 cho kết thấp Trang 12 Kết mơ hình: Hình vẽ 6: Đường ROC mơ hình với liệu Diabetes.arff Dựa vào hình vẽ 11, ta thấy đường ROC mơ hình phân lớp Vote liệu diabetes.arff dao động mức cao Tiếp đến mơ hình Naive bayes, J48 thấp mơ hình SMO Trang 13 CHƯƠNG III: KẾT LUẬN VÀ ĐƯA RA KẾT QUẢ 3.1 Đánh giá kết thí nghiệm Đường ROC Vote có độ xác cao nhất: 0.763 Tiếp đến SMO với số: 0.762 Sau Naibayes với số: 0.744 Và cuối J48 với số: 0.723 Sau chạy mơ hình liệu Diabetes.arff hiển thị qua bảng 2, ta thấy mơ hình kết hợp Voting mơ hình đơn giản dễ hiểu, dễ sử dụng Qua đó, đưa số nhận xét chạy thí nghiệm sau: - Bộ liệu Diabetes.arff có kết xác - Dựa vào hình ta thấy đường ROC mơ hình phân lớp Nạve bayes có kết dao động mức cao - Độ xác mơ hình Voting cao ổn định - Đường cong mô hình Voting nằm nên performance lớp ưu việt so với nằm bên 3.2 Mặt hạn chế nghiên cứu Hạn chế chưa thể tìm mơ hình đáng tin cậy số mơ hình phân lớp sở làm thí nghiệm Dẫn đến việc nhận xét tính chất tương đối Một số mơ hình chưa thể rõ xác suất Trang 14 DANH MỤC TÀI LIỆU THAM KHẢO (2021) Khai phá liệu Wikipedia tiếng Việt, , accessed: 15/06/2022 (2019) Data Mining gì? Các cơng cụ khai phá liệu phổ biến , accessed: 15/06/2022 Khai phá luật kết hợp sở liệu (Association rule in data mining) gì? , accessed: 15/06/2022 dm_-_chapter_6_-_association_rule.pdf , accessed: 15/6/2022 Kỹ thuật phân lớp liệu khai phá liệu - Luận văn, đồ án, đề tài tốt nghiệp , accessed: 15/06/2022 Áp dụng phương pháp phân lớp (Classification) tập liệu Mushroom – Ông Xuân Hồng , accessed: 15/06/2022 Tổng quan Khai phá liệu; Phân cụm liệu: Ứng dụng đời sống - Luận văn, đồ án, đề tài tốt nghiệp , accessed: 15/06/2022 Mơ hình phân lớp Naive Bayes , accessed: 15/06/2022 (2019) Thuật toán phân lớp Naive Bayes Viblo, , accessed: 15/06/2022 Trang 15 10 (2019) Cây định Wikipedia tiếng Việt, , accessed: 15/06/2022 11 (2019) THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.4): ƯU & KHUYẾT ĐIỂM, STOPPING & PRUNING METHOD Big Data Uni, , accessed: 15/06/2022 12 Giới Thiệu Mơ Hình SVM — Computer Vision , accessed: 15/06/2022 13 Một chút thuật toán SVM (Support Vector Machine algorithm) , accessed: 15/06/2022 14 (2018) Weka (học máy) Wikipedia tiếng Việt, , accessed: 15/06/2022 15 Vu T (2018) Bài 33: Các phương pháp đánh giá hệ thống phân lớp Tiep Vu’s blog, , accessed: 15/06/2022 Trang 16 KIỂM TRA ĐẠO VĂN Độ trùng lặp: 13% Phần mềm: app.kiemtratailieu.vn Trang 17

Định dạng
Số trang	25
Dung lượng	710,84 KB