Cây quyết định với hàm phân hoạch tối ưu bayes và luật gán nhãn cục bộ cho phân lớp dữ liệu không cân bằng (tóm tát)

ỦY BAN NHÂN DÂN TỈNH TRÀ VINH TRƯỜNG ĐẠI HỌC TRÀ VINH ISO 9001:2015 LIÊU TRIỆU MINH TRÂN CÂY QUYẾT ĐỊNH VỚI HÀM PHÂN HOẠCH TỐI ƯU BAYES VÀ LUẬT GÁN NHÃN CỤC BỘ CHO PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN TRÀ VINH, NĂM 2020 ỦY BAN NHÂN DÂN TỈNH TRÀ VINH TRƯỜNG ĐẠI HỌC TRÀ VINH LIÊU TRIỆU MINH TRÂN CÂY QUYẾT ĐỊNH VỚI HÀM PHÂN HOẠCH TỐI ƯU BAYES VÀ LUẬT GÁN NHÃN CỤC BỘ CHO PHÂN LỚP DỮ LIỆU KHƠNG CÂN BẰNG Ngành: Cơng nghệ thơng tin Mã ngành: 8480201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: PGS TS Đỗ Thanh Nghị TRÀ VINH, NĂM 2020 LỜI CAM ĐOAN Tôi cam đoan nội dung luận văn nghiên cứu thực hướng dẫn trực tiếp PGS.TS Đỗ Thanh Nghị Mọi tham khảo luận văn trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian nghiên cứu địa điểm công bố Trà Vinh, ngày 20 tháng năm 2020 Tác giả Liêu Triệu Minh Trân i LỜI CẢM ƠN Trong suốt thời gian học tập trường, cảm thấy may mắn quan tâm Nhà trường, Thầy, Cô bạn Trước hết xin gửi lời cảm ơn chân thành đến Ban Giám hiệu Trường Đại học Trà Vinh, Bộ môn Công nghệ thông tin Phòng Đào tạo Sau Đại học Trường Đại học Trà Vinh tạo môi trường điều kiện học tập tốt để tơi hồn thành chương trình học cách tốt Xin cảm ơn Ban Quản lý Ký túc xá Trường Đại học Trà Vinh hỗ trợ chỗ nghỉ ngơi, học tập cho thời gian học Trường Đặc biệt, xin gửi lời cảm ơn chân thành sâu sắc đến Thầy Đỗ Thanh Nghị, người ln tận tình hướng dẫn cung cấp kiến thức quý báu truyền đạt kinh nghiệm, phương pháp nghiên cứu cho tơi q trình học tập, nghiên cứu thực đề tài Xin cảm ơn gia đình người bạn đời, người hỗ trợ, động viên, khuyến khích tinh thần tạo điều kiện tốt để tơi n tâm học tập, nghiên cứu suốt thời gian qua Tôi xin gửi lời cảm ơn đến Trường Trung Cấp Pali Nam Bộ nơi làm việc tạo điều kiện giúp tơi có thời gian học tập Đặc biệt, xin gửi lời cảm ơn đến bạn nhóm Thầy Đỗ Thanh Nghị hướng dẫn góp ý, giúp đỡ, động viên tơi giai đoạn thực đề tài Mặc dù, cố gắng hoàn thành luận văn phạm vi khả cho phép đề tài chắn khơng tránh khỏi thiếu sót Kính mong nhận bảo tận tình q Thầy, Cơ bạn Chân thành cảm ơn! ii MỤC LỤC Lời cam đoan i Lời cảm ơn ii Mục lục iii Danh mục ký hiệu chữ viết tắt v Danh mục bảng, biểu vi Danh mục hình vẽ , sơ đồ vii Tóm tắt viii CHƯƠNG MỞ ĐẦU 1.1 Tính cấp thiết đề tài 1.2 Mục tiêu nghiên cứu 1.2.1 Mục tiêu chung 1.2.2 Mục tiêu cụ thể 1.3 Phương pháp nghiên cứu 1.4 Phạm vi giới hạn đề tài 1.4.1 Phạm vi nội dung 1.4.2 Phạm vi không gian 1.5 Đối tượng nghiên cứu đối tượng khảo sát 1.5.1 Đối tượng nghiên cứu 1.5.2 Đối tượng khảo sát 1.6 Kết cấu luận văn CHƯƠNG CƠ SỞ LÝ THUYẾT 2.1 Tổng quan phân lớp liệu Data Mining 2.1.1 Phân lớp liệu 2.1.2 Các vấn đề liên quan đến phân lớp liệu: 2.1.1.1 Chuẩn bị liệu 2.1.2.2 So sánh mơ hình phân lớp 2.2 Tổng quan liệu không cân 2.2.1 Vấn đề cân liệu 2.2.2 Một số nghiên cứu phân lớp liệu không cân 10 2.2.3 Thuật toán định phân lớp liệu không cân 11 2.2.3.1 Giới thiệu thuật toán định (Decision tree) 11 iii 2.2.3.2 Ưu điểm định 13 2.2.3.3 Nhược điểm định 14 2.2.3.4 Phân loại định 14 2.3 Cây định C4.5 Quinlan 16 2.4 Cây định Cart Breiman 20 2.5 Thử nghiệm Kolmogorov - Smirnov (Kolmogorov - Smirnov Test) 23 2.6 Thuật toán k láng giềng (KNN) 23 CHƯƠNG CÂY QUYẾT ĐỊNH VỚI HÀM PHÂN HOẠCH KOLMOGOROV – SMIRNOV VÀ LUẬT GÁN NHÃN CỤC BỘ CHO PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG 26 3.1 Cây định sử dụng entropy shannon 26 3.2 Cây định sử dụng hàm phân hoạch Kolmogorov – Smirnov 27 3.3 Luật gán nhãn cục 31 CHƯƠNG KẾT QUẢ THỰC NGHIỆM 33 4.1 Thông tin tập liệu 33 4.1.1 Tập liệu Sat-Image 33 4.1.2 Tập liệu Pendigits 34 4.1.3 Tập liệu Letter - A 36 4.2 Xử lý liệu kết thực nghiệm 37 CHƯƠNG KẾT LUẬN 42 5.1 Kết đạt 42 5.2 Hướng phát triển 42 TÀI LIỆU THAM KHẢO 43 iv DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Case Bộ liệu Data Dữ liệu, kho liệu Data Mining Khai mỏ liệu dummy variable biến phụ Gain Ratio Tỉ số độ lợi Imbalance datasets Dữ liệu không cân Information Gain Độ lợi thông tin kNN K nearest neigbor KS Komogorov – Smirnov Machine Learning Máy học overfitting Học vẹt Testing data Dữ liệu kiểm tra Training data Dữ liệu đào tạo v DANH MỤC CÁC BẢNG, BIỂU Bảng 2.1 Thuộc tính Outlook 21 Bảng 2.2 Thuộc tính Temp 21 Bảng 2.3 Thuộc tính Humidity 21 Bảng 2.4 Thuộc tính Windy 22 Bảng 3.1 Ví dụ lớp khơng cân 30 Bảng 3.2 Phân phối tích lũy từ liệu bảng 30 Bảng 4.1 Các tập liệu không cân 38 Bảng 4.2 Bảng phân chia tập training testing 38 Bảng 4.3 So sánh hiệu giải thuật 40 Biểu 3.1 Đồ thị hai lớp liệu cân bảng 30 Biểu 3.2 Đồ thị phân phối tích lũy bảng 31 Biểu 4.1 Mô tả tỷ lệ lớp liệu từ UCI 38 Biểu 4.2 Phân chia tập Training Testing liệu từ UCI 39 Biểu 4.3 Đồ thị so sánh tiêu chí Accuracy giải thuật tập liệu 40 Biểu 4.4 Đồ thị so sánh tiêu chí F1 giải thuật tập liệu 41 vi DANH MỤC HÌNH VẼ , SƠ ĐỒ Hình 2.1 Huấn luyện mơ hình Hình 2.2 Ước lượng độ xác mơ hình Hình 2.3 Phân lớp liệu Hình 2.4 Một ví dụ tập liệu khơng cân – Source: More (2016) Hình 2.5 Mô tả định (internet) 11 Hình 2.6 Bảng liệu định 12 Hình 2.7 Mơ hình định bảng liệu hình 13 Hình 2.8 Phân hoạch nhị phân thuộc tính liên tục 14 Hình 2.9 Cây định phân loại 15 Hình 2.10 Mã giả thuật tốn C4.5 16 Hình 2.11 Bảng liệu Weather 18 Hình 2.12 Cây định cho tập Weather 20 Hình 2.13 Entropy Shannon hai lần số Gini dùng để đo độ hỗn loạn thông tin 22 Hình 2.14 Ví dụ kNN với k =1 k= 24 Hình 3.1 Đồ thị biểu diễn thay đổi hàm entropy phân lớp nhị phân 26 Hình 3.2 Hàm Entropy Shannon 28 Hình 3.3 Hàm mật độ xác suất 28 Hình 3.4 Hình so sánh bình chọn số đơng luật cục 31 vii TÓM TẮT Trong khuôn khổ luận văn, nghiên cứu giải pháp nhằm cải thiện mơ hình định việc phân loại liệu cân Chúng tơi đề xuất thay tiêu chí Shannon luật gán nhãn cho lớp đa số thường dùng thuật toán rút gọn điểm cắt thuộc tính tối ưu Bayes (thí nghiệm Kolmogorov Smirnov) luật gán nhãn cục nút Thuật toán định đề xuất cải thiện dự đoán lớp thiểu số mà không phạm nhiều đến dự đốn lớp đa số Đóng góp chúng tơi mô tả sau: Chức phân tách entropy Shannon thay phép thử Kolmogorov Smirnov dựa phân phối giả cho phép xử lý cân lớp Luật cục (k láng giềng gần) thay quy tắc đa số làm giảm yêu thích lớp đa số gắn nhãn cho cá nhân đến nút Kết thực nghiệm so sánh thuật toán KS, Entropy Gini liệu không cân từ kho liệu UCI cho thấy thuật toán định phù hợp để xử lý lớp không cân viii CHƯƠNG 1: MỞ ĐẦU 1.1 TÍNH CẤP THIẾT CỦA ĐỀ TÀI Phân lớp liệu vấn đề mà cộng đồng khai mỏ liệu quan tâm Đây tốn có nhiều ứng dụng lĩnh vực y tế, giáo dục, ngân hàng, thương mại Tuy nhiên có nhiều trường hợp lại gặp phải dạng liệu không cân (Imbalance datasets), dạng liệu chủ yếu liên quan đến liệu lớp số điểm liệu lớp tập data có chênh lệch lớn Ví dụ cho trường hợp phân loại lớp, với liệu cân bằng, ta có tỉ lệ số điểm liệu lớp khoảng 50:50 Trong nhiều thuật toán Machine Learning, lượng nhỏ liệu không cân data vấn đề lớn Vì thế, có 60% điểm liệu cho lớp 40% số điểm liệu cho lớp cịn lại việc khơng làm ảnh hưởng đáng kể đến hiệu thuật toán Nhưng lớp có tỉ lệ số điểm liệu so với lớp cịn lại 90/10 hiệu thuật tốn bị ảnh hướng đáng kể!!! Một số ví dụ điển hình cho liệu không cân chẳng hạn phân loại thư rác, phát giao dịch tài bất thường, Chẳng hạn, phát giao dịch tài bất thường, mục tiêu phân loại để phát xem giao dịch bất thường hay khơng Thực tế, số giao dịch tài bất thường chiếm tỉ lệ nhỏ so với giao dịch hợp lệ Vì vậy, sử dụng liệu gốc với tỉ lệ số lượng loại giao dịch chênh lệch để huấn luyện mơ hình dẫn đến tình trạng dù mơ hình dự đốn giao dịch bình thường xác tỉ lệ cao đồng nghĩa dự đoán sai nhiều giao dịch bất thường (mục tiêu thuật toán) thành giao dịch hợp pháp, điều nguy hiểm Vì lí mà việc xử lí liệu khơng cân nhiều trường hợp vơ quan trọng Trong mơ hình phân lớp đề xuất, định coi cơng cụ mạnh, phổ biến đặc biệt thích hợp với ứng dụng khai phá liệu Thuật toán phân lớp nhân tố trung tâm mơ hình phân lớp Đề tài nghiên cứu đóng góp phần vào cải thiện độ xác phân lớp liệu không cân bằng định 1.2 MỤC TIÊU NGHIÊN CỨU 1.2.1 Mục tiêu chung Áp dụng giải thuật định dùng hàm phân hoạch Bayes (thử nghiệm Kolmogorov-Smirnoff) luật gán nhãn cục liệu thay hàm phân hoạch (Shannon entropy hay số Gini) phân lớp liệu không cân 1.2.2 Mục tiêu cụ thể - Nghiên cứu liệu khơng cân bằng, thuật tốn định - Nghiên cứu hàm dùng phân lớp liệu không cân Đặc biệt hàm phân hoạch Bayes luật gán nhãn cục - Nghiên cứu thử nghiệm Kolmogorov-Smirnov - Tổng hợp nghiên cứu để phân lớp liệu không cân cách tốt 1.3 PHƯƠNG PHÁP NGHIÊN CỨU - Phương pháp nghiên cứu tài liệu: dùng để trang bị kiến thức, sở lý thuyết đề tài Tham khảo nghiên cứu có liên quan, báo khoa học có liên quan đến đề tài - Phương pháp thực nghiệm: Dùng ngôn ngữ lập trình Python để viết code chạy test để đánh giá kết đạt 1.4 PHẠM VI GIỚI HẠN ĐỀ TÀI 1.4.1 Phạm vi nội dung Nghiên cứu thuật tốn phân lớp liệu khơng cân bằng, chủ yếu thuật toán định cải tiến tiêu chí entropy Shannon phân hoạch Bayes để cải thiện dự đoán cho lớp thiểu số mà khơng phạm q nhiều vào dự đốn lớp đa số 1.4.2 Phạm vi khơng gian Thuật tốn xây dựng kiểm thử liệu từ UCI đánh giá dựa kết đạt cải thiện phần trăm so với phương pháp khác 1.5 ĐỐI TƯỢNG NGHIÊN CỨU VÀ ĐỐI TƯỢNG KHẢO SÁT 1.5.1 Đối tượng nghiên cứu Đối tượng nghiên cứu đề tài sở lý thuyết lớp khơng cân bằng, thuật tốn định phân lớp liệu, công thức Bayes, luật gán nhãn cục bộ,… ngơn ngữ lập trình Python để giải vấn đề phân lớp liệu không cân 1.5.2 Đối tượng khảo sát Các liệu không cân từ UCI Cụ thể liệu Sat-image (6 435 phần tử), Pendigits (10 992 phần tử) Letter-A (20 000 phần tử) 1.6 KẾT CẤU LUẬN VĂN Luận văn tổ chức thành chương sau: Chương 1: Mở đầu Chương 2: Cơ sở lý thuyết thuật tốn nghiên cứu có liên quan Chương giới thiệu tổng quan phân lớp liệu, khái niệm liệu khơng cân mơ hình định giới thiệu khái niệm định, phân loại định, ưu nhược điểm định việc giải toán phân lớp liệu Chương giới thiệu sơ lược thuật toán C4.5 Quinlan dùng định phân lớp liệu Entropy Giới thiệu thử nghiệm Kolmogorov – Smirnov dùng khoảng cách Kolmogorov Smirnov làm tiêu chí phân lớp liệu cải tiến hạn chế Entropy Giới thiệu thuật toán kNN, thuật toán sở gán nhãn cục nút định đề cập luận văn Chương 3: Cây định với hàm phân hoạch Kolmogorov – Smirnov luật gán nhãn cục cho phân lớp liệu không cân Chương giới thiệu vấn đề luận văn định dùng tiêu chí phân tách Kolmogorov – Smirnov để phân lớp liệu không cân bằng, so sánh hàm phân hoạch Kolmogorov – Smirnov hàm Entropy Shannon phân hoạch liệu Luật gán nhãn cục cho nút định thay cho luật bình chọn số đơng Chương 4: Kết thực nghiệm Dùng ngơn ngữ lập trình Python mã nguồn C4.5 (trong Entropy thay hàm phân hoạch Kolmogorov – Smirnov luật gán nhãn cục ) chạy tập liệu (Sat-image, Pendigits, Letter-A) lấy từ UCI Sau kết so sánh với Entropy Gini tiêu chí precision, recall, accuracy F1-measure Chương 5: Kết luận ... CHƯƠNG CÂY QUYẾT ĐỊNH VỚI HÀM PHÂN HOẠCH KOLMOGOROV – SMIRNOV VÀ LUẬT GÁN NHÃN CỤC BỘ CHO PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG 26 3.1 Cây định sử dụng entropy shannon 26 3.2 Cây định. .. TRƯỜNG ĐẠI HỌC TRÀ VINH LIÊU TRIỆU MINH TRÂN CÂY QUYẾT ĐỊNH VỚI HÀM PHÂN HOẠCH TỐI ƯU BAYES VÀ LUẬT GÁN NHÃN CỤC BỘ CHO PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG Ngành: Công nghệ thông tin Mã ngành: 8480201... chí phân tách Kolmogorov – Smirnov để phân lớp liệu không cân bằng, so sánh hàm phân hoạch Kolmogorov – Smirnov hàm Entropy Shannon phân hoạch liệu Luật gán nhãn cục cho nút định thay cho luật

Định dạng
Số trang	13
Dung lượng	346,4 KB