(Đồ án hcmute) tìm hiểu imbalanced clasification

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH ĐỒ ÁN TỐT NGHIỆP NGÀNH KỸ THUẬT DỮ LIỆU TÌM HIỂU IMBALANCED CLASSIFICATION GVHD: ThS QCH ĐÌNH HỒNG SVTH: NGUYỄN THÀNH CƠNG TRẦN HỒNG AN BÌNH SKL0 8 Tp Hồ Chí Minh, 2022 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA CƠNG NGHỆ THƠNG TIN NGUYỄN THÀNH CƠNG - 18133004 TRẦN HỒNG AN BÌNH - 18133003 Đề Tài: TÌM HIỂU IMBALANCED CLASSIFICATION KHĨA LUẬN TỐT NGHIỆP KỸ SƯ KỸ THUẬT DỮ LIỆU GIÁO VIÊN HƯỚNG DẪN ThS Qch Đình Hồng KHĨA 2018 - 2022 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA CƠNG NGHỆ THƠNG TIN NGUYỄN THÀNH CƠNG - 18133004 TRẦN HỒNG AN BÌNH - 18133003 Đề Tài: TÌM HIỂU IMBALANCED CLASSIFICATION KHĨA LUẬN TỐT NGHIỆP KỸ SƯ KỸ THUẬT DỮ LIỆU GIÁO VIÊN HƯỚNG DẪN ThS Qch Đình Hồng KHĨA 2018 – 2022 ĐH SƯ PHẠM KỸ THUẬT TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc KHOA CNTT ********* PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN ******* Họ tên Sinh viên 1: Nguyễn Thành Công MSSV: 18133004 Họ tên Sinh viên 2: Trần Hoàng An Bình MSSV: 18133003 Ngành: Kỹ thuật liệu Tên đề tài: Tìm hiểu Imbalanced classification Họ tên giáo viên hướng dẫn: Qch Đình Hồng NHẬN XÉT Về nội dung đề tài khối lượng thực hiện: Ưu điểm: Khuyết điểm Đề nghị cho bảo vệ hay không ? Đánh giá loại : Điểm: Tp Hồ Chí Minh, ngày tháng năm 2022 Giáo viên hướng dẫn (Ký & ghi rõ họ tên) ĐH SƯ PHẠM KỸ THUẬT TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc KHOA CNTT ********* PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN ******* Họ tên Sinh viên 1: Nguyễn Thành Công MSSV: 18133004 Họ tên Sinh viên 2: Trần Hồng An Bình MSSV: 18133003 Ngành: Kỹ thuật liệu Tên đề tài: Tìm hiểu Imbalanced classification Họ tên giáo viên phản biện: Nguyễn Thành Sơn NHẬN XÉT Về nội dung đề tài khối lượng thực hiện: Ưu điểm: Khuyết điểm Đề nghị cho bảo vệ hay không ? Đánh giá loại : Điểm: Tp Hồ Chí Minh, ngày tháng năm 2022 Giáo viên phản biện (Ký & ghi rõ họ tên) LỜI CẢM ƠN Đầu tiên xin gửi lời cảm ơn chân thành đến Thầy Qch Đình Hồng Trong q trình thực khóa luận, thầy cung cấp tài liệu hướng dẫn tận tình giúp đỡ cho chúng tơi vượt qua giai đoạn khó khăn đưa đề suất cải thiện khóa luận Đồng thời, cảm ơn sâu sắc đến Ban giám hiệu trường Đại học Sư phạm Kỹ Thuật Thành Phố Hồ Chí Minh tạo mơi trường học tập chất lượng hiệu Chúng xin gửi lời cảm ơn đến Thầy Cô khoa Công nghệ Thông tin - Đại học Sư phạm Kỹ Thuật Thành Phố Hồ Chí Minh nhiệt tình giảng dạy cho chúng tơi có tảng tốt suốt q trình học tập Chúng tơi xin kính chúc q thầy, dồi sức khỏe thành công nghiệp cao quý Đồng thời kính chúc bạn anh/chị dồi sức khỏe, đạt nhiều thành công công việc Trường ĐH Sư Phạm Kỹ Thuật TP.HCM Khoa: Công nghệ thông tin ĐỀ CƯƠNG TIỂU LUẬN CHUYÊN NGÀNH Họ Tên SV thực 1: Nguyễn Thành Công Mã Số SV: 18133004 Họ Tên SV thực 2: Trần Hồng An Bình Mã Số SV: 18133003 Thời gian làm luận văn: từ: Đến: Chuyên ngành: Kỹ thuật Dữ liệu Tên luận văn: Tìm hiểu Imbalanced classification GV hướng dẫn: ThS Qch Đình Hồng Nhiệm Vụ Của luận văn: Tìm hiểu sở lý thuyết cân liệu Tìm hiểu tốn liên quan đến sở lý thuyết tìm hiểu Thực nghiệm phương pháp giải dựa sở lý thuyết Đề cương viết luận văn: Phần MỞ ĐẦU CHƯƠNG 1: MỞ ĐẦU 1.1 Tính cấp thiết đề tài 1.2 Mục tiêu đề tài 1.3 Cách tiếp cận phương pháp nghiên cứu 1.4 Kết dự kiến đạt 1.5 Bố cục báo cáo Phần NỘI DUNG CHƯƠNG TỔNG QUAN VỀ IMBALANCED CLASSIFICATION 2.1 Mơ tả Imbalanced classfication 2.2 Các ví dụ ứng dụng thực tế CHƯƠNG CÁC THƯỚC ĐO HIỆU SUẤT 3.1 Giới thiệu 3.2 Nominal Class Predictions 3.3 Score Predictions 3.4 Probabilistic Predictions CHƯƠNG CÁC PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN IMBALANCED CLASSIFICATION 4.1 Cost-sensitive learning 4.2 Data Level Preprocessing Method 4.3 Ensemble Learning CHƯƠNG ỨNG DỤNG BÀI TOÁN IMBALANCED CLASSES 5.1 Giới thiệu Dataset 5.2 Các phướng pháp giải vấn đề cân liệu CHƯƠNG 6: KẾT LUẬN 6.1 Kết đạt 6.1.1 Ý nghĩa khoa học 6.1.2 Ý nghĩa thực tiễn 6.2 Hạn chế 6.3 Hướng phát triển Tài liệu tham khảo KẾ HOẠCH THỰC HIỆN STT Thời gian Công việc 1/3 – 7/3 Lựa chọn xác định đề tài khóa luận 8/3 – 14/3 Tìm hiểu vấn đề chung liên quan đến đề tài (tài liệu, tốn,…) 15/3 -21/3 Tìm hiểu sở lý thuyết toán phân loại phương pháp tiếp cận 22/3 – 28/3 Tìm hiểu sở lý thuyết imbalanced classification phương pháp giải 29/3 – 4/3 Thực nghiệm số phương pháp giải để hình dung tổng quan toán 5/4 – 18/4 Tiếp thục thực phương pháp giải toán 19/4 – 25/4 Bắt đầu viết báo cáo phần tìm hiểu tóm tắt lại kiến thức toán cân liệu 26/4 – 2/5 Tiếp tục viết phần mở đầu báo cáo 2/5 – 9/5 Đi xây vào mơ hình đưa đánh giá 10 10/5 – 16/5 Chỉnh sửa hoàn thiện phần báo cáo chương lý thuyết chương mở đầu 11 17/5 – 23/5 Chỉnh sửa hoàn thiện phần báo cáo chương lý thuyết chương mở đầu 12 24/5 – 6/6 Tiếp tục viết báo cáo thước đo đánh giá mơ hình tiếp tục phần thực nghiệm 13 7/6 – 20/6 Tiếp tục viết thực nghiệm viết báo cáo phần thực nghiệm Ghi 14 21/6 – 4/7 Hoàn thành báo cáo chỉnh sửa phân thực nghiệm 15 5/7 – 18/7 Hồn thiện, rà sốt báo cáo hồn chỉnh báo cáo Ngày Ý kiến giáo viên hướng dẫn tháng năm 2022 Người viết đề cương (Ký ghi rõ họ tên) Nguyễn Thành Cơng Trần Hồng An Bình 5.2.1 Random over-sampling the minority class Over-sampling trình chép ngẫu nhiên quan sát từ lớp thiểu số để đạt tập liệu cân Vì vậy, chép quan sát từ lớp thiểu số để cân liệu Nó cịn gọi upsampling Nó dẫn đến trang bị mức trùng lặp điểm liệu Bây giờ, tạo khung liệu với lớp thiểu số lấy mẫu mức sau: Lúc đầu, tách quan sát từ biến Class thành DataFrame khác Tiếp theo, lấy mẫu lại lớp thiểu số với thay đặt số lượng mẫu lớp thiểu số để phù hợp tầng lớp đa số Cuối cùng, kết hợp DataFrame lớp thiểu số lấy mẫu mức với DataFrame lớp đa số ban đầu Hình 23 Biểu đồ cho thấy có tập liệu cân sau áp dụng kỹ thuật 75 Sau tạo mơ hình khác cách sử dụng hồi quy logistic kiểm tra độ xác tập liệu cân Kết sau huấn luyện mơ hình hồi quy logistic Hình 24 Các độ đo sau thực random under-sampling vào mơ hình hồi quy logistic Hình 25 Biểu đồ biểu thi số AUC sử dụng random over-sampling Độ xác mơ hình có thấp chút so với ban đầu Tuy nhiên độ xác mức cao có ý nghĩa độ xác ban đầu 76 5.2.2 Random under-sampling the majority class Các phương thức under-sampling hoạt động với lớp đa số Trong phương pháp này, loại bỏ ngẫu nhiên trường hợp lớp đa số Nó làm giảm số lượng quan sát từ lớp đa số để làm cho tập liệu cân Phương pháp áp dụng tập liệu lớn việc giảm số lượng mẫu huấn luyện làm cho tập liệu cân Chúng tiến hành trường hợp lấy mẫu ngẫu nhiên với tập liệu cân tương tự random over-sampling Hình 26 Các độ đo sau thực random under-sampling vào mơ hình hồi quy logistic Hình 27 Biểu đồ biểu thi số AUC sử dụng random under-sampling 77 Tương tự random over-sampling, mơ hình có đọ xác cao chấp nhận 5.2.3 Tree-based algorithms Hình 28 Độ xác số ROC-AUC áp dụng thuật tốn Theo hình trên, ta thấy đươc độ xác số ROC-AUC với độ xác ban đầu 5.2.4 Random under-sampling and over-sampling with imbalanced-learn Có thư viện Python cho phép xử lý tập liệu không cân Nó gọi Imbalanced-Learn Nó thư viện Python chứa thuật toán khác để xử lý tập liệu không cân Thư viện chứa phương thức `make_imbalance` để làm phiền mức độ cân lớp tập liệu định Bây giờ, tơi trình bày kỹ thuật lấy mẫu ngẫu nhiên lấy mẫu mức với phương pháp học không cân Chúng nhập lớp random under sampler Đây cách nhanh chóng dễ dàng để cân liệu cách chọn ngẫu nhiên tập hợp liệu cho lớp nhắm mục tiêu 78 Hình 29 Các số bị xóa khỏi tập liệu ban đầu Bây giờ, chứng minh việc lấy mẫu ngẫu nhiên Quá trình giống lấy mẫu ngẫu nhiên Hình 30 Số điểm tạo với random over sample 79 Hình 31 Các độ đo sau thực random over-sampling vào mô hình hồi quy logistic 5.2.5 Under-sampling: Tomek links Các liên kết Tomek định nghĩa hai quan sát lớp khác hàng xóm gần Kỹ thuật không tạo tập liệu cân Nó đơn giản làm tập liệu cách xóa liên kết Tomek Nó dẫn đến vấn đề phân loại dễ dàng Do đó, cách xóa liên kết Tomek, chúng tơi cải thiện hiệu suất trình phân loại chúng tơi khơng có tập liệu cân Vì vậy, việc loại bỏ liên kết Tomek làm tăng khoảng cách hai lớp tạo điều kiện thuận lợi cho trình phân loại Trong đoạn mã sau, sử dụng `ratio=majority` để lấy lại mẫu cho lớp đa số 80 Hình 32 Các số bị xóa sử dụng Tomek links Hình 33 Các độ đo sau thực Tomek links vào mô hình hồi quy logistic 81 Hình 34 Biểu đồ biểu thi số AUC sử dụng Tomek-links 5.2.6 Under-sampling: Cluster Centroids Trong kỹ thuật này, thực lấy mẫu mức cách tạo trung tâm dựa phương pháp phân cụm Tập liệu nhóm lại theo giống nhau, để lưu giữ thơng tin Trong ví dụ này, tơi chuyển dict {0: 10} cho tỷ lệ tham số Nó bảo tồn 10 yếu tố từ lớp đa số (0) tất lớp thiểu số (1) Hình 35 Số điểm tạo sử dụng Cluster Centroids 82 Hình 36 Các độ đo sau thực Cluster Centroids vào mơ hình hồi quy logistic Hình 37 Biểu đồ biểu thi số AUC sử dụng Cluster Centroids 5.2.7 Lấy mẫu mức: SMOTE Dữ liệu nhân tạo tạo thuật tốn khởi động k-hàng xóm gần Nó hoạt động sau: Trước hết, lấy khác biệt vectơ đặc trưng (mẫu) xem xét láng giềng gần 83 Sau đó, chúng tơi nhân khác biệt với số ngẫu nhiên từ đến Sau đó, chúng tơi thêm số vào vector đặc trưng xem xét Do chọn điểm ngẫu nhiên dọc theo đoạn thẳng hai đối tượng địa lý cụ thể Vì vậy, SMOTE tạo quan sát cách nội suy quan sát có tập liệu Hình 38 Số điểm tạo sử dụng SMOTE Hình 39 Các độ đo sau thực SMOTE vào mơ hình hồi quy logistic 84 Hình 40 Biểu đồ biểu thi số AUC sử dụng SMOTE 85 CHƯƠNG 6: KẾT LUẬN 6.1 KẾT QUẢ ĐẠT ĐƯỢC 6.1.1 Ý nghĩa khoa học Báo cáo trình bày khái niệm vấn đề cân liệu, tốn imbalanced classìication Nội dung đề tài trình bày thuật tốn, mơ hình dành cho tốn phân tích cân liệu, từ áp dụng vào liệu thực tế đưa đánh giá có liên quan Thông qua đề tài, biết nguyên nhân gây việc cân liệu, phương pháp giải vấn đề sở lý thuyết có liên quan Bên cạnh đó, chúng tơi cải thiện khả làm việc nhóm, khả tìm hiểu trình bày báo cáo khoa học 6.1.2 Ý nghĩa thực tiễn Chúng tơi hiểu nhiều thuật tốn, mơ hình để xử lý vấn đề cân liệu, nguyên nhân làm cho tập liệu cân Áp dụng kiến thức tìm hiểu để phân tích đánh giá liệu Kết đạt phần lớn đánh giá chung phương pháp giải quyết, kết tác động ảnh hưởng đến việc cân liệu 6.2 HẠN CHẾ Do giới hạn nguồn lực và thời gian, chọn tập liệu có sẵn Việc phân tích dừng lại mức độ xác tương đối Giới hạn kiến thức toán học lĩnh vực machine learning yếu tố cản trở việc nghiên cứu Các nghiên cứu sau thực thu thập đánh giá phương pháp khác để làm tăng độ xác cho tốn mở rộng phân tích hướng phân tích cho tốn 6.3 HƯỚNG PHÁT TRIỂN Lý thuyết trình bày báo cáo áp dụng để giải tốn phân tích vấn đề cân liệu Từ đưa nhìn tổng quan báo cáo 86 • Mở rộng ứng dụng tốn thực tế • Khơng dừng lại đánh giá mơ hình áp dụng vào liệu nào, sử dụng nhiều liệu thực tế Ngồi đề tài cịn phát triển tiếp tục theo xây dựng ứng dụng để giải vấn đề cân liệu 87 TÀI LIỆU THAM KHẢO [1] Learning from Imbalanced Data Sets by Alberto Fernández, Salvador García, Mikel Galar, Ronaldo C Prati, Bartosz Krawczyk, Francisco Herrera [2] Japkowicz, N., Shah, M.: Evaluating learning algorithms: a classification perspective Cambridge University Press, Cambridge (2011) [3] Fawcett, T.: An introduction to ROC analysis Pattern Recogn Lett 27(8), 861–874 (2006) [4] Díez-Pastor, J.F., Rodríguez, J.J., García-Osorio, C.I., Kuncheva, L.I.: Diversity techniques improve the performance of the best imbalance learning ensembles Inf Sci 325, 98–117 [5] Predd, J.B., Seiringer, R., Lieb, E.H., Osherson, D.N., Poor, H.V., Kulkarni, S.R.: Probabilistic coherence and proper scoring rules IEEE Trans Inf Theory 55(10), 4786–4792 (2009) [6] Hand, D.J.: Measuring classifier performance: a coherent alternative to the area under the ROC curve Mach Learn 77(1), 103–123 (2009) [7] Núñez, M.: The use of background knowledge in decision tree induction Mach Learn 6, 231–250 (1991) [8] Krawczyk, B., Schaefer, G., Wo´zniak, M.: A hybrid cost-sensitive ensemble for imbalanced breast thermogram classification Artif Intell Med 65(3), 219–227 (2015) [9] Domingos, P.M.: Metacost: a general method for making classifiers cost-sensitive In: Proceedings of the Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Diego, pp 155–164, 15–18 Aug 1999 [10] Cheng, F., Zhang, J., Wen, C., Liu, Z., Li, Z.: Large cost-sensitive margin distribution machine for imbalanced data classification Neurocomputing 224, 45–57 (2017) [11] Chawla, N.V., Bowyer, K.W., Hall, L.O., Kegelmeyer, W.P.: SMOTE: synthetic minority over– sampling technique J Artif Intell Res 16, 321–357 (2002) [12] Dietterich, T.G.: An experimental comparison of three methods for constructing ensembles of decision trees: bagging, boosting, and randomization Mach Learn 40, 139–157 (2000) 88