Nghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụng (Luận văn thạc sĩ)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	68
Dung lượng	3,78 MB

Nội dung

Nghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụng (Luận văn thạc sĩ)Nghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụng (Luận văn thạc sĩ)Nghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụng (Luận văn thạc sĩ)Nghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụng (Luận văn thạc sĩ)Nghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụng (Luận văn thạc sĩ)Nghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụng (Luận văn thạc sĩ)Nghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụng (Luận văn thạc sĩ)Nghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụng (Luận văn thạc sĩ)Nghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụng (Luận văn thạc sĩ)Nghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụng (Luận văn thạc sĩ)Nghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụng (Luận văn thạc sĩ)Nghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụng (Luận văn thạc sĩ)

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN MINH HÀ NGHIÊN CỨU PHÂN LỚP TRÊN DỮ LIỆU MẤT CÂN BẰNG VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2020 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN MINH HÀ NGHIÊN CỨU PHÂN LỚP TRÊN DỮ LIỆU MẤT CÂN BẰNG VÀ ỨNG DỤNG CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 8.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS VŨ VĂN THỎA HÀ NỘI - 2020 i LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu tơi Nội dung luận văn có tham khảo sử dụng tài liệu, thông tin đăng tải tạp chí trang web theo danh mục tài liệu tham khảo Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà nội, ngày tháng năm 2020 Người cam đoan Nguyễn Minh Hà ii LỜI CẢM ƠN Trong thời gian thực luận văn này, Học viên nhận hướng dẫn, bảo tận tình Thầy giáo - TS Vũ Văn Thỏa, giảng viên Khoa Công nghệ thông tin cán trực tiếp hướng dẫn khoa học Thầy dành nhiều thời gian việc hướng dẫn học viên cách đọc tài liệu, thu thập đánh giá thơng tin phương pháp nghiên cứu để hồn thành luận văn cao học Học viên xin chân thành cảm ơn Thầy, Cô giáo công tác Học viện Cơng nghệ Bưu Viễn thơng ln nhiệt tình giúp đỡ tạo điều kiện tốt cho học viên suốt trình học tập trường Xin chân thành cảm ơn anh, chị bạn học viên lớp Cao học động viên, giúp đỡ nhiệt tình chia sẻ với học viên kinh nghiệm học tập, công tác suốt khoá học Học viên xin chân thành cảm ơn đồng chí lãnh đạo bạn đồng nghiệp quan tạo điều kiện tốt để học viên hồn thành tốt đẹp khoá học Cao học Học viên xin chân thành cảm ơn ! Hà Nội, ngày tháng năm 2020 Người viết Nguyễn Minh Hà iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT .v DANH MỤC BẢNG vii DANH MỤC HÌNH viii MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP DỮ LIỆU TRÊN CÁC DỮ LIỆU MẤT CÂN BẰNG .3 1.1 Giới thiệu toán phân lớp liệu 1.1.1 Khái niệm phân lớp liệu toán phân lớp liệu 1.1.2 Quy trình thực phân lớp liệu: 1.1.3 Các độ đo đánh giá mơ hình phân lớp liệu 1.2 Dữ liệu cân 11 1.2.1 Khái niệm liệu cân .11 1.2.2 Các đặc điểm phân lớp liệu cân bằng: 11 1.2.3 Các ứng dụng phân lớp liệu cân 13 1.3 Tổng quan kỹ thuật xử lý liệu cân 14 1.3.1 Hướng tiếp cận mức độ liệu 14 1.3.2 Hướng tiếp cận mức độ thuật toán 18 1.4 Kết luận chương 21 CHƯƠNG MỘT SỐ THUẬT TOÁN PHÂN LỚP DỮ LIỆU .22 2.1 Thuật toán DEC - SVM 22 2.1.1 Giới thiệu thuật toán 22 2.1.2 Khảo sát nội dung thuật toán 23 2.1.3 Đánh giá thuật toán 28 2.2 Thuật toán HMU 29 iv 2.2.1 Giới thiệu thuật toán 29 2.2.2 Khảo sát nội dung thuật toán 30 2.2.2.2 Thuật toán HMU 32 2.2.3 Đánh giá thuật toán 33 2.3 Thuật toán HBU 34 2.3.1 Giới thiệu thuật toán 34 2.3.2 Khảo sát nội dung thuật toán .34 2.3.3 Đánh giá thuật toán 35 2.4 Thuật toán RBU 36 2.4.1 Giới thiệu thuật toán 36 2.4.2 Khảo sát nội dung thuật toán 38 2.4.3 Đánh giá thuật toán 40 2.5 Kết luận chương 40 CHƯƠNG ỨNG DỤNG 41 3.1 Khảo sát lựa chọn liệu để thử nghiệm 41 3.1.1 Giới thiệu 41 3.1.2 Mô tả liệu Pima-indians-diabetes .42 3.2 Xây dựng kịch lựa chọn công cụ thử nghiêm 43 3.2.1 Xây dựng kịch thử nghiệm 43 3.2.2 Mô hình thử nghiệm 44 3.2.3 Lựa chọn công cụ thử nghiệm .45 3.3 Thử nghiệm đánh giá kết thử nghiệm 47 3.3.1 Mô tả thử nghiệm 47 3.3.2 Kết thử nghiệm .47 3.3.3 Đánh giá kết thử nghiệm 50 3.4 Kết luận chương 52 KẾT LUẬN 53 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 54 v DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT Viết tắt AUC Tiếng Anh Area Under the Curve Differential Evolution DEC-SVM Clustering Support Vector Machines Tiếng việt Diện tích nằm đường cong ROC Phân cụm tiến hóa khác biệt hỗ trợ máy vec-tơ Số lượng phần tử lớp thiểu số bị FN False Negative phân loại nhầm phần tử lớp đa số FP HBU False Positive Hypothesis margin based Borderline Under-sampling Số lượng phần tử lớp đa số bị phân loại nhầm phần tử lớp đa số Giảm phần tử dựa vào giá trị lề giả thuyết ưu tiên loại bỏ phần tử nằm biên Hypothesis Margin based Giảm phần tử dựa vào giá trị lề giả Undersampling thuyết Knowledge Discovery and Phát tri thức khai phá Data Mining liệu K-NN K-nearest neighbors K láng giềng gần RBU Random border undersampling HMU KDD ROC SMOTE SVM Giảm phần tử ngẫu nhiên đường biên Receiver operating Đường cong đặc trưng hoạt động characteristic thu nhận Synthetic Minority Over- Phương pháp sinh thêm mẫu nhân sampling Technique tạo lớp thiểu số Support Vector Machines Máy véc tơ hỗ trợ vi TN True Negative TP True Positive WEKA Waikato Environment for Knowledge Acquisition Số lượng phần tử lớp đa số phân loại xác Số lượng phần tử lớp thiểu số phân loại xác Công cụ kiểm thử học máy vii DANH MỤC BẢNG Bảng 1.1 Một số liệu cân .12 Bảng 3.1 Các thuộc tính liệu Pima-indians-diabetes .42 Bảng 3.2 Kết phân lớp trước xử lý liệu cân 48 Bảng 3.3 Kết phân lớp sau xử lý liệu cân với thuật toán DECSVM 48 Bảng 3.4 Kết phân lớp sau xử lý liệu cân với thuật toán HMU 49 Bảng 3.5 Kết phân lớp sau xử lý liệu cân với thuật toán HBU 49 Bảng 3.6 Kết phân lớp sau xử lý liệu cân với thuật toán RBU 50 Bảng 3.7 Bảng tổng hợp kết phân lớp trước sau xử lý liệu cân 50 viii DANH MỤC HÌNH Hình 1.1 Mơ hình mơ tả tốn phân lớp liệu Hình 1.2 Quá trình phân lớp liệu - (a) Bước xây dựng mơ hình phân lớp Hình 1.3 Q trình phân lớp liệu - (b1) Ước lượng độ xác mơ hình Hình 1.4 Q trình phân lớp liệu - (b2) Phân lớp liệu Hình 1.5 Các số đánh giá mơ hình phân lớp Hình 1.6 Biểu đồ mơ tả tỷ lệ chênh lệch lớp thiểu số đa số .12 Hình 1.7 Phương pháp sinh ngẫu nhiên phần tử lớp thiểu số 15 Hình 1.8 Sinh thêm phần tử nhân tạo thuật toán SMOTE .16 Hình 1.9 Loại bỏ phần tử lớp đa số 16 Hình 1.10 Biểu đồ mơ tả liệu cân 19 Hình 1.11 Minh họa tập hợp tập liệu lấy mẫu 20 Hình 2.1 Minh họa phân cụm tập liệu cân 25 Hình 2.2 Phân bố liệu .36 Hình 2.3 Xác định k - láng giềng 37 Hình 2.4 Các phần tử biên .38 Hình 2.5 Xóa phần tử biên .38 Hình 3.1 Mơ hình thử nghiệm .44 Hình 3.2 Màn hình khởi động Weka 45 Hình 3.3 Biểu đồ so sánh độ xác phân lớp liệu trước sau xử lý liệu cân 51 Hình 3.4 Biểu đồ kết phân lớp lớp Negative trước sau xử lý liệu cân 51 Hình 3.5 Biểu đồ kết phân lớp lớp Positive trước sau xử lý liệu cân 52 44 khả ưu điểm: làm cho thể phải thích nghi với lượng lượng nhỏ khơng khơng chuyển hóa tế bào thành lượng để hoạt động Việc khám phá kiến thức từ sở liệu y tế quan trọng để giúp chẩn đoán y tế hiệu Mục đích khai thác liệu trích xuất kiến thức từ thông tin lưu trữ sở liệu tạo mô tả rõ ràng dễ hiểu mẫu Trong phần này, luận văn lựa chọn Bộ liệu bệnh tiểu đường người Indian Pima (Pima Indians Diabetes dataset) [18] để thực ứng dụng thuật toán khảo sát chương cho toán phân lớp liệu nhị phân: lớp bệnh nhân mắc không mắc bệnh tiểu đường 3.1.2 Mô tả liệu Pima-indians-diabetes Bộ liệu bệnh tiểu đường người Indian Pima, Vincent Sigillito tài trợ, tập hợp báo cáo chẩn đoán y tế từ 768 hồ sơ bệnh nhân nữ 21 tuổi người Indian Pima, dân số sống gần Phoenix, Arizona, Hoa Kỳ Trong số chín thuộc tính, sáu thuộc tính mơ tả kết kiểm tra thể chất, phần lại thuộc tính kiểm tra hóa học Biến phân lớp (tiểu đường = (có mắc bệnh), tiểu đường = (không mắc bệnh)), biểu thị biến thứ Mục đích sử dụng biến để dự đoán giá trị biến thứ Các thuộc tính liệu Pima-indians-diabetes mơ tả chi tiết Bảng 3.1 [18] Bảng ỨNG DỤNG.2 Các thuộc tính liệu Pima-indians-diabetes TT Tên thuộc tính Mơ tả Pregnancies Số lần mang thai Nồng độ glucose huyết tương 2h Glucose xét nghiệm dung nạp glucose BloodPressure Skinthickness đường uống Huyết áp tâm trương (mm Hg) Độ dày nếp gấp da (mm) Tính chất 45 TT Tên thuộc tính Insulin BMI Diabetespedigree Age Outcome Mơ tả Tính chất Huyết (mu U / ml) Chỉ số khối thể Chức phả hệ tiểu đường Tuổi (năm) Thuộc tính phân lớp (0,1) Các kỹ thuật xử lý liệu, áp dụng trước khai thác, cải thiện đáng kể chất lượng tổng thể mẫu khai thác thời gian cần thiết cho khai thác thực tế Tiền xử lý liệu bước quan trọng, định chất lượng phải dựa liệu chất lượng Trong 768 trường hợp, bệnh nhân có glucose 0, 11 bệnh nhân có số khối thể 0, 28 người khác có huyết áp tâm trương 0, 192 người khác có số độ dày nếp gấp da 0, 140 người khác có nồng độ insulin huyết điều khơng thể Sau xóa trường hợp này, có 392 trường hợp khơng có giá trị thiếu (130 trường hợp dương tính kiểm tra 262 trường hợp âm tính) 3.2 Xây dựng kịch lựa chọn công cụ thử nghiêm 3.2.1 Xây dựng kịch thử nghiệm Trong mục này, luận văn thực thử nghệm với toán sau: Dữ liệu đầu vào: (1) Bộ liệu pima-indians-diabetes (2) Các thuật toán thử nghiệm: - Thuật toán DEC-SVM - Thuật toán HMU-SVM - Thuật toán HBU-SVM - Thuật toán RBU-SVM Dữ liệu ra: Các tiêu chí, kết đánh giá hiệu thuật toán nghiên cứu chương áp dụng vớ liệu pima-indians-diabetes 46 Luận văn tiến hành thử nghiệm theo hai kịch trình bày Kịch thứ nhất: Trong kịch thứ nhất, luận văn thực sử dụng thuật toán SVM để phân lớp liệu với liệu chọn mà khơng sử dụng thuật tốn tiền xử lý liệu cân Kịch thứ hai: Trong kịch thứ hai, luận văn thực phân lớp liệu sau xử lý liệu cân sử dụng thuật toán xử lý liệu cân 3.2.2 Mơ hình thử nghiệm Mơ hình tiến hành thử nghiệm mơ tả hình 3.1 Hình ỨNG DỤNG.17 Mơ hình thử nghiệm Trong mơ hình trên, thuật tốn tiền xử lý liệu lựa chọn DEC-SVM, HMU, HBU RBU 3.2.3 Lựa chọn công cụ thử nghiệm Weka phần mềm miễn phí học máy viết Java, phát triển University of Wekato Weka coi sưu tập thuật tốn học máy dùng phân tích khai phá liệu Các thuật toán xây dựng sẵn 47 người dùng việc lựa chọn để sử dụng Do Weka thích hợp cho việc thử nghiệm mơ hình mà khơng thời gian để xây dựng chúng Weka có giao diện sử dụng đồ họa trực quan chế độ command line Ngồi thuật tốn học máy dự đốn, phân loại, phân cụm, Weka cịn có cơng cụ để trực quan hóa liệu hữu ích trình nghiên cứu, phân tích liệu lớn Từ lý trên, luận văn lựa chọn công cụ thực nghiêm phần mềm Weka version 3.7.12 [19] Hình ỨNG DỤNG.18 Màn hình khởi động Weka Các tính Weka: - Weka bao gồm tập công cụ tiền xử lý liệu, thuật toán học máy để khai phá liệu phương pháp thử nghiệm đánh giá - Weka có giao diện đồ họa (gồm tính hiển thị hóa liệu) - Weka bao gồm mơi trường cho phép so sánh thuật toán học máy liệu người dùng lựa chọn Các môi trường Weka: (1) Simple CLI : giao diện đơn giản kiểu dòng lệnh ( MS-DOS) (2) Explorer : môi trường cho phép sử dụng tất khả Weka để khám phá liệu 48 (3) Experimenter: môi trường cho phép tiến hành thí nghiệm thực kiểm tra thống kê (statistical tests) mơ hình máy học Mơi trường bao gồm:  Preprocess: Để chọn thay đổi (xử lý) liệu làm việc  Classify: Để huấn luyện kiểm tra mơ hình học máy (phân loại, hồi quy/dự đoán)  Cluster: Để học nhóm từ liệu (phân cụm)  Associate: Để khám phá luật kết hợp từ liệu  Select attributes: Để xác định lựa chọn thuộc tính liên quan (quan trọng) liệu  Visualize: Để xem (hiển thị) biểu đồ tương tác chiều liệu (4) KnowledgerFlow: môi trường cho phép bạn tương tác đồ họa kiểu kéo/ thả để thiết kế bước(các thành phần) thí nghiệm Để tiến hành thử nghiệm, cần lựa chọn “Explorer”: giao diện cho phép sử dụng tất chức sở Weka cách lựa chọn menu Để đánh giá hiệu phân loại cần lựa chọn tùy chọn cho việc kiểm tra (test options) bao gồm: - Use training set: Bộ phân loại học đánh giá tập học - Supplied test set: Sử dụng tập liệu khác (với tập huấn luyện) việc đánh giá - Cross-validation: Tập liệu chia thành k tập (folds) có kích thước xấp xỉ nhau, phân loại học đánh giá phương pháp cross-validation - Percentage split Chỉ định tỷ lệ phân chia tập liệu 3.3 Thử nghiệm đánh giá kết thử nghiệm 3.3.1 Mơ tả thử nghiệm Máy tính sử dụng cho trình chạy Weka để đánh giá hiệu thuật tốn laptop có cấu hình: 49 - Bộ xử lý Intel -Core i3 4005U, - RAM: 4GB Bộ công cụ weka phiên 3.7.12 Bộ liệu thử nghiệm pima-indians-diabetes.csv gồm 768 ghi, thuộc tính Các thuật tốn thử nghiêm: - Thuật toán DEC-SVM - Thuật toán HBU - Thuật toán HMU - Thuật toán RBU Thực thử nghiệm theo hai kịch nêu mục 3.2.1 Các bước thực hiên sau: Bước 1: Chuẩn hóa liệu Filter standardize Weka Dữ liệu xử lý để có kỳ vọng có độ lệch chuẩn Việc chuẩn hóa giúp thuật tốn khơng bị thiên lệch số đặc trưng giúp trình học hội tụ nhanh Đối với kịch 2: thực bước Bước 2: Cân liệu thuật toán đề xuất (RBU, HBU, HMU, DEC-SVM) Bước 3: Với liệu thu được, thực phân lớp thuật toán SVM Weka 3.3.2 Kết thử nghiệm Trong mục luận văn trình bày số kết chạy Weka Do giới hạn số trang luận văn nên nêu chi tiết thao tác (1) Kết phân lớp trước xử lý liệu cân theo kịch Kết phân lớp trước xử lý liệu cân sử dụng thuật tốn SVM trình bày bảng 3.2 Bảng ỨNG DỤNG.3 Kết phân lớp trước xử lý liệu cân 50 sử dụng thuật toán SVM === Detailed Accuracy By Class TP Rate FP Rate Precision 0.866 0.448 0.783 0.552 0.134 0.688 0.757 0.338 0.75 === Recall 0.866 0.552 0.757 F-Measure 0.822 0.613 0.749 ROC Area 0.709 0.709 0.709 Class Avg === Confusion Matrix === a b < classified as 433 67 | a = 120 148 | b = (2) Kết phân lớp sau xử lý liệu cân theo kịch Kết phân lớp sau xử lý liệu cân với thuật toán DEC-SVM trình bày bảng 3.3 Bảng ỨNG DỤNG.4 Kết phân lớp sau xử lý liệu cân với thuật toán DEC-SVM === Detailed Accuracy By Class === TP Rate 0.757 0.787 0.772 FP Rate 0.213 0.243 0.228 Precision 0.775 0.77 0.772 Recall 0.757 0.787 0.772 F-Measure 0.766 0.778 0.772 ROC Area 0.772 0.772 0.772 Class Avg === Confusion Matrix === a b < classified as 355 114 | a = 103 381 | b = Kết phân lớp sau xử lý liệu cân với thuật tốn HMU trình bày bảng 3.4 Bảng ỨNG DỤNG.5 Kết phân lớp sau xử lý liệu cân với thuật toán HMU === Detailed Accuracy By Class === TP Rate 0.741 0.813 0.777 FP Rate 0.187 0.259 0.223 Precision 0.8 0.757 0.779 Recall 0.741 0.813 0.777 F-Measure 0.769 0.784 0.777 ROC Area Class 0.777 0.777 0.777 Avg 51 === Confusion Matrix === a b < classified as 200 70 | a = 50 218 | b = Kết phân lớp sau xử lý liệu cân với thuật tốn HBU trình bày bảng 3.5 Bảng ỨNG DỤNG.6 Kết phân lớp sau xử lý liệu cân với thuật toán HBU === Detailed Accuracy By Class === TP Rate 0.866 0.854 0.86 FP Rate 0.146 0.134 0.14 Precision 0.856 0.864 0.86 Recall 0.866 0.854 0.86 F-Measure 0.861 0.859 0.86 ROC Area 0.86 0.86 0.86 Class Avg === Confusion Matrix === a b < classified as 232 36 | a = 39 229 | b = Kết phân lớp sau xử lý liệu cân với thuật tốn RBU trình bày bảng 3.6 Bảng ỨNG DỤNG.7 Kết phân lớp sau xử lý liệu cân với thuật toán RBU === Detailed Accuracy By Class === TP Rate 0.906 0.698 0.826 FP Rate 0.302 0.094 0.222 Precision 0.827 0.824 0.825 === Confusion Matrix === Recall 0.906 0.698 0.826 F-Measure 0.865 0.756 0.822 ROC Area 0.802 0.802 0.802 Class Avg 52 a b < classified as 386 40 | a = 81 187 | b = Kết phân lớp trước sau xử lý liệu cân với thuật toán DEC-SVM, HBU, HMU, RBU tổng hợp theo bảng 3.7 Bảng ỨNG DỤNG.8 Bảng tổng hợp kết phân lớp trước sau xử lý liệu cân Thuật toán ORIGINAL DEC-SVM HBU-SVM HMU-SVM RBU accuracy (%) Pre Negative Rec 75.65 77.23 86.01 77.70 82.56 78.3 77.5 85.6 80 82.7 86.6 75.7 86.6 74.1 90.6 F1 82.2 76.6 86.1 76.9 86.5 Pre Positive Rec F1 68.8 77.0 86.4 75.7 82.4 55.2 78.7 85.4 81.3 69.8 61.3 77.8 85.9 78.4 75.6 3.3.3 Đánh giá kết thử nghiệm Dựa vào kết thử nghiệm trình bày mục trên, mục luận văn thực phân tích đánh giá kết Kết độ xác thuật tốn thử nghiệm theo hai kịch biểu diễn dạng biểu đồ hình 3.3 53 Hình ỨNG DỤNG.19 Biểu đồ so sánh độ xác phân lớp liệu trước sau xử lý liệu cân Quan sát biểu đồ hình 3.3 nhận thấy rằng, thuật tốn thử nghiệm cho kết có tỉ lệ phân loại xác cao so với liệu ban đầu chưa áp dụng thuật tốn Hình ỨNG DỤNG.20 Biểu đồ kết phân lớp lớp Negative trước sau xử lý liệu cân 54 Hình ỨNG DỤNG.21 Biểu đồ kết phân lớp lớp Positive trước sau xử lý liệu cân Từ kết ta thấy sau điều chỉnh liệu thuật toán tiền xử lý liệu cân DEC-SVM, HBU, HMU, RBU hiệu phân lớp liệu cao hẳn so với việc phân lớp liệu ban đầu Các thuật toán khảo sát kết hợp với số kỹ thuật trích chọn đặc trưng phù hợp cho kết tốt hơn, đặc biệt với tập liệu có kích thước lớn 3.4 Kết luận chương Trong chương luận văn tiến hành thử nghiệm thuật toán DEC-SVM, HMU, HBU RBU cho toán phân lớp liệu liệu cân cho liệu chứng tiểu đường người Indian Pima Kết thử nghiệm bước đầu cho thấy thuật tốn phân lớp triển khai thực tế phù hợp với yêu cầu đề cho toán phân lớp liệu liệu cân 55 KẾT LUẬN Kết đạt luận văn Với mục tiêu nghiên cứu số kỹ thuật để nâng cao hiệu phân lớp liệu tập liệu cân ứng dụng, luận văn đạt số kết sau: - Nghiên cứu tổng quan toán phân lớp liệu vấn đề liên quan - Khảo sát tổng quan liệu cân - Khảo sát hướng tiếp cận liệu hướng tiếp cận thuật toán để nâng cao hiệu phân lớp liệu liệu cân - Khảo sát chi tiết thuật toán: DEC-SVM, HMU, HBU RBU - Khảo sát liệu bệnh tiểu đường pima-indians-diabetes - Thực thử nghiệm phân lớp liệu với DEC-SVM, HMU, HBU RBU liệu pima-indians-diabetes Kết thử nghiệm cho thấy hiệu phân lớp liệu sau sử dụng thuật toán khảo sát Tuy nhiên, hạn chế mặt thời gian, luận văn chưa tiến hành thử nghiệm với liệu lớn, Do đó, hiệu thử nghiệm chưa cao Hướng phát triển Trên sở nghiên cứu kết đạt được, đề tài luận văn phát triển sau: - Tiếp tục hồn thiện kết có để xây dựng mơ hình phân lớp liệu cân với liệu thực tế thường có kích thước lớn, thuộc tính phần tử liệu thường bao gồm dạng số dạng phi số - Nghiên cứu thêm kỹ thuật trích chọn đặc trưng cho liệu cân nhằm nâng cao hiệu cho mơ hình phân lớp 56 DANH MỤC CÁC TÀI LIỆU THAM KHẢO TÀI LIỆU TIẾNG VIỆT [1] Nguyễn Thị Lan Anh (2017) Thuật toán HMU toán phân lớp liệu cân Tạp chí Khoa học Giáo dục, Trường Đại học Sư phạm Huế, 2, 101–108 [2] Nguyễn Thị Lan Anh (2018) Phân lớp liệu cân với thuật tốn HBU Tạp chí Khoa học Giáo dục, Trường Đại học Sư phạm Huế, 4, 110–116 [3] Bùi Dương Hưng,, Đặng Xuân Thọ, Vũ Văn Thỏa (2019) KSI - Phương pháp phân cụm với lọc ngẫu nhiên để loại bỏ nhiễu liệu cân bằng, Tạp chí Khoa học cơng nghệ thơng tin truyền thông, Học viện Công nghệ thông tin truyền thông, 01, 55-60 [4] Phạm Thị Hường, Phạm Văn Kiên, Đỗ Ngọc Quỳnh (2017)- Phương pháp DEC-SVM phân lớp liệu cân [5] Bùi Minh Quân, Phạm Xuân Hiền, Huỳnh Xuân Diệp (2013) Nâng cao độ xác phân loại lớp mẫu từ tập liệu cân bằng, Tạp chí Khoa học Trường đại học Cần Thơ [6] Nguyễn Mai Phương, Trần Thị Ánh Tuyết, Nguyễn Thị Hồng, Đặng Xuân Thọ (2015), Random Border Undersampling: Thuật toán giảm phần tử ngẫu nhiên đường biên liệu cân bằng, Kỷ yếu FAIR, 612-619 TÀI LIỆU TIẾNG ANH [7] Han J., Kamber M (2011) – “Data mining: Concepts and Techniques” 3nd Edition, Morgan Kaufman Publishers [8] Sain, H & Purnami, S W (2015) Combine Sampling Support Vector Machine for Imbalanced Data Classification Procedia Comput Sci 72, 59–66 [9] Leichen Chen, Zhihua Cai, Lu Chen (2010), A Novel Different Evolution- Clustering Hybrid Resampling Algorithm on Imbalanced Datasets”, in: Knowledge Discovery and Data Mining, 2010 WKDD 57 '10 Third International Conference, 81-85 [10] Chumphol Bunkhumpornpat, Krung Sinapiromsaran, Chidchanok Lursinsap (2009), “Safe-Level-SMOTE: Safe-Level- Synthetic Minority Over Sampling Technique for Handling the Class Imbalanced Problem”, in Advances in Knowledge Discovery and Data Mining: Springer-Verlag Berlin Heidelberg, vol 5476, pp 475-482 [11] Mikel Galar, Alberto Fernandez, Edurne Barrenechea, Humberto Bustince (2011), “A Review on Ensembles for the Class Imbalance Problem: Bagging – Boosting, and Hybrid-Based Approaches”, IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, vol 42, no 4, pp.463-484 [12] Han Hui, Wang Wen-Yuan, and Mao Bing- Huan (2005), "BorderlineSMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning," in ICIC 2005, pp 878-887 [13] Sotiris Kotsiantis, Dimitris Kanellopoulos, Panayiotis Pintelas (2006), “Handling imbalanced datasets: A review”, GESTS International Transactions on Computer Science and Engineering, vol.30 [14] Xu - Ying Liu, Jianxin Wu, and Zhi-Hua Zhou (2006), Exploratory Undersampling for Class-Imbalance Learning, 6th IEEE International Conference onData Mining (ICDM'06), 965-969 [15] T M Mitchell [1997] – “Machine Learning”, McGraw-Hill [16] Sun Yanmin, Wong Andrew K C., and Kamel Mohamed S.(2009), "Classification of imbalanced data: A review", International Journal of Pattern Recognition and Artificial Intelligence, vol 23, pp 687–719 Trang WEB [17] https://archive.ics.uci.edu/ml/datasets/Diabetes [18] https://en.wikipedia.org/wiki/Precision_and_recal 58 [19] https://sourceforge.net/projects/weka/ ... TOÁN PHÂN LỚP DỮ LIỆU TRÊN CÁC DỮ LIỆU MẤT CÂN BẰNG .3 1.1 Giới thiệu toán phân lớp liệu 1.1.1 Khái niệm phân lớp liệu toán phân lớp liệu 1.1.2 Quy trình thực phân lớp liệu: ... TOÁN PHÂN LỚP DỮ LIỆU TRÊN CÁC DỮ LIỆU MẤT CÂN BẰNG Nội dung chương khảo sát toán phân lớp liệu, học máy, liệu cân vấn đề liên quan 1.1 Giới thiệu toán phân lớp liệu 1.1.1 Khái niệm phân lớp liệu. .. phân lớp để có liệu xác định liệu thuộc vào phân lớp Bài tốn phân lớp liệu mơ tả hình 1.1 [7] Hình TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP DỮ LIỆU TRÊN CÁC DỮ LIỆU MẤT CÂN BẰNG.1 Mơ hình mơ tả tốn phân lớp

Ngày đăng: 30/07/2020, 20:11

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[1] Nguyễn Thị Lan Anh (2017). Thuật toán HMU trong bài toán phân lớp dữ liệu mất cân bằng. Tạp chí Khoa học và Giáo dục, Trường Đại học Sư phạm Huế, 2, 101–108

Sách, tạp chí

Tiêu đề:	Tạp chí Khoa học và Giáo dục, Trường Đại học Sưphạm Huế
Tác giả:	Nguyễn Thị Lan Anh
Năm:	2017

[7] Han J., Kamber M. (2011) – “Data mining: Concepts and Techniques” - 3nd Edition, Morgan Kaufman Publishers

Sách, tạp chí

Tiêu đề:	Data mining: Concepts and Techniques

[8] Sain, H. & Purnami, S. W. (2015). Combine Sampling Support Vector Machine for Imbalanced Data Classification. Procedia Comput. Sci. 72, 59–66

Sách, tạp chí

Tiêu đề:	Procedia Comput. Sci
Tác giả:	Sain, H. & Purnami, S. W
Năm:	2015

[10] Chumphol Bunkhumpornpat, Krung Sinapiromsaran, Chidchanok Lursinsap (2009), “Safe-Level-SMOTE: Safe-Level- Synthetic Minority Over Sampling Technique for Handling the Class Imbalanced Problem”, in Advances in Knowledge Discovery and Data Mining: Springer-Verlag Berlin Heidelberg, vol. 5476, pp. 475-482

Sách, tạp chí

Tiêu đề:	Safe-Level-SMOTE: Safe-Level- Synthetic MinorityOver Sampling Technique for Handling the Class Imbalanced Problem
Tác giả:	Chumphol Bunkhumpornpat, Krung Sinapiromsaran, Chidchanok Lursinsap
Năm:	2009

[11] Mikel Galar, Alberto Fernandez, Edurne Barrenechea, Humberto Bustince (2011), “A Review on Ensembles for the Class Imbalance Problem: Bagging – Boosting, and Hybrid-Based Approaches”, IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, vol. 42, no. 4, pp.463-484

Sách, tạp chí

Tiêu đề:	A Review on Ensembles for the Class ImbalanceProblem: Bagging – Boosting, and Hybrid-Based Approaches
Tác giả:	Mikel Galar, Alberto Fernandez, Edurne Barrenechea, Humberto Bustince
Năm:	2011

[12] Han Hui, Wang Wen-Yuan, and Mao Bing- Huan (2005), "Borderline- SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning," in ICIC 2005, pp. 878-887

Sách, tạp chí

Tiêu đề:	Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data SetsLearning
Tác giả:	Han Hui, Wang Wen-Yuan, and Mao Bing- Huan
Năm:	2005

[13] Sotiris Kotsiantis, Dimitris Kanellopoulos, Panayiotis Pintelas (2006), “Handling imbalanced datasets: A review”, GESTS International Transactions on Computer Science and Engineering, vol.30

Sách, tạp chí

Tiêu đề:	Handling imbalanced datasets: A review
Tác giả:	Sotiris Kotsiantis, Dimitris Kanellopoulos, Panayiotis Pintelas
Năm:	2006

[16] Sun Yanmin, Wong Andrew K. C., and Kamel Mohamed S.(2009),"Classification of imbalanced data: A review", International Journal of Pattern Recognition and Artificial Intelligence, vol. 23, pp. 687–719.Trang WEB

Sách, tạp chí

Tiêu đề:	Classification of imbalanced data: A review
Tác giả:	Sun Yanmin, Wong Andrew K. C., and Kamel Mohamed S
Năm:	2009

[2] Nguyễn Thị Lan Anh (2018). Phân lớp dữ liệu mất cân bằng với thuật toán HBU. Tạp chí Khoa học và Giáo dục, Trường Đại học Sư phạm Huế, 4, 110–116

Khác

[3] Bùi Dương Hưng,, Đặng Xuân Thọ, Vũ Văn Thỏa (2019). KSI - Phương pháp phân cụm với bộ lọc ngẫu nhiên để loại bỏ nhiễu trong dữ liệu mất cân bằng, Tạp chí Khoa học công nghệ thông tin và truyền thông, Học viện Công nghệ thông tin và truyền thông, 01, 55-60

Khác

[4] Phạm Thị Hường, Phạm Văn Kiên, Đỗ Ngọc Quỳnh (2017)- Phương pháp DEC-SVM phân lớp dữ liệu mất cân bằng

Khác

[5] Bùi Minh Quân, Phạm Xuân Hiền, Huỳnh Xuân Diệp (2013). Nâng cao độ chính xác phân loại lớp ít mẫu từ tập dữ liệu mất cân bằng , Tạp chí Khoa học Trường đại học Cần Thơ

Khác

[6] Nguyễn Mai Phương, Trần Thị Ánh Tuyết, Nguyễn Thị Hồng, Đặng Xuân Thọ (2015), Random Border Undersampling: Thuật toán mới giảm phần tử ngẫu nhiên trên đường biên trong dữ liệu mất cân bằng, Kỷ yếu FAIR, 612-619.TÀI LIỆU TIẾNG ANH

Khác

[9] Leichen Chen, Zhihua Cai, Lu Chen (2010), A Novel Different Evolution- Clustering Hybrid Resampling Algorithm on Imbalanced Datasets”, in: Knowledge Discovery and Data Mining, 2010. WKDD

Khác

[14] Xu - Ying Liu, Jianxin Wu, and Zhi-Hua Zhou (2006), Exploratory Undersampling for Class-Imbalance Learning, 6th IEEE International Conference onData Mining (ICDM'06), 965-969

Khác