Nghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụng

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN MINH HÀ NGHIÊN CỨU PHÂN LỚP TRÊN DỮ LIỆU MẤT CÂN BẰNG VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2020 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN MINH HÀ NGHIÊN CỨU PHÂN LỚP TRÊN DỮ LIỆU MẤT CÂN BẰNG VÀ ỨNG DỤNG CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 8.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS VŨ VĂN THỎA HÀ NỘI - 2020 i LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu tơi Nội dung luận văn có tham khảo sử dụng tài liệu, thông tin đăng tải tạp chí trang web theo danh mục tài liệu tham khảo Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà nội, ngày tháng năm 2020 Người cam đoan Nguyễn Minh Hà ii LỜI CẢM ƠN Trong thời gian thực luận văn này, Học viên nhận hướng dẫn, bảo tận tình Thầy giáo - TS Vũ Văn Thỏa, giảng viên Khoa Công nghệ thông tin cán trực tiếp hướng dẫn khoa học Thầy dành nhiều thời gian việc hướng dẫn học viên cách đọc tài liệu, thu thập đánh giá thơng tin phương pháp nghiên cứu để hồn thành luận văn cao học Học viên xin chân thành cảm ơn Thầy, Cô giáo công tác Học viện Cơng nghệ Bưu Viễn thơng ln nhiệt tình giúp đỡ tạo điều kiện tốt cho học viên suốt trình học tập trường Xin chân thành cảm ơn anh, chị bạn học viên lớp Cao học động viên, giúp đỡ nhiệt tình chia sẻ với học viên kinh nghiệm học tập, công tác suốt khoá học Học viên xin chân thành cảm ơn đồng chí lãnh đạo bạn đồng nghiệp quan tạo điều kiện tốt để học viên hồn thành tốt đẹp khoá học Cao học Học viên xin chân thành cảm ơn ! Hà Nội, ngày tháng năm 2020 Người viết Nguyễn Minh Hà iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT v DANH MỤC BẢNG vii DANH MỤC HÌNH viii MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP DỮ LIỆU TRÊN CÁC DỮ LIỆU MẤT CÂN BẰNG 1.1 Giới thiệu toán phân lớp liệu 1.1.1 Khái niệm phân lớp liệu toán phân lớp liệu 1.1.2 Quy trình thực phân lớp liệu: 1.1.3 Các độ đo đánh giá mơ hình phân lớp liệu 1.2 Dữ liệu cân 11 1.2.1 Khái niệm liệu cân 11 1.2.2 Các đặc điểm phân lớp liệu cân bằng: 11 1.2.3 Các ứng dụng phân lớp liệu cân 13 1.3 Tổng quan kỹ thuật xử lý liệu cân 14 1.3.1 Hướng tiếp cận mức độ liệu 14 1.3.2 Hướng tiếp cận mức độ thuật toán 18 1.4 Kết luận chương 21 CHƯƠNG MỘT SỐ THUẬT TOÁN PHÂN LỚP DỮ LIỆU 22 2.1 Thuật toán DEC - SVM 22 2.1.1 Giới thiệu thuật toán 22 2.1.2 Khảo sát nội dung thuật toán 23 2.1.3 Đánh giá thuật toán 28 2.2 Thuật toán HMU 29 iv 2.2.1 Giới thiệu thuật toán 29 2.2.2 Khảo sát nội dung thuật toán 30 2.2.2.2 Thuật toán HMU 32 2.2.3 Đánh giá thuật toán 33 2.3 Thuật toán HBU 34 2.3.1 Giới thiệu thuật toán 34 2.3.2 Khảo sát nội dung thuật toán 34 2.3.3 Đánh giá thuật toán 35 2.4 Thuật toán RBU 36 2.4.1 Giới thiệu thuật toán 36 2.4.2 Khảo sát nội dung thuật toán 38 2.4.3 Đánh giá thuật toán 40 2.5 Kết luận chương 40 CHƯƠNG ỨNG DỤNG 41 3.1 Khảo sát lựa chọn liệu để thử nghiệm 41 3.1.1 Giới thiệu 41 3.1.2 Mô tả liệu Pima-indians-diabetes 42 3.2 Xây dựng kịch lựa chọn công cụ thử nghiêm 43 3.2.1 Xây dựng kịch thử nghiệm 43 3.2.2 Mơ hình thử nghiệm 44 3.2.3 Lựa chọn công cụ thử nghiệm 45 3.3 Thử nghiệm đánh giá kết thử nghiệm 47 3.3.1 Mô tả thử nghiệm 47 3.3.2 Kết thử nghiệm 47 3.3.3 Đánh giá kết thử nghiệm 50 3.4 Kết luận chương 52 KẾT LUẬN 53 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 54 v DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT Viết tắt AUC Tiếng Anh Area Under the Curve Differential Evolution DEC-SVM Clustering Support Vector Machines Tiếng việt Diện tích nằm đường cong ROC Phân cụm tiến hóa khác biệt hỗ trợ máy vec-tơ Số lượng phần tử lớp thiểu số bị FN False Negative phân loại nhầm phần tử lớp đa số FP HBU False Positive Hypothesis margin based Borderline Under-sampling Số lượng phần tử lớp đa số bị phân loại nhầm phần tử lớp đa số Giảm phần tử dựa vào giá trị lề giả thuyết ưu tiên loại bỏ phần tử nằm biên Hypothesis Margin based Giảm phần tử dựa vào giá trị lề giả Undersampling thuyết Knowledge Discovery and Phát tri thức khai phá Data Mining liệu K-NN K-nearest neighbors K láng giềng gần RBU Random border undersampling HMU KDD ROC Giảm phần tử ngẫu nhiên đường biên Receiver operating Đường cong đặc trưng hoạt động characteristic thu nhận vi Synthetic Minority Over- Phương pháp sinh thêm mẫu nhân sampling Technique tạo lớp thiểu số SVM Support Vector Machines Máy véc tơ hỗ trợ TN True Negative TP True Positive SMOTE WEKA Waikato Environment for Knowledge Acquisition Số lượng phần tử lớp đa số phân loại xác Số lượng phần tử lớp thiểu số phân loại xác Cơng cụ kiểm thử học máy vii DANH MỤC BẢNG Bảng 1.1 Một số liệu cân .12 Bảng 3.1 Các thuộc tính liệu Pima-indians-diabetes 42 Bảng 3.2 Kết phân lớp trước xử lý liệu cân 48 Bảng 3.3 Kết phân lớp sau xử lý liệu cân với thuật toán DECSVM 48 Bảng 3.4 Kết phân lớp sau xử lý liệu cân với thuật toán HMU 49 Bảng 3.5 Kết phân lớp sau xử lý liệu cân với thuật toán HBU 49 Bảng 3.6 Kết phân lớp sau xử lý liệu cân với thuật toán RBU 50 Bảng 3.7 Bảng tổng hợp kết phân lớp trước sau xử lý liệu cân 50 viii DANH MỤC HÌNH Hình 1.1 Mơ hình mơ tả tốn phân lớp liệu .4 Hình 1.2 Quá trình phân lớp liệu - (a) Bước xây dựng mô hình phân lớp Hình 1.3 Quá trình phân lớp liệu - (b1) Ước lượng độ xác mơ hình Hình 1.4 Q trình phân lớp liệu - (b2) Phân lớp liệu Hình 1.5 Các số đánh giá mơ hình phân lớp Hình 1.6 Biểu đồ mơ tả tỷ lệ chênh lệch lớp thiểu số đa số 12 Hình 1.7 Phương pháp sinh ngẫu nhiên phần tử lớp thiểu số 15 Hình 1.8 Sinh thêm phần tử nhân tạo thuật tốn SMOTE .16 Hình 1.9 Loại bỏ phần tử lớp đa số 16 Hình 1.10 Biểu đồ mơ tả liệu cân 19 Hình 1.11 Minh họa tập hợp tập liệu lấy mẫu 20 Hình 2.1 Minh họa phân cụm tập liệu cân 25 Hình 2.2 Phân bố liệu 36 Hình 2.3 Xác định k - láng giềng 37 Hình 2.4 Các phần tử biên .38 Hình 2.5 Xóa phần tử biên 38 Hình 3.1 Mơ hình thử nghiệm 44 Hình 3.2 Màn hình khởi động Weka 45 Hình 3.3 Biểu đồ so sánh độ xác phân lớp liệu trước sau xử lý liệu cân 51 Hình 3.4 Biểu đồ kết phân lớp lớp Negative trước sau xử lý liệu cân 51 Hình 3.5 Biểu đồ kết phân lớp lớp Positive trước sau xử lý liệu cân 52 41 CHƯƠNG ỨNG DỤNG Trong chương luận văn nghiên cứu ứng dụng thuật toán khảo sát chương để thực thử nghiệm phân lớp cho liệu bệnh tiểu đường 3.1 Khảo sát lựa chọn liệu để thử nghiệm 3.1.1 Giới thiệu Bệnh tiểu đường thời đại bệnh thường gặp nhiều nước giới Ở số nước, số người mắc bệnh chiếm tỉ lệ tới 10% dân số số người mắc bệnh ngày tăng cao Phần lớn bệnh nhân mắc chứng tiểu đường type tỉ lệ người bệnh tăng cao liên quan trực tiếp với cách sống sống đại ngày Một thí dụ điển hình số phận người Ấn Độ Pima Các bác sỹ phát người da đỏ có gien tiềm ẩn bệnh tiểu đường type Hiện người Pima sống hai vùng khác biệt Nhóm phía nam sống Mexicô, họ giữ nhiều tập tục sống cổ xưa Họ phải hoạt động nhiều để thu hái lượng thức ăn hoi sa mạc, sống nghề nơng, đánh cá vất vả Nhóm phía bắc sống Mỹ, thuộc bang Arizona Nhóm sống theo phong cách Mỹ: họ làm ô tô, mua đồ siêu thị, hoạt động ít, ăn uống đầy đủ Khi nhìn vào tình trạng sức khỏe hai nhóm tộc thấy phong cách sống ảnh hưởng tới sức khỏe người lớn Trong người thuộc nhóm phía nam có vóc dáng nhỏ nhắn, khỏe mạnh, người thuộc nhóm phía bắc giữ kỷ lục giới béo phì bệnh tiểu đường, tỉ lệ mắc bệnh tiểu đường người trưởng thành đạt 50 %, tỉ lệ cho người 60 tuổi 80% Trong thể người da đỏ có loại gien làm cho tế bào nhậy cảm với insulin (hiện tượng nhờn nhẹ với insulin) mà hậu tế bào chuyển hóa lượng đường thành lượng Trong thời kỳ thiếu thức ăn, 42 khả ưu điểm: làm cho thể phải thích nghi với lượng lượng nhỏ khơng khơng chuyển hóa tế bào thành lượng để hoạt động Việc khám phá kiến thức từ sở liệu y tế quan trọng để giúp chẩn đoán y tế hiệu Mục đích khai thác liệu trích xuất kiến thức từ thơng tin lưu trữ sở liệu tạo mô tả rõ ràng dễ hiểu mẫu Trong phần này, luận văn lựa chọn Bộ liệu bệnh tiểu đường người Indian Pima (Pima Indians Diabetes dataset) [18] để thực ứng dụng thuật toán khảo sát chương cho toán phân lớp liệu nhị phân: lớp bệnh nhân mắc không mắc bệnh tiểu đường 3.1.2 Mô tả liệu Pima-indians-diabetes Bộ liệu bệnh tiểu đường người Indian Pima, Vincent Sigillito tài trợ, tập hợp báo cáo chẩn đoán y tế từ 768 hồ sơ bệnh nhân nữ 21 tuổi người Indian Pima, dân số sống gần Phoenix, Arizona, Hoa Kỳ Trong số chín thuộc tính, sáu thuộc tính mơ tả kết kiểm tra thể chất, phần cịn lại thuộc tính kiểm tra hóa học Biến phân lớp (tiểu đường = (có mắc bệnh), tiểu đường = (không mắc bệnh)), biểu thị biến thứ Mục đích sử dụng biến để dự đoán giá trị biến thứ Các thuộc tính liệu Pima-indians-diabetes mô tả chi tiết Bảng 3.1 [18] Bảng 3.1 Các thuộc tính liệu Pima-indians-diabetes TT Tên thuộc tính Pregnancies Mơ tả Số lần mang thai Nồng độ glucose huyết tương 2h Glucose xét nghiệm dung nạp glucose đường uống Tính chất 43 TT Tên thuộc tính Mơ tả BloodPressure Huyết áp tâm trương (mm Hg) Skinthickness Độ dày nếp gấp da (mm) Insulin Huyết (mu U / ml) BMI Chỉ số khối thể Diabetespedigree Chức phả hệ tiểu đường Age Tuổi (năm) Outcome Thuộc tính phân lớp (0,1) Tính chất Các kỹ thuật xử lý liệu, áp dụng trước khai thác, cải thiện đáng kể chất lượng tổng thể mẫu khai thác thời gian cần thiết cho khai thác thực tế Tiền xử lý liệu bước quan trọng, định chất lượng phải dựa liệu chất lượng Trong 768 trường hợp, bệnh nhân có glucose 0, 11 bệnh nhân có số khối thể 0, 28 người khác có huyết áp tâm trương 0, 192 người khác có số độ dày nếp gấp da 0, 140 người khác có nồng độ insulin huyết điều khơng thể Sau xóa trường hợp này, có 392 trường hợp khơng có giá trị thiếu (130 trường hợp dương tính kiểm tra 262 trường hợp âm tính) 3.2 Xây dựng kịch lựa chọn công cụ thử nghiêm 3.2.1 Xây dựng kịch thử nghiệm Trong mục này, luận văn thực thử nghệm với toán sau: Dữ liệu đầu vào: (1) Bộ liệu pima-indians-diabetes (2) Các thuật toán thử nghiệm: - Thuật toán DEC-SVM - Thuật toán HMU-SVM 44 - Thuật toán HBU-SVM - Thuật tốn RBU-SVM Dữ liệu ra: Các tiêu chí, kết đánh giá hiệu thuật toán nghiên cứu chương áp dụng vớ liệu pima-indians-diabetes Luận văn tiến hành thử nghiệm theo hai kịch trình bày Kịch thứ nhất: Trong kịch thứ nhất, luận văn thực sử dụng thuật toán SVM để phân lớp liệu với liệu chọn mà không sử dụng thuật toán tiền xử lý liệu cân Kịch thứ hai: Trong kịch thứ hai, luận văn thực phân lớp liệu sau xử lý liệu cân sử dụng thuật tốn xử lý liệu cân 3.2.2 Mơ hình thử nghiệm Mơ hình tiến hành thử nghiệm mơ tả hình 3.1 Hình 3.1 Mơ hình thử nghiệm Trong mơ hình trên, thuật tốn tiền xử lý liệu lựa chọn DEC-SVM, HMU, HBU RBU 45 3.2.3 Lựa chọn công cụ thử nghiệm Weka phần mềm miễn phí học máy viết Java, phát triển University of Wekato Weka coi sưu tập thuật toán học máy dùng phân tích khai phá liệu Các thuật toán xây dựng sẵn người dùng việc lựa chọn để sử dụng Do Weka thích hợp cho việc thử nghiệm mơ hình mà khơng thời gian để xây dựng chúng Weka có giao diện sử dụng đồ họa trực quan chế độ command line Ngồi thuật tốn học máy dự đoán, phân loại, phân cụm, Weka cịn có cơng cụ để trực quan hóa liệu hữu ích q trình nghiên cứu, phân tích liệu lớn Từ lý trên, luận văn lựa chọn công cụ thực nghiêm phần mềm Weka version 3.7.12 [19] Hình 3.2 Màn hình khởi động Weka Các tính Weka: - Weka bao gồm tập công cụ tiền xử lý liệu, thuật toán học máy để khai phá liệu phương pháp thử nghiệm đánh giá - Weka có giao diện đồ họa (gồm tính hiển thị hóa liệu) - Weka bao gồm mơi trường cho phép so sánh thuật tốn học máy liệu người dùng lựa chọn Các mơi trường Weka: 46 (1) Simple CLI : giao diện đơn giản kiểu dòng lệnh ( MS-DOS) (2) Explorer : môi trường cho phép sử dụng tất khả Weka để khám phá liệu (3) Experimenter: môi trường cho phép tiến hành thí nghiệm thực kiểm tra thống kê (statistical tests) mơ hình máy học Môi trường bao gồm:  Preprocess: Để chọn thay đổi (xử lý) liệu làm việc  Classify: Để huấn luyện kiểm tra mơ hình học máy (phân loại, hồi quy/dự đoán)  Cluster: Để học nhóm từ liệu (phân cụm)  Associate: Để khám phá luật kết hợp từ liệu  Select attributes: Để xác định lựa chọn thuộc tính liên quan (quan trọng) liệu  Visualize: Để xem (hiển thị) biểu đồ tương tác chiều liệu (4) KnowledgerFlow: môi trường cho phép bạn tương tác đồ họa kiểu kéo/ thả để thiết kế bước(các thành phần) thí nghiệm Để tiến hành thử nghiệm, cần lựa chọn “Explorer”: giao diện cho phép sử dụng tất chức sở Weka cách lựa chọn menu Để đánh giá hiệu phân loại cần lựa chọn tùy chọn cho việc kiểm tra (test options) bao gồm: - Use training set: Bộ phân loại học đánh giá tập học - Supplied test set: Sử dụng tập liệu khác (với tập huấn luyện) việc đánh giá - Cross-validation: Tập liệu chia thành k tập (folds) có kích thước xấp xỉ nhau, phân loại học đánh giá phương pháp cross-validation - Percentage split Chỉ định tỷ lệ phân chia tập liệu 47 3.3 Thử nghiệm đánh giá kết thử nghiệm 3.3.1 Mô tả thử nghiệm Máy tính sử dụng cho q trình chạy Weka để đánh giá hiệu thuật toán laptop có cấu hình: - Bộ xử lý Intel -Core i3 4005U, - RAM: 4GB Bộ công cụ weka phiên 3.7.12 Bộ liệu thử nghiệm pima-indians-diabetes.csv gồm 768 ghi, thuộc tính Các thuật tốn thử nghiêm: - Thuật toán DEC-SVM - Thuật toán HBU - Thuật toán HMU - Thuật toán RBU Thực thử nghiệm theo hai kịch nêu mục 3.2.1 Các bước thực hiên sau: Bước 1: Chuẩn hóa liệu Filter standardize Weka Dữ liệu xử lý để có kỳ vọng có độ lệch chuẩn Việc chuẩn hóa giúp thuật tốn khơng bị thiên lệch số đặc trưng giúp trình học hội tụ nhanh Đối với kịch 2: thực bước Bước 2: Cân liệu thuật toán đề xuất (RBU, HBU, HMU, DEC-SVM) Bước 3: Với liệu thu được, thực phân lớp thuật toán SVM Weka 3.3.2 Kết thử nghiệm Trong mục luận văn trình bày số kết chạy Weka Do giới hạn số trang luận văn nên nêu chi tiết thao tác 48 (1) Kết phân lớp trước xử lý liệu cân theo kịch Kết phân lớp trước xử lý liệu cân sử dụng thuật tốn SVM trình bày bảng 3.2 Bảng 3.2 Kết phân lớp trước xử lý liệu cân sử dụng thuật toán SVM === Detailed Accuracy By Class TP Rate FP Rate Precision 0.866 0.448 0.783 0.552 0.134 0.688 0.757 0.338 0.75 === Recall 0.866 0.552 0.757 F-Measure 0.822 0.613 0.749 ROC Area 0.709 0.709 0.709 Class Avg === Confusion Matrix === a b < classified as 433 67 | a = 120 148 | b = (2) Kết phân lớp sau xử lý liệu cân theo kịch Kết phân lớp sau xử lý liệu cân với thuật tốn DEC-SVM trình bày bảng 3.3 Bảng 3.3 Kết phân lớp sau xử lý liệu cân với thuật toán DEC-SVM === Detailed Accuracy By Class === TP Rate 0.757 0.787 0.772 FP Rate 0.213 0.243 0.228 Precision 0.775 0.77 0.772 Recall 0.757 0.787 0.772 F-Measure 0.766 0.778 0.772 ROC Area 0.772 0.772 0.772 Class Avg === Confusion Matrix === a b < classified as 355 114 | a = 103 381 | b = Kết phân lớp sau xử lý liệu cân với thuật tốn HMU trình bày bảng 3.4 49 Bảng 3.4 Kết phân lớp sau xử lý liệu cân với thuật toán HMU === Detailed Accuracy By Class === TP Rate 0.741 0.813 0.777 FP Rate 0.187 0.259 0.223 Precision 0.8 0.757 0.779 Recall 0.741 0.813 0.777 F-Measure 0.769 0.784 0.777 ROC Area Class 0.777 0.777 0.777 Avg === Confusion Matrix === a b < classified as 200 70 | a = 50 218 | b = Kết phân lớp sau xử lý liệu cân với thuật tốn HBU trình bày bảng 3.5 Bảng 3.5 Kết phân lớp sau xử lý liệu cân với thuật toán HBU === Detailed Accuracy By Class === TP Rate 0.866 0.854 0.86 FP Rate 0.146 0.134 0.14 Precision 0.856 0.864 0.86 Recall 0.866 0.854 0.86 F-Measure 0.861 0.859 0.86 ROC Area 0.86 0.86 0.86 Class Avg === Confusion Matrix === a b < classified as 232 36 | a = 39 229 | b = Kết phân lớp sau xử lý liệu cân với thuật tốn RBU trình bày bảng 3.6 50 Bảng 3.6 Kết phân lớp sau xử lý liệu cân với thuật toán RBU === Detailed Accuracy By Class === TP Rate 0.906 0.698 0.826 FP Rate 0.302 0.094 0.222 Precision 0.827 0.824 0.825 Recall 0.906 0.698 0.826 F-Measure 0.865 0.756 0.822 ROC Area 0.802 0.802 0.802 Class Avg === Confusion Matrix === a b < classified as 386 40 | a = 81 187 | b = Kết phân lớp trước sau xử lý liệu cân với thuật toán DEC-SVM, HBU, HMU, RBU tổng hợp theo bảng 3.7 Bảng 3.7 Bảng tổng hợp kết phân lớp trước sau xử lý liệu cân Thuật toán Negative accuracy Positive (%) Pre Rec F1 Pre Rec F1 ORIGINAL 75.65 78.3 86.6 82.2 68.8 55.2 61.3 DEC-SVM 77.23 77.5 75.7 76.6 77.0 78.7 77.8 HBU-SVM 86.01 85.6 86.6 86.1 86.4 85.4 85.9 HMU-SVM 77.70 80 74.1 76.9 75.7 81.3 78.4 RBU 82.56 82.7 90.6 86.5 82.4 69.8 75.6 3.3.3 Đánh giá kết thử nghiệm Dựa vào kết thử nghiệm trình bày mục trên, mục luận văn thực phân tích đánh giá kết Kết độ xác thuật toán thử nghiệm theo hai kịch biểu diễn dạng biểu đồ hình 3.3 51 Hình 3.3 Biểu đồ so sánh độ xác phân lớp liệu trước sau xử lý liệu cân Quan sát biểu đồ hình 3.3 nhận thấy rằng, thuật tốn thử nghiệm cho kết có tỉ lệ phân loại xác cao so với liệu ban đầu chưa áp dụng thuật tốn Hình 3.4 Biểu đồ kết phân lớp lớp Negative trước sau xử lý liệu cân 52 Hình 3.5 Biểu đồ kết phân lớp lớp Positive trước sau xử lý liệu cân Từ kết ta thấy sau điều chỉnh liệu thuật toán tiền xử lý liệu cân DEC-SVM, HBU, HMU, RBU hiệu phân lớp liệu cao hẳn so với việc phân lớp liệu ban đầu Các thuật tốn khảo sát kết hợp với số kỹ thuật trích chọn đặc trưng phù hợp cho kết tốt hơn, đặc biệt với tập liệu có kích thước lớn 3.4 Kết luận chương Trong chương luận văn tiến hành thử nghiệm thuật toán DEC-SVM, HMU, HBU RBU cho toán phân lớp liệu liệu cân cho liệu chứng tiểu đường người Indian Pima Kết thử nghiệm bước đầu cho thấy thuật toán phân lớp triển khai thực tế phù hợp với yêu cầu đề cho toán phân lớp liệu liệu cân 53 KẾT LUẬN Kết đạt luận văn Với mục tiêu nghiên cứu số kỹ thuật để nâng cao hiệu phân lớp liệu tập liệu cân ứng dụng, luận văn đạt số kết sau: - Nghiên cứu tổng quan toán phân lớp liệu vấn đề liên quan - Khảo sát tổng quan liệu cân - Khảo sát hướng tiếp cận liệu hướng tiếp cận thuật toán để nâng cao hiệu phân lớp liệu liệu cân - Khảo sát chi tiết thuật toán: DEC-SVM, HMU, HBU RBU - Khảo sát liệu bệnh tiểu đường pima-indians-diabetes - Thực thử nghiệm phân lớp liệu với DEC-SVM, HMU, HBU RBU liệu pima-indians-diabetes Kết thử nghiệm cho thấy hiệu phân lớp liệu sau sử dụng thuật toán khảo sát Tuy nhiên, hạn chế mặt thời gian, luận văn chưa tiến hành thử nghiệm với liệu lớn, Do đó, hiệu thử nghiệm chưa cao Hướng phát triển Trên sở nghiên cứu kết đạt được, đề tài luận văn phát triển sau: - Tiếp tục hoàn thiện kết có để xây dựng mơ hình phân lớp liệu cân với liệu thực tế thường có kích thước lớn, thuộc tính phần tử liệu thường bao gồm dạng số dạng phi số - Nghiên cứu thêm kỹ thuật trích chọn đặc trưng cho liệu cân nhằm nâng cao hiệu cho mơ hình phân lớp 54 DANH MỤC CÁC TÀI LIỆU THAM KHẢO TÀI LIỆU TIẾNG VIỆT [1] Nguyễn Thị Lan Anh (2017) Thuật toán HMU toán phân lớp liệu cân Tạp chí Khoa học Giáo dục, Trường Đại học Sư phạm Huế, 2, 101–108 [2] Nguyễn Thị Lan Anh (2018) Phân lớp liệu cân với thuật tốn HBU Tạp chí Khoa học Giáo dục, Trường Đại học Sư phạm Huế, 4, 110–116 [3] Bùi Dương Hưng,, Đặng Xuân Thọ, Vũ Văn Thỏa (2019) KSI - Phương pháp phân cụm với lọc ngẫu nhiên để loại bỏ nhiễu liệu cân bằng, Tạp chí Khoa học cơng nghệ thơng tin truyền thông, Học viện Công nghệ thông tin truyền thông, 01, 55-60 [4] Phạm Thị Hường, Phạm Văn Kiên, Đỗ Ngọc Quỳnh (2017)- Phương pháp DEC-SVM phân lớp liệu cân [5] Bùi Minh Quân, Phạm Xuân Hiền, Huỳnh Xuân Diệp (2013) Nâng cao độ xác phân loại lớp mẫu từ tập liệu cân bằng, Tạp chí Khoa học Trường đại học Cần Thơ [6] Nguyễn Mai Phương, Trần Thị Ánh Tuyết, Nguyễn Thị Hồng, Đặng Xuân Thọ (2015), Random Border Undersampling: Thuật toán giảm phần tử ngẫu nhiên đường biên liệu cân bằng, Kỷ yếu FAIR, 612-619 TÀI LIỆU TIẾNG ANH [7] Han J., Kamber M (2011) – “Data mining: Concepts and Techniques” 3nd Edition, Morgan Kaufman Publishers [8] Sain, H & Purnami, S W (2015) Combine Sampling Support Vector Machine for Imbalanced Data Classification Procedia Comput Sci 72, 59–66 [9] Leichen Chen, Zhihua Cai, Lu Chen (2010), A Novel Different Evolution- Clustering Hybrid Resampling Algorithm on Imbalanced Datasets”, in: Knowledge Discovery and Data Mining, 2010 WKDD 55 '10 Third International Conference, 81-85 [10] Chumphol Bunkhumpornpat, Krung Sinapiromsaran, Chidchanok Lursinsap (2009), “Safe-Level-SMOTE: Safe-Level- Synthetic Minority Over Sampling Technique for Handling the Class Imbalanced Problem”, in Advances in Knowledge Discovery and Data Mining: Springer-Verlag Berlin Heidelberg, vol 5476, pp 475-482 [11] Mikel Galar, Alberto Fernandez, Edurne Barrenechea, Humberto Bustince (2011), “A Review on Ensembles for the Class Imbalance Problem: Bagging – Boosting, and Hybrid-Based Approaches”, IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, vol 42, no 4, pp.463-484 [12] Han Hui, Wang Wen-Yuan, and Mao Bing- Huan (2005), "BorderlineSMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning," in ICIC 2005, pp 878-887 [13] Sotiris Kotsiantis, Dimitris Kanellopoulos, Panayiotis Pintelas (2006), “Handling imbalanced datasets: A review”, GESTS International Transactions on Computer Science and Engineering, vol.30 [14] Xu - Ying Liu, Jianxin Wu, and Zhi-Hua Zhou (2006), Exploratory Undersampling for Class-Imbalance Learning, 6th IEEE International Conference onData Mining (ICDM'06), 965-969 [15] T M Mitchell [1997] – “Machine Learning”, McGraw-Hill [16] Sun Yanmin, Wong Andrew K C., and Kamel Mohamed S.(2009), "Classification of imbalanced data: A review", International Journal of Pattern Recognition and Artificial Intelligence, vol 23, pp 687–719 Trang WEB [17] https://archive.ics.uci.edu/ml/datasets/Diabetes [18] https://en.wikipedia.org/wiki/Precision_and_recal [19] https://sourceforge.net/projects/weka/ ... tên ? ?Nghiên cứu phân lớp liệu cân ứng dụng? ?? Mục tiêu luận văn nghiên cứu số kỹ thuật để nâng cao hiệu phân lớp liệu tập liệu cân ứng dụng Đối tượng nghiên cứu luận văn toán phân lớp liệu liệu cân. .. TOÁN PHÂN LỚP DỮ LIỆU TRÊN CÁC DỮ LIỆU MẤT CÂN BẰNG 1.1 Giới thiệu toán phân lớp liệu 1.1.1 Khái niệm phân lớp liệu toán phân lớp liệu 1.1.2 Quy trình thực phân lớp liệu: ... toán phân lớp liệu, học máy, liệu cân vấn đề liên quan 1.1 Giới thiệu toán phân lớp liệu 1.1.1 Khái niệm phân lớp liệu toán phân lớp liệu  Phân lớp liệu: Phân lớp liệu( classification) hướng nghiên

Nghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụng

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan