Nghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụng

64 28 0
Nghiên cứu  phân lớp trên dữ  liệu mất cân bằng và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngNghiên cứu phân lớp trên dữ liệu mất cân bằng và ứng dụngv

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN MINH HÀ NGHIÊN CỨU PHÂN LỚP TRÊN DỮ LIỆU MẤT CÂN BẰNG VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2020 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN MINH HÀ NGHIÊN CỨU PHÂN LỚP TRÊN DỮ LIỆU MẤT CÂN BẰNG VÀ ỨNG DỤNG CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 8.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS VŨ VĂN THỎA HÀ NỘI - 2020 i LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu tơi Nội dung luận văn có tham khảo sử dụng tài liệu, thông tin đăng tải tạp chí trang web theo danh mục tài liệu tham khảo Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà nội, ngày tháng năm 2020 Người cam đoan Nguyễn Minh Hà ii LỜI CẢM ƠN Trong thời gian thực luận văn này, Học viên nhận hướng dẫn, bảo tận tình Thầy giáo - TS Vũ Văn Thỏa, giảng viên Khoa Công nghệ thông tin cán trực tiếp hướng dẫn khoa học Thầy dành nhiều thời gian việc hướng dẫn học viên cách đọc tài liệu, thu thập đánh giá thơng tin phương pháp nghiên cứu để hồn thành luận văn cao học Học viên xin chân thành cảm ơn Thầy, Cô giáo công tác Học viện Cơng nghệ Bưu Viễn thơng ln nhiệt tình giúp đỡ tạo điều kiện tốt cho học viên suốt trình học tập trường Xin chân thành cảm ơn anh, chị bạn học viên lớp Cao học động viên, giúp đỡ nhiệt tình chia sẻ với học viên kinh nghiệm học tập, công tác suốt khoá học Học viên xin chân thành cảm ơn đồng chí lãnh đạo bạn đồng nghiệp quan tạo điều kiện tốt để học viên hồn thành tốt đẹp khoá học Cao học Học viên xin chân thành cảm ơn ! Hà Nội, ngày tháng năm 2020 Người viết Nguyễn Minh Hà iii MỤC LỤC LỜI CAM ĐOAN i MỞ ĐẦU .1 CHƯƠNG TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP DỮ LIỆU TRÊN CÁC DỮ LIỆU MẤT CÂN BẰNG .3 1.1 Giới thiệu toán phân lớp liệu 1.2 Dữ liệu cân 11 1.3 Tổng quan kỹ thuật xử lý liệu cân 14 1.4 Kết luận chương 21 CHƯƠNG MỘT SỐ THUẬT TOÁN PHÂN LỚP DỮ LIỆU .22 2.1 Thuật toán DEC - SVM 22 2.2 Thuật toán HMU 29 2.3 Thuật toán HBU 34 2.4 Thuật toán RBU 36 2.5 Kết luận chương .40 CHƯƠNG ỨNG DỤNG 41 3.1 Khảo sát lựa chọn liệu để thử nghiệm 41 3.2 Xây dựng kịch lựa chọn công cụ thử nghiêm 43 3.3 Thử nghiệm đánh giá kết thử nghiệm 46 3.4 Kết luận chương 52 KẾT LUẬN 53 iv DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT Viết tắt AUC Tiếng Anh Area Under the Curve Differential Evolution DEC-SVM Clustering Support Vector Machines Tiếng việt Diện tích nằm đường cong ROC Phân cụm tiến hóa khác biệt hỗ trợ máy vec-tơ Số lượng phần tử lớp thiểu số bị FN False Negative phân loại nhầm phần tử lớp đa số FP HBU False Positive Hypothesis margin based Borderline Under-sampling Số lượng phần tử lớp đa số bị phân loại nhầm phần tử lớp đa số Giảm phần tử dựa vào giá trị lề giả thuyết ưu tiên loại bỏ phần tử nằm biên Hypothesis Margin based Giảm phần tử dựa vào giá trị lề giả Undersampling thuyết Knowledge Discovery and Phát tri thức khai phá Data Mining liệu K-NN K-nearest neighbors K láng giềng gần RBU Random border undersampling HMU KDD ROC SMOTE SVM Giảm phần tử ngẫu nhiên đường biên Receiver operating Đường cong đặc trưng hoạt động characteristic thu nhận Synthetic Minority Over- Phương pháp sinh thêm mẫu nhân sampling Technique tạo lớp thiểu số Support Vector Machines Máy véc tơ hỗ trợ v TN True Negative TP True Positive WEKA Waikato Environment for Knowledge Acquisition Số lượng phần tử lớp đa số phân loại xác Số lượng phần tử lớp thiểu số phân loại xác Cơng cụ kiểm thử học máy vi DANH MỤC BẢNG Bảng 1.1 Một số liệu cân 12 Bảng 3.2 Các thuộc tính liệu Pima-indians-diabetes .42 Bảng 3.3 Kết phân lớp trước xử lý liệu cân 47 Bảng 3.4 Kết phân lớp sau xử lý liệu cân với thuật toán DEC-SVM 48 Bảng 3.5 Kết phân lớp sau xử lý liệu cân với thuật toán HMU .48 Bảng 3.6 Kết phân lớp sau xử lý liệu cân với thuật toán HBU 49 Bảng 3.7 Kết phân lớp sau xử lý liệu cân với thuật toán RBU 49 Bảng 3.8 Bảng tổng hợp kết phân lớp trước sau xử lý liệu cân .50 vii DANH MỤC HÌNH Hình 1.1 Mơ hình mơ tả toán phân lớp liệu .4 Hình 1.2 Quá trình phân lớp liệu - (a) Bước xây dựng mơ hình phân lớp Hình 1.3 Quá trình phân lớp liệu - (b1) Ước lượng độ xác mơ hình Hình 1.4 Quá trình phân lớp liệu - (b2) Phân lớp liệu .6 Hình 1.5 Các số đánh giá mơ hình phân lớp Hình 1.6 Biểu đồ mơ tả tỷ lệ chênh lệch lớp thiểu số đa số 12 Hình 1.7 Phương pháp sinh ngẫu nhiên phần tử lớp thiểu số 15 Hình 1.8 Sinh thêm phần tử nhân tạo thuật toán SMOTE .16 Hình 1.9 Loại bỏ phần tử lớp đa số 16 Hình 1.10 Biểu đồ mơ tả liệu cân 19 Hình 1.11 Minh họa tập hợp tập liệu lấy mẫu 20 Hình 2.12 Minh họa phân cụm tập liệu cân 25 Hình 2.13 Phân bố liệu 36 Hình 2.14 Xác định k - láng giềng 37 Hình 2.15 Các phần tử biên 38 Hình 2.16 Xóa phần tử biên 38 Hình 3.17 Mơ hình thử nghiệm 44 Hình 3.18 Màn hình khởi động Weka 45 Hình 3.19 Biểu đồ so sánh độ xác phân lớp liệu trước sau xử lý liệu cân 51 Hình 3.20 Biểu đồ kết phân lớp lớp Negative trước sau xử lý liệu cân 51 Hình 3.21 Biểu đồ kết phân lớp lớp Positive trước sau xử lý liệu cân 52 MỞ ĐẦU Trong năm gần đây, vấn đề học máy từ liệu phân bố không cân thách thức lớn cho nhà nghiên cứu nhiều miền ứng dụng thực tế: mạng internet, bảo mật, viễn thơng, quản lý tài tin sinh học… Việc phân tích hiểu liệu thơ mục đích hệ thống xử lý hỗ trợ định ngày đóng vai trị quan trọng trở nên cần thiết Chúng áp dụng đạt nhiều thành công to lớn nhiều ứng dụng sống khai phá tri thức, kỹ thuật xử lý liệu, nhiều ứng dụng khác Tuy nhiên, năm gần với xuất liệu phân bố cân trở thành nguyên nhân gây nhiều khó khăn ảnh hưởng đến thuật toán học máy chuẩn, thuật toán thiết kế áp dụng vào ứng dụng liệu phân bố cân Khi thuật toán chuẩn áp dụng vào liệu cân bằng, chúng xử lý liệu cách lệch lạc, dẫn đến khơng đạt độ xác cao lớp liệu Thêm vào đó, vấn đề phân bố liệu cân ngày trở nên quan trọng thực tế, với lượng lớn ứng dụng Do vấn đề nhận quan tâm từ quỹ tài trợ phủ, viện nghiên cứu, sở cơng nghiệp… Khi áp dụng thuật tốn phân lớp truyền thống lên tập liệu cân bằng, hầu hết phần tử thuộc lớp đa số phân lớp phần tử thuộc lớp thiểu số gán nhãn lớp nhãn lớp lớp đa số Điều dẫn đến kết độ xác (accuracy) việc phân lớp cao, giá trị độ nhạy (sensitivity) lại thấp Xuất phát từ thực tế mục tiêu trên, học viên chọn thực đề tài luận văn tốt nghiệp chương trình đào tạo thạc sĩ có tên “Nghiên cứu phân lớp liệu cân ứng dụng” Mục tiêu luận văn nghiên cứu số kỹ thuật để nâng cao hiệu phân lớp liệu tập liệu cân ứng dụng Đối tượng nghiên cứu luận văn toán phân lớp liệu liệu cân vấn đề liên quan 41 CHƯƠNG ỨNG DỤNG Trong chương luận văn nghiên cứu ứng dụng thuật toán khảo sát chương để thực thử nghiệm phân lớp cho liệu bệnh tiểu đường 3.1 Khảo sát lựa chọn liệu để thử nghiệm 3.1.1 Giới thiệu Bệnh tiểu đường thời đại bệnh thường gặp nhiều nước giới Ở số nước, số người mắc bệnh chiếm tỉ lệ tới 10% dân số số người mắc bệnh ngày tăng cao Phần lớn bệnh nhân mắc chứng tiểu đường type tỉ lệ người bệnh tăng cao liên quan trực tiếp với cách sống sống đại ngày Một thí dụ điển hình số phận người Ấn Độ Pima Các bác sỹ phát người da đỏ có gien tiềm ẩn bệnh tiểu đường type Hiện người Pima sống hai vùng khác biệt Nhóm phía nam sống Mexicô, họ giữ nhiều tập tục sống cổ xưa Họ phải hoạt động nhiều để thu hái lượng thức ăn hoi sa mạc, sống nghề nơng, đánh cá vất vả Nhóm phía bắc sống Mỹ, thuộc bang Arizona Nhóm sống theo phong cách Mỹ: họ làm ô tô, mua đồ siêu thị, hoạt động ít, ăn uống đầy đủ Khi nhìn vào tình trạng sức khỏe hai nhóm tộc thấy phong cách sống ảnh hưởng tới sức khỏe người lớn Trong người thuộc nhóm phía nam có vóc dáng nhỏ nhắn, khỏe mạnh, người thuộc nhóm phía bắc giữ kỷ lục giới béo phì bệnh tiểu đường, tỉ lệ mắc bệnh tiểu đường người trưởng thành đạt 50 %, tỉ lệ cho người 60 tuổi 80% Trong thể người da đỏ có loại gien làm cho tế bào nhậy cảm với insulin (hiện tượng nhờn nhẹ với insulin) mà hậu tế bào chuyển hóa lượng đường thành lượng Trong thời kỳ thiếu thức ăn, 42 khả ưu điểm: làm cho thể phải thích nghi với lượng lượng nhỏ khơng khơng chuyển hóa tế bào thành lượng để hoạt động Việc khám phá kiến thức từ sở liệu y tế quan trọng để giúp chẩn đoán y tế hiệu Mục đích khai thác liệu trích xuất kiến thức từ thơng tin lưu trữ sở liệu tạo mô tả rõ ràng dễ hiểu mẫu Trong phần này, luận văn lựa chọn Bộ liệu bệnh tiểu đường người Indian Pima (Pima Indians Diabetes dataset) [18] để thực ứng dụng thuật toán khảo sát chương cho toán phân lớp liệu nhị phân: lớp bệnh nhân mắc không mắc bệnh tiểu đường 3.1.2 Mô tả liệu Pima-indians-diabetes Bộ liệu bệnh tiểu đường người Indian Pima, Vincent Sigillito tài trợ, tập hợp báo cáo chẩn đoán y tế từ 768 hồ sơ bệnh nhân nữ 21 tuổi người Indian Pima, dân số sống gần Phoenix, Arizona, Hoa Kỳ Trong số chín thuộc tính, sáu thuộc tính mơ tả kết kiểm tra thể chất, phần cịn lại thuộc tính kiểm tra hóa học Biến phân lớp (tiểu đường = (có mắc bệnh), tiểu đường = (không mắc bệnh)), biểu thị biến thứ Mục đích sử dụng biến để dự đoán giá trị biến thứ Các thuộc tính liệu Pima-indians-diabetes mô tả chi tiết Bảng 3.1 [18] Bảng 3.2 Các thuộc tính liệu Pima-indians-diabetes TT Tên thuộc tính Mơ tả Pregnancies Số lần mang thai Nồng độ glucose huyết tương 2h Glucose xét nghiệm dung nạp glucose BloodPressure Skinthickness đường uống Huyết áp tâm trương (mm Hg) Độ dày nếp gấp da (mm) Tính chất 43 TT Tên thuộc tính Insulin BMI Diabetespedigree Age Outcome Mơ tả Tính chất Huyết (mu U / ml) Chỉ số khối thể Chức phả hệ tiểu đường Tuổi (năm) Thuộc tính phân lớp (0,1) Các kỹ thuật xử lý liệu, áp dụng trước khai thác, cải thiện đáng kể chất lượng tổng thể mẫu khai thác thời gian cần thiết cho khai thác thực tế Tiền xử lý liệu bước quan trọng, định chất lượng phải dựa liệu chất lượng Trong 768 trường hợp, bệnh nhân có glucose 0, 11 bệnh nhân có số khối thể 0, 28 người khác có huyết áp tâm trương 0, 192 người khác có số độ dày nếp gấp da 0, 140 người khác có nồng độ insulin huyết điều khơng thể Sau xóa trường hợp này, có 392 trường hợp khơng có giá trị thiếu (130 trường hợp dương tính kiểm tra 262 trường hợp âm tính) 3.2 Xây dựng kịch lựa chọn công cụ thử nghiêm 3.2.1 Xây dựng kịch thử nghiệm Trong mục này, luận văn thực thử nghệm với toán sau: Dữ liệu đầu vào: (1) Bộ liệu pima-indians-diabetes (2) Các thuật toán thử nghiệm: - Thuật toán DEC-SVM - Thuật toán HMU-SVM - Thuật toán HBU-SVM - Thuật toán RBU-SVM Dữ liệu ra: Các tiêu chí, kết đánh giá hiệu thuật toán nghiên cứu chương áp dụng vớ liệu pima-indians-diabetes 44 Luận văn tiến hành thử nghiệm theo hai kịch trình bày Kịch thứ nhất: Trong kịch thứ nhất, luận văn thực sử dụng thuật toán SVM để phân lớp liệu với liệu chọn mà không sử dụng thuật toán tiền xử lý liệu cân Kịch thứ hai: Trong kịch thứ hai, luận văn thực phân lớp liệu sau xử lý liệu cân sử dụng thuật tốn xử lý liệu cân 3.2.2 Mơ hình thử nghiệm Mơ hình tiến hành thử nghiệm mơ tả hình 3.1 Hình 3.17 Mơ hình thử nghiệm Trong mơ hình trên, thuật tốn tiền xử lý liệu lựa chọn DEC-SVM, HMU, HBU RBU 3.2.3 Lựa chọn công cụ thử nghiệm Weka phần mềm miễn phí học máy viết Java, phát triển University of Wekato Weka coi sưu tập thuật toán học máy dùng phân tích khai phá liệu Các thuật toán xây dựng sẵn 45 người dùng việc lựa chọn để sử dụng Do Weka thích hợp cho việc thử nghiệm mơ hình mà không thời gian để xây dựng chúng Weka có giao diện sử dụng đồ họa trực quan chế độ command line Ngồi thuật tốn học máy dự đoán, phân loại, phân cụm, Weka cịn có cơng cụ để trực quan hóa liệu hữu ích q trình nghiên cứu, phân tích liệu lớn Từ lý trên, luận văn lựa chọn công cụ thực nghiêm phần mềm Weka version 3.7.12 [19] Hình 3.18 Màn hình khởi động Weka Các tính Weka: - Weka bao gồm tập công cụ tiền xử lý liệu, thuật toán học máy để khai phá liệu phương pháp thử nghiệm đánh giá - Weka có giao diện đồ họa (gồm tính hiển thị hóa liệu) - Weka bao gồm mơi trường cho phép so sánh thuật tốn học máy liệu người dùng lựa chọn Các mơi trường Weka: (1) Simple CLI : giao diện đơn giản kiểu dòng lệnh ( MS-DOS) (2) Explorer : môi trường cho phép sử dụng tất khả Weka để khám phá liệu 46 (3) Experimenter: môi trường cho phép tiến hành thí nghiệm thực kiểm tra thống kê (statistical tests) mơ hình máy học Mơi trường bao gồm: • Preprocess: Để chọn thay đổi (xử lý) liệu làm việc • Classify: Để huấn luyện kiểm tra mơ hình học máy (phân loại, hồi quy/dự đốn) • Cluster: Để học nhóm từ liệu (phân cụm) • Associate: Để khám phá luật kết hợp từ liệu • Select attributes: Để xác định lựa chọn thuộc tính liên quan (quan trọng) liệu • Visualize: Để xem (hiển thị) biểu đồ tương tác chiều liệu (4) KnowledgerFlow: môi trường cho phép bạn tương tác đồ họa kiểu kéo/ thả để thiết kế bước(các thành phần) thí nghiệm Để tiến hành thử nghiệm, cần lựa chọn “Explorer”: giao diện cho phép sử dụng tất chức sở Weka cách lựa chọn menu Để đánh giá hiệu phân loại cần lựa chọn tùy chọn cho việc kiểm tra (test options) bao gồm: - Use training set: Bộ phân loại học đánh giá tập học - Supplied test set: Sử dụng tập liệu khác (với tập huấn luyện) việc đánh giá - Cross-validation: Tập liệu chia thành k tập (folds) có kích thước xấp xỉ nhau, phân loại học đánh giá phương pháp cross-validation - Percentage split Chỉ định tỷ lệ phân chia tập liệu 3.3 Thử nghiệm đánh giá kết thử nghiệm 3.3.1 Mô tả thử nghiệm Máy tính sử dụng cho q trình chạy Weka để đánh giá hiệu thuật tốn laptop có cấu hình: - Bộ xử lý Intel -Core i3 4005U, 47 - RAM: 4GB Bộ công cụ weka phiên 3.7.12 Bộ liệu thử nghiệm pima-indians-diabetes.csv gồm 768 ghi, thuộc tính Các thuật tốn thử nghiêm: - Thuật toán DEC-SVM - Thuật toán HBU - Thuật toán HMU - Thuật toán RBU Thực thử nghiệm theo hai kịch nêu mục 3.2.1 Các bước thực hiên sau: Bước 1: Chuẩn hóa liệu Filter standardize Weka Dữ liệu xử lý để có kỳ vọng có độ lệch chuẩn Việc chuẩn hóa giúp thuật tốn không bị thiên lệch số đặc trưng giúp trình học hội tụ nhanh Đối với kịch 2: thực bước Bước 2: Cân liệu thuật toán đề xuất (RBU, HBU, HMU, DEC-SVM) Bước 3: Với liệu thu được, thực phân lớp thuật toán SVM Weka 3.3.2 Kết thử nghiệm Trong mục luận văn trình bày số kết chạy Weka Do giới hạn số trang luận văn nên nêu chi tiết thao tác (1) Kết phân lớp trước xử lý liệu cân theo kịch Kết phân lớp trước xử lý liệu cân sử dụng thuật toán SVM trình bày bảng 3.2 Bảng 3.3 Kết phân lớp trước xử lý liệu cân sử dụng thuật toán SVM 48 === Detailed Accuracy By Class TP Rate FP Rate Precision 0.866 0.448 0.783 0.552 0.134 0.688 0.757 0.338 0.75 === Recall 0.866 0.552 0.757 F-Measure 0.822 0.613 0.749 ROC Area 0.709 0.709 0.709 Class Avg === Confusion Matrix === a b < classified as 433 67 | a = 120 148 | b = (2) Kết phân lớp sau xử lý liệu cân theo kịch Kết phân lớp sau xử lý liệu cân với thuật toán DEC-SVM trình bày bảng 3.3 Bảng 3.4 Kết phân lớp sau xử lý liệu cân với thuật toán DEC-SVM === Detailed Accuracy By Class === TP Rate 0.757 0.787 0.772 FP Rate 0.213 0.243 0.228 Precision 0.775 0.77 0.772 Recall 0.757 0.787 0.772 F-Measure 0.766 0.778 0.772 ROC Area 0.772 0.772 0.772 Class Avg === Confusion Matrix === a b < classified as 355 114 | a = 103 381 | b = Kết phân lớp sau xử lý liệu cân với thuật tốn HMU trình bày bảng 3.4 Bảng 3.5 Kết phân lớp sau xử lý liệu cân với thuật toán HMU === Detailed Accuracy By Class === TP Rate 0.741 0.813 0.777 FP Rate 0.187 0.259 0.223 Precision 0.8 0.757 0.779 Recall 0.741 0.813 0.777 F-Measure 0.769 0.784 0.777 ROC Area Class 0.777 0.777 0.777 Avg 49 === Confusion Matrix === a b < classified as 200 70 | a = 50 218 | b = Kết phân lớp sau xử lý liệu cân với thuật tốn HBU trình bày bảng 3.5 Bảng 3.6 Kết phân lớp sau xử lý liệu cân với thuật toán HBU === Detailed Accuracy By Class === TP Rate 0.866 0.854 0.86 FP Rate 0.146 0.134 0.14 Precision 0.856 0.864 0.86 Recall 0.866 0.854 0.86 F-Measure 0.861 0.859 0.86 ROC Area 0.86 0.86 0.86 Class Avg === Confusion Matrix === a b < classified as 232 36 | a = 39 229 | b = Kết phân lớp sau xử lý liệu cân với thuật tốn RBU trình bày bảng 3.6 Bảng 3.7 Kết phân lớp sau xử lý liệu cân với thuật toán RBU === Detailed Accuracy By Class === TP Rate 0.906 0.698 0.826 FP Rate 0.302 0.094 0.222 Precision 0.827 0.824 0.825 === Confusion Matrix === Recall 0.906 0.698 0.826 F-Measure 0.865 0.756 0.822 ROC Area 0.802 0.802 0.802 Class Avg 50 a b < classified as 386 40 | a = 81 187 | b = Kết phân lớp trước sau xử lý liệu cân với thuật toán DEC-SVM, HBU, HMU, RBU tổng hợp theo bảng 3.7 Bảng 3.8 Bảng tổng hợp kết phân lớp trước sau xử lý liệu cân Thuật toán ORIGINAL DEC-SVM HBU-SVM HMU-SVM RBU accuracy (%) Pre Negative Rec 75.65 77.23 86.01 77.70 82.56 78.3 77.5 85.6 80 82.7 86.6 75.7 86.6 74.1 90.6 F1 82.2 76.6 86.1 76.9 86.5 Pre Positive Rec F1 68.8 77.0 86.4 75.7 82.4 55.2 78.7 85.4 81.3 69.8 61.3 77.8 85.9 78.4 75.6 3.3.3 Đánh giá kết thử nghiệm Dựa vào kết thử nghiệm trình bày mục trên, mục luận văn thực phân tích đánh giá kết Kết độ xác thuật toán thử nghiệm theo hai kịch biểu diễn dạng biểu đồ hình 3.3 51 Hình 3.19 Biểu đồ so sánh độ xác phân lớp liệu trước sau xử lý liệu cân Quan sát biểu đồ hình 3.3 nhận thấy rằng, thuật tốn thử nghiệm cho kết có tỉ lệ phân loại xác cao so với liệu ban đầu chưa áp dụng thuật tốn Hình 3.20 Biểu đồ kết phân lớp lớp Negative trước sau xử lý liệu cân 52 Hình 3.21 Biểu đồ kết phân lớp lớp Positive trước sau xử lý liệu cân Từ kết ta thấy sau điều chỉnh liệu thuật toán tiền xử lý liệu cân DEC-SVM, HBU, HMU, RBU hiệu phân lớp liệu cao hẳn so với việc phân lớp liệu ban đầu Các thuật tốn khảo sát kết hợp với số kỹ thuật trích chọn đặc trưng phù hợp cho kết tốt hơn, đặc biệt với tập liệu có kích thước lớn 3.4 Kết luận chương Trong chương luận văn tiến hành thử nghiệm thuật toán DEC-SVM, HMU, HBU RBU cho toán phân lớp liệu liệu cân cho liệu chứng tiểu đường người Indian Pima Kết thử nghiệm bước đầu cho thấy thuật toán phân lớp triển khai thực tế phù hợp với yêu cầu đề cho toán phân lớp liệu liệu cân 53 KẾT LUẬN Kết đạt luận văn Với mục tiêu nghiên cứu số kỹ thuật để nâng cao hiệu phân lớp liệu tập liệu cân ứng dụng, luận văn đạt số kết sau: - Nghiên cứu tổng quan toán phân lớp liệu vấn đề liên quan - Khảo sát tổng quan liệu cân - Khảo sát hướng tiếp cận liệu hướng tiếp cận thuật toán để nâng cao hiệu phân lớp liệu liệu cân - Khảo sát chi tiết thuật toán: DEC-SVM, HMU, HBU RBU - Khảo sát liệu bệnh tiểu đường pima-indians-diabetes - Thực thử nghiệm phân lớp liệu với DEC-SVM, HMU, HBU RBU liệu pima-indians-diabetes Kết thử nghiệm cho thấy hiệu phân lớp liệu sau sử dụng thuật toán khảo sát Tuy nhiên, hạn chế mặt thời gian, luận văn chưa tiến hành thử nghiệm với liệu lớn, Do đó, hiệu thử nghiệm chưa cao Hướng phát triển Trên sở nghiên cứu kết đạt được, đề tài luận văn phát triển sau: - Tiếp tục hoàn thiện kết có để xây dựng mơ hình phân lớp liệu cân với liệu thực tế thường có kích thước lớn, thuộc tính phần tử liệu thường bao gồm dạng số dạng phi số - Nghiên cứu thêm kỹ thuật trích chọn đặc trưng cho liệu cân nhằm nâng cao hiệu cho mơ hình phân lớp 54 DANH MỤC CÁC TÀI LIỆU THAM KHẢO TÀI LIỆU TIẾNG VIỆT [1] Nguyễn Thị Lan Anh (2017) Thuật toán HMU toán phân lớp liệu cân Tạp chí Khoa học Giáo dục, Trường Đại học Sư phạm Huế, 2, 101–108 [2] Nguyễn Thị Lan Anh (2018) Phân lớp liệu cân với thuật tốn HBU Tạp chí Khoa học Giáo dục, Trường Đại học Sư phạm Huế, 4, 110–116 [3] Bùi Dương Hưng,, Đặng Xuân Thọ, Vũ Văn Thỏa (2019) KSI - Phương pháp phân cụm với lọc ngẫu nhiên để loại bỏ nhiễu liệu cân bằng, Tạp chí Khoa học cơng nghệ thơng tin truyền thông, Học viện Công nghệ thông tin truyền thông, 01, 55-60 [4] Phạm Thị Hường, Phạm Văn Kiên, Đỗ Ngọc Quỳnh (2017)- Phương pháp DEC-SVM phân lớp liệu cân [5] Bùi Minh Quân, Phạm Xuân Hiền, Huỳnh Xuân Diệp (2013) Nâng cao độ xác phân loại lớp mẫu từ tập liệu cân bằng, Tạp chí Khoa học Trường đại học Cần Thơ [6] Nguyễn Mai Phương, Trần Thị Ánh Tuyết, Nguyễn Thị Hồng, Đặng Xuân Thọ (2015), Random Border Undersampling: Thuật toán giảm phần tử ngẫu nhiên đường biên liệu cân bằng, Kỷ yếu FAIR, 612-619 TÀI LIỆU TIẾNG ANH [7] Han J., Kamber M (2011) – “Data mining: Concepts and Techniques” 3nd Edition, Morgan Kaufman Publishers [8] Sain, H & Purnami, S W (2015) Combine Sampling Support Vector Machine for Imbalanced Data Classification Procedia Comput Sci 72, 59–66 [9] Leichen Chen, Zhihua Cai, Lu Chen (2010), A Novel Different Evolution- Clustering Hybrid Resampling Algorithm on Imbalanced Datasets”, in: Knowledge Discovery and Data Mining, 2010 WKDD 55 '10 Third International Conference, 81-85 [10] Chumphol Bunkhumpornpat, Krung Sinapiromsaran, Chidchanok Lursinsap (2009), “Safe-Level-SMOTE: Safe-Level- Synthetic Minority Over Sampling Technique for Handling the Class Imbalanced Problem”, in Advances in Knowledge Discovery and Data Mining: Springer-Verlag Berlin Heidelberg, vol 5476, pp 475-482 [11] Mikel Galar, Alberto Fernandez, Edurne Barrenechea, Humberto Bustince (2011), “A Review on Ensembles for the Class Imbalance Problem: Bagging – Boosting, and Hybrid-Based Approaches”, IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, vol 42, no 4, pp.463-484 [12] Han Hui, Wang Wen-Yuan, and Mao Bing- Huan (2005), "BorderlineSMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning," in ICIC 2005, pp 878-887 [13] Sotiris Kotsiantis, Dimitris Kanellopoulos, Panayiotis Pintelas (2006), “Handling imbalanced datasets: A review”, GESTS International Transactions on Computer Science and Engineering, vol.30 [14] Xu - Ying Liu, Jianxin Wu, and Zhi-Hua Zhou (2006), Exploratory Undersampling for Class-Imbalance Learning, 6th IEEE International Conference onData Mining (ICDM'06), 965-969 [15] T M Mitchell [1997] – “Machine Learning”, McGraw-Hill [16] Sun Yanmin, Wong Andrew K C., and Kamel Mohamed S.(2009), "Classification of imbalanced data: A review", International Journal of Pattern Recognition and Artificial Intelligence, vol 23, pp 687–719 Trang WEB [17] https://archive.ics.uci.edu/ml/datasets/Diabetes [18] https://en.wikipedia.org/wiki/Precision_and_recal [19] https://sourceforge.net/projects/weka/ ... tên ? ?Nghiên cứu phân lớp liệu cân ứng dụng? ?? Mục tiêu luận văn nghiên cứu số kỹ thuật để nâng cao hiệu phân lớp liệu tập liệu cân ứng dụng Đối tượng nghiên cứu luận văn toán phân lớp liệu liệu cân. .. toán phân lớp liệu, học máy, liệu cân vấn đề liên quan 1.1 Giới thiệu toán phân lớp liệu 1.1.1 Khái niệm phân lớp liệu toán phân lớp liệu • Phân lớp liệu: Phân lớp liệu( classification) hướng nghiên. .. QUAN VỀ BÀI TOÁN PHÂN LỚP DỮ LIỆU TRÊN CÁC DỮ LIỆU MẤT CÂN BẰNG .3 1.1 Giới thiệu toán phân lớp liệu 1.2 Dữ liệu cân 11 1.3 Tổng quan kỹ thuật xử lý liệu cân 14 1.4

Ngày đăng: 31/12/2020, 09:08

Mục lục

    CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP DỮ LIỆU TRÊN CÁC DỮ LIỆU MẤT CÂN BẰNG

    1.1. Giới thiệu về bài toán phân lớp dữ liệu

    1.1.1. Khái niệm về phân lớp dữ liệu và bài toán phân lớp dữ liệu

    1.1.2. Quy trình thực hiện phân lớp dữ liệu:

    1.1.3. Các độ đo đánh giá mô hình phân lớp dữ liệu

    1.2. Dữ liệu mất cân bằng

    1.2.1. Khái niệm về dữ liệu mất cân bằng

    1.2.2. Các đặc điểm phân lớp dữ liệu mất cân bằng:

    1.2.3. Các ứng dụng của phân lớp dữ liệu mất cân bằng

    1.3. Tổng quan kỹ thuật xử lý dữ liệu mất cân bằng

Tài liệu cùng người dùng

Tài liệu liên quan