Phân lớp đối với dữ liệu mất cân bằng là một bài toán có ý nghĩa quan trọng trong thực tế và đang trở thành xu hướng tiếp cận mới của nhiều nhà nghiên cứu. Đặc biệt, trong chẩn đoán y học, số người mắc bệnh chỉ chiếm tỉ lệ rất nhỏ trên tổng số người dân nên khả năng phát hiện người mắc bệnh gặp nhiều khó khăn hoặc sai lệch lớn, gây ra hậu quả nghiêm trọng, thậm chí ảnh hưởng tới tính mạng con người.
JOURNAL OF SCIENCE OF HNUE Educational Sci., 2015, Vol 60, No 7A, pp 103-111 This paper is available online at http://stdb.hnue.edu.vn DOI: 10.18173/2354-1075.2015-0057 PHƯƠNG PHÁP MỚI DỰA TRÊN ĐƯỜNG BIÊN VÀ VÙNG AN TOÀN NÂNG CAO HIỆU QUẢ PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG Khúc Quỳnh Hương, Đào Thu Hiền, Nguyễn Thị Hồng Đặng Xuân Thọ Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Hà Nội Toán-tin, Trường Đại học Sư phạm Hà Nội Khoa Tóm tắt Phân lớp liệu cân toán có ý nghĩa quan trọng thực tế trở thành xu hướng tiếp cận nhiều nhà nghiên cứu Đặc biệt, chẩn đoán y học, số người mắc bệnh chiếm tỉ lệ nhỏ tổng số người dân nên khả phát người mắc bệnh gặp nhiều khó khăn sai lệch lớn, gây hậu nghiêm trọng, chí ảnh hưởng tới tính mạng người Vì vậy, hiệu phân lớp cân đòi hỏi phải có tính xác cao Phương pháp tiền xử lí liệu hướng giải phổ biến đạt kết tốt Bài báo giới thiệu số phương pháp tiếp cận phân lớp liệu cân Random Oversampling Random Undersampling Từ đó, đề xuất phương pháp dựa khái niệm đường biên vùng an toàn nhằm nâng cao hiệu phân lớp Thuật toán cải tiến dựa kết hợp từ hai thuật toán Random Boder Oversampling Random Safe Undersampling nghĩa đồng thời tăng thêm phần tử đường biên lớp thiểu số loại bỏ phần tử an toàn lớp đa số cách ngẫu nhiên Chúng cài đặt thuật toán thực nghiệm liệu chuẩn quốc tế UCI: Yeast, Breast-p, Glass Pima Ví dụ, kết phân lớp liệu Yeast có số G-mean liệu nguyên gốc 18,85% áp dụng Random Oversampling, Random Undersamling, Random Safe Oversampling, Random Safe Undersampling Random Safe Undersampling - Random Border Oversampling G-mean tăng lên hẳn, 69,31%; 46,52%; 30,69%, 41,00% 74,86% Từ kết thực nghiệm cho thấy hiệu phân lớp liệu cân áp dụng phương pháp chúng tơi cải tiến cách đáng kể Từ khóa: Dữ liệu cân bằng; Phân lớp liệu; Mức độ an toàn; Đường biên; Sinh thêm phần tử ngẫu nhiên; Giảm bớt phần tử ngẫu nhiên Mở đầu Với phát triển nhanh chóng lĩnh vực cơng nghệ thơng tin kĩ thuật khai phá liệu, trích rút thơng tin lại quan tâm nghiên cứu phân lớp liệu tốn điển hình nhận dạng mẫu Phân lớp tốn có ứng dụng rộng rãi nhiều lĩnh vực: cơng nghệ thơng tin, tài chính, viễn thơng Trong đó, nhiều tốn mà phân bố liệu có chênh lệch lớn, ví dụ chẩn đốn y khoa số người bị bệnh ung thư chiếm tỉ lệ Ngày nhận bài: 15/7/2015 Ngày nhận đăng: 01/11/2015 Liên hệ: Khúc Quỳnh Hương, e-mail: khucquynhhuong1490@gmail.com 103 Khúc Quỳnh Hương, Đào Thu Hiền, Nguyễn Thị Hồng Đặng Xuân Thọ nhỏ tổng số người dân hay gọi gian lận chiếm tỉ lệ tổng số gọi [8] Mặc dù số lượng người bị ung thư hay số lượng gọi việc phát người bị ung thư hay gọi gian lận đóng vai trò quan trọng Việc nghiên cứu toán phân lớp nhiều nhà khoa học quan tâm Đã có nhiều thuật tốn học phân lớp công bố như: k – láng giềng gần nhất, cõy quyt nh, Naăve Bayes, mỏy vộc t h tr [7] Đó thuật tốn chuẩn áp dụng cho trường hợp phân lớp không cân thực nghiệm kiểm chứng Tuy nhiên, việc áp dụng thuật toán cho liệu mà chênh lệch số lượng phần tử lớp lớn hiệu khơng cao Vì vậy, cần có hướng tiếp cận trường hợp liệu cân Mất cân liệu trường hợp liệu có số lượng phần tử lớp có chênh lệch đáng kể Khi đó, lớp có nhiều phần tử gọi lớp đa số (Majority Class), lớp có phần tử gọi lớp thiểu số (Minority Class) Khi xảy vấn đề cân liệu, nhiều thực nghiệm cho thấy, áp đảo số lượng phần tử lớp đa số làm cho hiệu trình phân lớp bị giảm đáng kể Chẳng hạn, liệu Mamography gồm 11.183 mẫu liệu, có 10.923 mẫu gán nhãn “Negative” (không ung thư) 260 mẫu gán nhãn “Positive” (ung thư) Giả sử mơ hình phân lớp đạt độ xác 10% nghĩa có 234 mẫu lớp thiểu số bị phân lớp sai thành lớp đa số dẫn đến 234 người bị ung thư chẩn đốn khơng bị ung thư [9] Rõ ràng việc phân lớp nhầm bệnh nhân gây hậu nghiêm trọng việc phân lớp nhầm từ khơng bị bệnh thành bị bệnh Vì vậy, toán phân lớp liệu cân tốn có ứng dụng quan trọng thực tế vàđược nhiều nhà khoa học lĩnh vực khai phá liệu quan tâm Hiện có nhiều cơng trình nghiên cứu giải tốn phân lớp liệu cân theo hướng tiếp cận khác [8] Trong đó, hướng tiếp cận hiệu tiền xử lí liệu cách tạo phần tử nhân tạo nhằm tăng số lượng phần tử lớp thiểu số để giảm tính cân lớp Sau đó, áp dụng thuật tốn học phân lớp chuẩn nêu 2.1 Nội dung nghiên cứu Các phương pháp liên quan Để cải thiện kết phân lớp trường hợp liệu cân bằng, người ta tiếp cận nhiều phương pháp khác tiếp cận mức độ liệu nghĩa điều chỉnh liệu giảm bớt tính cân bằng, tiếp cận mức độ thuật toán nghĩa điều chỉnh thuật toán phân lớp cho hiệu phân lớp liệu cân không bị giảm Phương pháp điều chỉnh liệu phương pháp nhiều thực nghiệm chứng minh đơn giản đạt hiệu cao nhiều liệu Điều chỉnh liệu có nhiều cách: giảm kích thước mẫu liệu tăng kích thước mẫu liệu Thuật tốn đại diện cho kĩ thuật Random Oversamplingvà Random Undersampling Ngoài ra, kết hợp hai phương pháp để nâng cao hiệu phân lớp [1] Ramdom Oversampling (RO) phương pháp điều chỉnh tăng kích thước mẫu Thuật toán nàysẽ lựa chọn ngẫu nhiên phần tử lớp thiểu số nhân chúng, làm cho liệu giảm bớt cân Ngồi ra, có số cách sinh phần tử có chủ đích như: tăng phần tử thiểu số vùng an toàn (Safe level), tăng phần tử đường biên (Borderline) [2] Phương pháp điều chỉnh giảm kích thước mẫu Random Undersampling (RU) loại bỏ phần tử lớp đa số cách ngẫu nhiên đến tỉ số phần tử lớp thiểu số phần tử lớp đa số phù hợp Do số lượng phần tử tập huấn luyện giảm đáng kể Hai phương pháp thực nghiệm chứng minh hiệu quả, số 104 Phương pháp dựa đường biên vùng an toàn nâng cao hiệu phân lớp liệu trường hợp chưa đạt kết mong muốn Vì vậy, chúng tơi nghiên cứu cách thức tăng (giảm) phần tử lớp cân dựa khái niệm đường biên mức độ an toàn Đồng thời đề xuất phương pháp vừa sinh phần tử đường biên lớp thiểu số vừa loại bỏ phần tử an toàn lớp đa số cách ngẫu nhiên 2.2 Phương pháp dựa đường biên vùng an toàn nâng cao hiệu phân lớp liệu cân 2.2.1 Random Border Oversampling (RBO) Trong toán phân lớp liệu cân bằng, tất thuật toán phân loại thuật tốn tiền xử lí liệu cố gắng xác định đường phân chia ranh giới hai lớp xác tốt Đường phân chia danh giới gọi đường biên hai lớp Phần tử biên (nằm gần đường biên) nằm gần với phần tử lớp khác nhiều so với phần tử nằm xa biên Do phần tử thường bị gán nhãn sai cao với phần tử xa biên Vì vậy, chúng có vai trò quan trọng việc định hiệu phân lớp Cải tiến thuật toán Random Oversampling sử dụng việc sinh ngẫu nhiên phần tử đường biên, thuật toán Random Border Oversampling tìm phần tử nằm biên lớp thiểu số, sau sinh thêm phần tử nhân tạo phần tử biên tìm Việc sinh thêm phần tử nhân tạo phần tử biên làm tăng cường mật độ phần tử đường biên lớp thiểu số, từ làm tăng khả nhận dạng phần tử lớp thiểu số Để xác định phần tử có phải phần tử biên hay khơng, thuật tốn xác định dựa vào số láng giềng thuộc lớp đa số m tổng số k láng giềng gần Nếu có k/2 ≤ m < k phần tử phần tử biên Ngược lại, m < k/2 phần tử khơng phải phần tử biên [1, 3] Khi đó, thuật tốn chọn ngẫu nhiên n phần tử biên thuộc lớp thiểu số vừa tìm được, chép phần tử thành giống hệt Những phần tử sinh thêm giống hệt phần tử lớp thiểu số chọn từ thuộc tính đến nhãn lớp Thuật tốn có ưu điểm thuật toán Random Oversamping việc nhân có mục tiêu phần tử biên lớp thiểu số Thuật toán Random Border Oversampling: Input: Bộ liệu huấn luyện T có tập phần tử lớp thiểu số D t: Tỉ lệ phần trăm số phần tử positive biên sinh thêm k: Số láng giềng gần phần tử lớp đa số (k nguyên) m: Số phần tử lớp đa số đường biên Output: Bộ liệu huấn luyện T tập phần tử sinh ngẫu nhiên đường biên D’ Các bước thực thuật toán sau: • D’ = Ø • Tính k láng giềng gần p T • Tính số láng giềng thuộc lớp đa số m • if (k/2 ≤ m) and (m < k) • Sinh thêm phần tử p biên xét theo tỉ lệ t • return D’ 2.2.2 Random Safe Undersampling (RSU) Phát triển từ thuật toán Random Undersampling kết hợp với khái niệm vùng an tồn, thuật tốn Random Safe Undersampling loại bỏ phần tử an toàn lớp đa số cách ngẫu nhiên [5] Thuật toán phân chia đối tượng xác định cấp độ an toàn trước loại bỏ đối 105 Khúc Quỳnh Hương, Đào Thu Hiền, Nguyễn Thị Hồng Đặng Xuân Thọ tượng ngẫu nhiên Như vậy, thuật toán áp dụng hai cách để loại bỏ phần tử, lựa chọn phần tử an toàn để loại bỏ loại bỏ phần tử cách ngẫu nhiên Mức độ an tồn ước tính việc sử dụng láng giềng gần đối tượng đa số Bằng cách tổng hợp nhiều đối tượng đa số xung quanh cấp độ an tồn lớn hơn, chúng tơi đạt hiệu suất xác so với trước so với thuật toán Random Undersampling Trong giải thuật Random Safe Undersampling, cấp độ an toàn Safe Level (SL) định nghĩa công thức số (1) [6] Nếu cấp độ an toàn Safe level đối tượng gần với số 0, đối tượng gần với phần tử nhiễu Nếu gần với k, đối tượng đặt vùng an tồn Mức độ an toàn phần tử negative định nghĩa cơng thức số (2) Nó thường chọn vị trí an tồn để loại bỏ phần tử lớp đa số Safe level (sl) = số láng giềng lớp đa số k láng giềng gần (1) Safe level area (sl_area) = sl đối tượng thuộc lớp đa số / k láng giềng gần phần tử xét (2) Giả sử n phần tử liệu lớp đa số xét, sl_area mức độ an tồn phần tử Đối tượng lớp đa số có bị loại bỏ hay không phụ thuộc vào tỉ lệ sl_area Nếu sl_area < 0.5, nghĩa xung quanh phần tử đa số xét khơng có nhiều phần tử nhãn với nó, có nhiều phần tử nhiễu Nếu sl_area > 0.5, nghĩa xung quanh phần tử đa số xét có nhiều phần tử nhãn với nó, phần tử đa số xét coi an toàn, ta loại bỏ ngẫu nhiên phần tử Thuật toán Random Safe Undersampling: Input: Bộ liệu huấn luyện T có tập phần tử lớp đa số C z: Số % negative an toàn bị loại bỏ ngẫu nhiên k: Số láng giềng gần phần tử negative (k nguyên) Output: Bộ liệu huấn luyện T tập phần tử ngẫu nhiên C’ Các bước thực thuật tốn: • C’ = Ø • Tính k láng giềng gần n T • sl = số lượng đối tượng negative k láng giềng gần n T • sl_area = sl / k • if (sl_area > 0.5) and (sl_area ≤ 1) • Loại bỏ phần tử an tồn xét theo tỉ lệ z • return C’ 2.2.3 Random Safe Undersampling Random Border Oversampling (RSU_RBO) Thuật toán dựa đường biên mức độ an toàn đối tượng để vừa sinh thêm ngẫu nhiên phần tử đường biên lớp thiểu số, vừa loại bỏ ngẫu nhiên phần tử an toàn lớp đa số Kết hợp thuật toán Random Safe Undersampling thuật toán Random Border Oversampling ta có thuật tốn sau: • D’ = Ø, C’ = Ø • if class = “positive” Thực Thuật tốn RBO • if class = “negative” Thực Thuật tốn RSU • return D’ ∪ C’ 106 Phương pháp dựa đường biên vùng an toàn nâng cao hiệu phân lớp liệu 2.3 Phương pháp dựa đường biên vùng an toàn nâng cao hiệu phân lớp liệu cân 2.3.1 Các tiêu chí đánh giá Bảng Ma trận nhầm lẫn cho vấn đề cân hai lớp Positive thực tế Negative thực tế Positive dự đoán TP FP Negative dự đoán FN TN Phân lớp đánh giá tương đối ma trận nhầm lẫn minh họa Bảng Các dòng bảng nhãn lớp thực tế đối tượng, cột bảng nhãn lớp dự đoán đối tượng Tiêu biểu, nhãn lớp phân lớp thiểu số gọi postive, nhãn lớp phân lớp đa số gọi negative TP số phần tử có nhãn lớp thực tế Positive mơ hình phân lớp dự đốn Positive FP số phần tử có nhãn lớp thực tế Negative mơ hình phân lớp dự đoán Positive FN số phần tử có nhãn lớp thực tế Positive mơ hình phân lớp dự đốn Negative TN số phần tử có nhãn lớp thực tế negative mơ hình phân lớp dự đốn Negative Một số độ đo định nghĩa dựa ma trận nhầm lẫn [8]: - Tỉ lệ phần tử Positive phân loại đúng: TPrate = TP/(TP+FN) - Tỉ lệ phần tử Negative phân loại đúng: TN rate = TN/(TN+FP) √ - Giá trị G-mean: T Prate ∗ T Nrate Trong đó, G-mean độ đo biểu diễn hiệu phân lớp hai lớp thiểu số lớp đa số Giá trị G-mean xác định dựa vào hai giá trị TPrate TNrate Và phần thực nghiệm, sử dụng độ đo G-mean để đánh giá hiệu phân lớp thuật tốn [3] 2.3.2 Dữ liệu Chúng tơi tiến hành thực nghiệm liệu cân từ kho liệu chuẩn quốc tế UCI [10] Bảng thông tin số liệu mà nghiên cứu khoa học sử dụng trình thực nghiệm Tên liệu Yeast Glass Breast-p Pima Bảng Dữ liệu chuẩn từ UCI Số phần tử 1484 193 198 768 Số thuộc tính 32 Tỉ lệ cân 1:29 1:6 1:3 1:2 Các liệu bảng liệu có cân lớp Dữ liệu gán nhãn hai lớp, lớp đa số gán nhãn Negative thiểu số gán nhãn Positive Trong đó, liệu Yeast có tỉ lệ cân lớn 1:29, liệu Breast-p có tỉ lệ cân 1:4, liệu Glass có tỉ lệ cân 1:6 liệu Pima có tỉ lệ cân 1:2 2.3.3 Kết thực nghiệm đánh giá Đối với thuật toán Random Oversampling, thuật toán Random Undersampling, thuật toán Random Border Oversampling, thuật toán Random Safe Undersampling thuật toán kết hợp Random Border Oversampling - Random Safe Undersampling, thực với tham số 107 Khúc Quỳnh Hương, Đào Thu Hiền, Nguyễn Thị Hồng Đặng Xuân Thọ sinh thêm phần tử npos 100%, 200%, 300%, 400%, 500%, , 800% (với phần tử xét, ta sinh thêm tương ứng 1, 2, 3, 4, , phần tử ngẫu nhiên với láng giềng nó) tỉ lệ loại bỏ mneg 50, 60, tương ứng với số phần tử negative an toàn bị loại bỏ 50%, 60%, so với số phần tử negative an toàn ban đầu Để thấy rõ hiệu thuật tốn mới, chúng tơi tiến hành so sánh kết dựa nhiều tiêu chí như: T Pr ate, T Nr ate, G-mean Và phần thực nghiệm, sử dụng độ đo G-mean để đánh giá hiệu phân lớp thuật toán Sau cài đặt, thống kê kết quả, thực đánh giá hiệu thuật toán liệu sau: Hình Biểu đồ so sánh G-mean liệu Glass Bộ liệu Glass với số phần tử 213, áp dụng thuật toán Random Safe Undersampling kết hợp thuật toán Random Border Oversampling giá trị G-mean thu 86,79% cao so với phương pháp sử dụng thuật toán Random Oversampling có giá trị G-mean 85,03%; phương pháp sử dụng thuật tốn Random Undersampling có giá trị G-mean 86,18%; phương pháp sử dụng thuật toán Random Safe Oversampling có giá trị G-mean 86,79%; phương pháp sử dụng thuật tốn Random Safe Undersampling có giá trị G-mean 85,99% phương pháp chạy liệu gốc có giá trị G-mean 85,06% Hình Biểu đồ so sánh G-mean liệu Yeast Bộ liệu Yeast với số phần tử 1484, áp dụng thuật toán Random Safe Undersampling kết hợp với Random Border Oversampling giá trị G-mean thu 74,86% cao so với phương pháp sử dụng thuật tốn Random Oversampling có giá trị G-mean 69,31%; phương pháp sử dụng thuật tốn Random Undersampling có giá trị G-mean 46,52%; 108 Phương pháp dựa đường biên vùng an toàn nâng cao hiệu phân lớp liệu phương pháp sử dụng thuật tốn Random Safe Oversampling có giá trị G-mean 30,69%; phương pháp sử dụng thuật tốn Random Safe Undersampling có giá trị G-mean 41,00% phương pháp chạy liệu gốc có giá trị G-mean 18,85% Hình Biểu đồ so sánh G-mean liệu Breast-p Bộ liệu Breast-p với số phần tử 197, áp dụng thuật toán Random Safe Undersampling kết hợp với thuật tốn Random Border Oversampling giá trị G-mean thu 66,42% cao hẳn so với phương pháp sử dụng thuật toán Random Oversampling có giá trị G-mean 64,97%; phương pháp sử dụng thuật tốn Random Undersampling có giá trị G-mean 58,26%; phương pháp sử dụng thuật tốn Random Safe Oversampling có giá trị G-mean 36,26%; phương pháp sử dụng thuật tốn Random Safe Undersampling có giá trị G-mean 57,20% phương pháp chạy liệu gốc có giá trị G-mean 35,5% Hình Biểu đồ so sánh G-mean liệu Pima Bộ liệu Pima với số phần tử 768, áp dụng thuật toán Random Safe Undersampling kết hợp với Random Border Oversampling giá trị G-mean thu 75,45% cao so với phương pháp sử dụng thuật toán Random Oversampling có giá trị G-mean 74,08%; phương pháp sử dụng thuật tốn Random Undersampling có giá trị G-mean 74,61%; phương pháp sử dụng thuật toán Random Safe Oversampling có giá trị G-mean 73,66%; phương pháp sử dụng thuật tốn Random Safe Undersampling có giá trị G-mean 73,46% phương pháp chạy liệu gốc có giá trị G-mean 69,21% Các biểu đồ so sánh hiệu phân lớp liệu thuật toán SVM (Support Vector Machine) trước sau điều chỉnh liệu Random Oversampling, 109 Khúc Quỳnh Hương, Đào Thu Hiền, Nguyễn Thị Hồng Đặng Xuân Thọ Random Undersampling, Random Safe Oversampling, Random Safe Undersamplingvà Random Safe Undersampling - Random Border Oversampling Kết cho thấy, sau điều chỉnh thuật toán Random Safe Undersampling - Random Boder Oversampling, hiệu phân lớp có tăng lên, điển hình liệu Yeast Breast-p tăng lên cách đáng kể Thuật toán Random Safe Undersampling-Random Border Oversampling sinh thêm phần tử positive biên thuộc lớp thiểu số, đồng thời xóa phần tử negative an tồn lớp đa số cách ngẫu nhiên Làm vậy, Random Safe Undersampling - Random Border Oversampling làm giảm số phần tử lớp negative, mà làm tăng số phần tử positive cách khoa học, tạo nên cân liệu 2.4 Kết Trong nghiên cứu này, chúng tơi trình bày tổng quan thuật tốn dựa đường biên vùng an toàn nhằm nâng cao hiệu phân lớp liệu Thông qua việc sinh ngẫu nhiên phần tử đường biên lớp thiểu số loại bỏ phần tử an toàn lớp đa số tạo khả khai phá sở liệu có kích thước lớn, nâng cao hiệu tính tốn, làm giảm mức độ cân liệu, đồng thời làm tăng độ xác kết phân lớp liệu Bảng thống kê số lượng phần tử an toàn thuộc lớp đa số tỉ lệ số phần tử an toàn thuộc lớp đa số so với số phần tử đa số liệu Bảng Thống kê số phần tử Tên liệu Yeast Glass Breast-p Pima Tổng số phần tử Số positive (A) Số negative (B) Số positive biên (C) 1484 213 197 768 51 28 46 268 1433 185 151 500 33 40 114 Số negative an toàn (D) 1419 184 138 421 Tỉ lệ C/A (%) Tỉ lệ D/B (%) 64.7 7,1 87 42,5 99 99,5 91,4 84,2 Nhìn vào Bảng 3, ta dễ dàng nhận thấy liệu, riêng Glass có tỉ số positive biên tổng số positive nhỏ (7,1%) tức tổng số positive toàn liệu, số positive biên nhỏ Điều cho thấy, thuật toán RSU_RBO cho hiệu phân lớp cao liệu có số positive biên lớn có số lượng negative an toàn cao Kết luận Trên sở nghiên cứu kết đạt được, nhận thấy có nhiều vấn đề cần tiếp tục nghiên cứu Đồng thời, nghiên cứu kết hợp việc sinh thêm (loại bỏ) phần tử ngẫu nhiên với phương pháp khác Safe level, Boderline-SMOTE, Add-Boder-SMOTE phát triển thuật toán theo hướng ngược lại Random Safe Oversampling - Random Border Undersampling để đạt hiệu cao việc giải vấn đề cân lớp TÀI LIỆU THAM KHẢO [1] H Han, W Wang, and B Mao, 2005 “Borderline-SMOTE: A New Over-Sampling Method in,” ICIC, pp 878–887 [2] Xu-Ying Liu, Jianxin Wu, and Zhi-Hua Zhou, Senior Member, IEEE, 2006 Exploratory Undersampling for Class- Imbalance Learning, 6th IEEE International Conference on Data Mining (ICDM’06), 965-969 110 Phương pháp dựa đường biên vùng an toàn nâng cao hiệu phân lớp liệu [3] Nguyễn Thị Hồng, Nguyễn Mạnh Cường, Đặng Xuân Thọ, 2014 “Add-border-SMOTE: Phương pháp sinh thêm phần tử liệu cân bằng” Tạp chí Khoa học Kĩ thuật - Học viện KTQS - Số 164 (10-2014) [4] Jiawei Han, Micheline Kamber and Jian Pei, 2012 Data Mining: concepts and techniques The Morgan Kaufmann Series of ELSEVIER [5] Chumphol Bunkhumpornpat, Krung Sinapiromsaran, and Chidchanok Lursinap, 2009 “Safe-Level-Smote: Safe-Level-Synthetic Minority Over Samling Technique for Handling the Class Imbalanced Problem” PAKDD, pp 475 – 482 [6] Chawla, N., Japkowicz, N., Kolcz, 2004 “Special Issue on Learning from Imbalanced Data Sets” Sigkdd Exploration, Volume 6, Issue [7] X Wu, V Kumar, J Ross Quinlan, J Ghosh, Q Yang, H Motoda, G J McLachlan, A Ng, B Liu, P S Yu, Z.-H Zhou, M Steinbach, D J Hand, and D Steinberg 2007 “Top 10 algorithms in data mining.” Knowl Inf Syst., Vol 14, No 1, pp 1–37 [8] Y Sun, A K C Wong, and M S Kamel, 2009 Classification of imbalanced data: A review Int J Pattern Recognit, Artificial Intell, Vol 23, No 4, pp.687-719 [9] E a Garcia, “Learning from Imbalanced Data,” IEEE Trans Knowl Data Eng., Vol 21, No 9, pp 1263–1284, Sep 2009 [10] A.&Newman, 2007 D.J: UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science ABSTRACT The new method based on safe zone improves the efficiency of imbalanced data classification Classifying imbalanced data is important and is being looked at by many researchers In particular, in medical diagnostics, the number of infected people is very small compared to the total population which makes it difficult to detect disease and may lead to large deviations with serious consequences to human beings Therefore, efficiency of classification of imbalanced data requires high accuracy level Preprocessing data brings good results This article will introduce several ways to deal with imbalanced data classification such as Random Oversampling and Random Undersampling We propose a new method based on the concept of a borderline and safe area to enhance the classification efficiency A new algorithm combines the two algorithms Random Boder Oversampling and Random Safe Undersampling, which means adding more elements in the minority class boundary while randomly reducing safe elements in the majority class We have installed the algorithm and experimented on international standard UCI datasets: Yeast, Breast-p, Glass Pima For example, Yeast data classification results in 18.85 percent of G-mean index but the index increases significantly when applying Random Oversampling, Random Undersampling, Random Safe Oversampling, Random Safe Undersampling or Random Safe Undersampling - Random Border Oversampling, which are 69.31%; 46.52%; 30.69%, 41.00% and 74.86% respectively The experimental results reflect the improved efficiency of imbalanced data classification when our new method is applied Keywords: Classification, imbalanced data, Random Oversampling, Random Undersampling, Random Border Oversampling, Random Safe Oversampling 111 ... RSU • return D’ ∪ C’ 106 Phương pháp dựa đường biên vùng an toàn nâng cao hiệu phân lớp liệu 2.3 Phương pháp dựa đường biên vùng an toàn nâng cao hiệu phân lớp liệu cân 2.3.1 Các tiêu chí đánh... giá trị G-mean 46,52%; 108 Phương pháp dựa đường biên vùng an toàn nâng cao hiệu phân lớp liệu phương pháp sử dụng thuật toán Random Safe Oversampling có giá trị G-mean 30,69%; phương pháp sử dụng... đường biên mức độ an toàn Đồng thời đề xuất phương pháp vừa sinh phần tử đường biên lớp thiểu số vừa loại bỏ phần tử an toàn lớp đa số cách ngẫu nhiên 2.2 Phương pháp dựa đường biên vùng an toàn