Phương pháp DEC-SVM phân lớp dữ liệu mất cân bằng

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	9
Dung lượng	670,72 KB

Nội dung

Bài viết nghiên cứu thuật toán DEC-SVM điều chỉnh dữ liệu bằng cách sinh thêm phần tử cho lớp thiểu số, sau đó sử dụng kỹ thuật phân cụm để loại bỏ bớt phần tử dư thừa. Thực nghiệm cho thấy DEC-SVM có khả năng nâng cao hiệu quả phân lớp cho các bộ dữ liệu mất cân bằng.

LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA Phương pháp DEC-SVM phân lớp liệu cân Imbalanced data classification based on DEC-SVM 1 Phạm Thị Hường , Phạm Văn Kiên , Đỗ Ngọc Quỳnh Email: ngocquynh.ydhn@gmail.com Trường Đại học Sao Đỏ Trường Cao đẳng Y Dược Hà Nội Ngày nhận bài: 21/8/2018 Ngày nhận sửa sau phản biện: 29/10/2018 Ngày chấp nhận đăng: 27/12/2018 Tóm tắt Trong báo này, tác giả nghiên cứu thuật toán DEC-SVM điều chỉnh liệu cách sinh thêm phần tử cho lớp thiểu số, sau sử dụng kỹ thuật phân cụm để loại bỏ bớt phần tử dư thừa Thực nghiệm cho thấy DEC-SVM có khả nâng cao hiệu phân lớp cho liệu cân Từ khóa: Phân cụm; phân lớp; liệu cân bằng; SVM Abstract In this article, authors study the DEC-SVM algorithm that modulates data by adding elements to the minority class, and then uses clustering techniques to eliminate redundant elements Empirical evidence show that the DEC-SVM is capable of enhancing class efficiency for imbalanced data sets Keywords: Clustering; classification; imbalanced data; SVM GIỚI THIỆU CHUNG Ngày nay, vấn đề khai thác xử lý thông tin ngày trọng, kỹ thuật phân lớp liệu góp phần hữu hiệu giúp người khai thác cách có hiệu khối liệu mà họ nắm giữ Tuy nhiên, liệu thu thập thực tế ngày xuất nhiều liệu cân bằng, nghĩa tập liệu có chênh lệch lớn số lượng phần tử lớp Các liệu nhiều ứng dụng thực tế phát giao dịch gian lận, phát xâm nhập mạng, dự đoán rủi ro quản lý, chẩn đoán y khoa,…, liệu cân mà đó, lớp người ta cần quan tâm lại chiếm tỉ lệ nhỏ so với lớp lại Sự chênh lệch số lượng lớp đa số lớp thiểu số làm cho việc phân lớp mẫu thuộc lớp thiểu số bị giảm hiệu Tỷ lệ cân tập liệu cao việc phát mẫu lớp thiểu số khó khăn Trong ứng dụng thực tế, tỷ lệ cân 1:100, 1:1000, chí [11] Vì thế, phân lớp liệu cân toán nhà khoa học đặc biệt quan tâm Người phản biện: GS.TSKH Thân Ngọc Hoàn TS Trần Trọng Hiếu Đối với liệu cân bằng, phân lớp chuẩn thường có xu hướng thiên vị lớp đa số bỏ qua lớp thiểu số (xử lý chúng nhiễu) [4] Vì vậy, áp dụng giải thuật phân lớp truyền thống chưa thể xây dựng phân lớp tốt Việc phân loại sai mẫu thuộc lớp thiểu số gây nên tổn thất lớn lĩnh vực thực tế Để giải vấn đề phân lớp liệu cân bằng, có nhiều phương pháp khác nhau, đó, có hai hướng tiếp cận chính: tiếp cận mức độ liệu hướng tiếp cận mức độ thuật toán Trong [12], tác giả cải tiến thuật toán sinh thêm mẫu nhân tạo lớp thiểu số (SMOTE) cách kết hợp thuật tốn nhúng tuyến tính cục (locally linear embedding - LLE) Thuật toán LLE ánh xạ liệu có số chiều cao vào khơng gian với số chiều thấp Sau đó, mẫu nhân tạo sinh ánh xạ trở lại không gian mẫu ban đầu thông qua LLE Từ liệu điều chỉnh, thực nghiệm liệu với ba kỹ thuật phân lớp Bayes, K-NN, SVM cho thấy kỹ thuật SVM có độ xác theo tiêu chí AUC cao với trung bình 76.5% Trong [13], tác giả trình bày giải thuật GSVM -RU (Granular Support Vector Machines Repetitive Undersampling) sử dụng SVM cho việc lấy mẫu Với mẫu quan trọng q trình phân lớp, giảm thiểu thơng tin mẫu đa số loại bỏ tối đa mẫu thiểu số Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 17 NGHIÊN CỨU KHOA HỌC làm liệu trình lấy mẫu để giữ lại mẫu cần thiết mẫu khác loại bỏ cách an tồn mà khơng ảnh hưởng đến phân loại Việc trích chọn vectơ hơn, tăng tốc độ dự đoán Kết thực nghiệm với đánh giá G-Mean (85.2%), AUC (92.4%), F-Measure (66.5%) Trong [14], tác giả đề xuất phương pháp Bagging of Extrapolation BorderlineSMOTE SVMs (BEBS) sử dụng phương pháp lấy mẫu thích nghi Extrapolation Borderline-SMOTE tập hợp bootstrapping vào tập liệu không cân ban đầu Khi sử dụng SVM, ranh giới định nghiêng phía mẫu thiểu số thay đổi dựa vào mẫu nhân Kết thực nghiệm đánh giá dựa tiêu chí G-Mean đạt 76.2% nhân tạo Sinh ngẫu nhiên phần tử lớp thiểu số phương pháp đơn giản nhằm cân phân lớp thông qua việc nhân ngẫu nhiên mẫu lớp thiểu số Ý tưởng lựa chọn ngẫu nhiên mẫu thuộc lớp thiểu số nhân chúng tạo mẫu giống hệt chúng Hình minh họa phương pháp sinh thêm phần tử cho lớp thiểu số Tuy nhiên, với đặc thù tập liệu hầu hết khơng giống nhau, khơng có giải pháp hữu hiệu cho tập liệu Trong báo này, chúng tơi đề xuất thuật tốn DEC-SVM để phân lớp liệu Cụ thể, nghiên cứu thuật toán điều chỉnh liệu cho toán phân lớp liệu cân – thuật toán DEC (a novel Differential Evolution Clustering hybrid resampling) công bố vào năm 2010 nhóm tác giả Leichen Chen, Zhihua Cai, Lu Chen Qiong Gu [1] Thuật toán kết hợp phương pháp sinh thêm phần tử cho lớp thiểu số sử dụng kỹ thuật phân cụm, K-means để loại bỏ bớt phần tử dư thừa, nhiễu liệu Với mẫu thuộc lớp thiểu số, tạo mẫu đột biến từ hai số láng giềng gần nhất, sau sử dụng thuật tốn di truyền để sinh thêm phần tử cho lớp thiểu số từ mẫu thiểu số ban đầu mẫu đột biến tạo Sau điều chỉnh liệu thuật tốn DEC, chúng tơi sử dụng kỹ thuật SVM để phân lớp cho tập liệu huấn luyện để tạo mơ hình phân lớp Kết cho thấy, sử dụng DEC-SVM hiệu phân lớp liệu cân cao Phương pháp sinh thêm mẫu nhân tạo lớp thiểu số SMOTE (Synthetic Minority Over-sampling Technique) sau: Với mẫu thuộc lớp thiểu số, tìm láng giềng gần lớp thiểu số, lựa chọn ngẫu nhiên láng giềng gần (hoặc tất láng giềng) tùy theo số lượng mẫu cần sinh thêm Mẫu nhân tạo sinh theo cách sau: lấy độ lệch vector thuộc tính mẫu xét láng giềng nhân với số ngẫu nhiên khoảng (0, 1) cộng kết thu với vector thuộc tính mẫu xét Kết cuối vector thuộc tính mẫu nhân tạo, nhãn mẫu nhân tạo gán nhãn lớp thiểu số [9] minh họa hình 2 PHƯƠNG PHÁP DEC-SVM CHO BÀI TỐN PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG SMOTE (N, T, k) 2.1 Hướng tiếp cận mức độ liệu Tiếp cận mức độ liệu mục đích điều chỉnh tỉ lệ cân hai lớp liệu, cụ thể sử dụng hình thức lấy mẫu: sinh thêm phần tử lớp thiểu số (sinh ngẫu nhiên, sinh thêm phần tử nhân tạo,…), loại bỏ phần tử lớp đa số, kết hợp hai phương pháp 2.1.1 Sinh thêm phần tử lớp thiểu số Có nhiều phương pháp sinh thêm phần tử cho lớp thiểu số như: sinh ngẫu nhiên phần tử lớp thiểu số, lựa chọn phần tử lớp thiểu số, sinh thêm mẫu Hình Sinh ngẫu nhiên phần tử lớp thiểu số Hình Minh họa sinh thêm phần tử nhân tạo thuật toán SMOTE Giả mã thuật toán SMOTE [9]: Input: Số mẫu lớp thiểu số T; tổng số SMOTE N%, số láng giềng gần k Output: (N/100)*T mẫu thiểu số nhân tạo (Nếu N nhỏ 100%, chọn ngẫu nhiên mẫu lớp thiểu số mà phần trăm chúng SMOTE) IF N< 100 Then chọn ngẫu nhiên T mẫu lớp thiểu số T = (N/100)*T N = 100 18 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA Endif For attr←1 to numattrs N = (int) (N/100) (Số luợng SMOTE giả định bội số 100) Tính dif=Sample[nnarray[n,n]][attr]-Sample[i][attr] k = số láng giềng gần Synthentic[newindex][attr]=Sample[i][ attr]+gap*dif numattrs = số thuộc tính 10 sample [ ][ ]: mảng mẫu thiểu số ban đầu 11 newindex: số mẫu nhân tạo tạo ra, khởi tạo 12 synthetic [ ][ ]: mảng mẫu nhân tạo (tính k láng giềng gần cho mẫu lớp thiểu số.) 13 For Tính gap = số ngẫu nhiên to T 14 Tính k láng giềng gần cho i lưu vào mảng nnarray 15 Populate (N, i, nnarray) Endfor ++ N=N-1 10 Endwhile 11 Return (kết thúc hàm Populate) Ngồi cịn có số thuật tốn cải tiến từ thuật toán SMOTE như: Borderline-SMOTE [6], Safe-level SMOTE [3] đem lại hiệu định hỗ trợ trình phân lớp cho liệu cân 2.1.2 Loại bỏ phần tử lớp đa số 16 Endfor Populate (N, i, nnarray) (hàm sinh mẫu nhân tạo) Input: Số mẫu cần sinh thêm N, mẫu lớp thiểu số i, mảng láng giềng gần nnarray Output: Vector thuộc tính mẫu nhân tạo While N≠0 Chọn ngẫu nhiên số nn k Là phương pháp điều chỉnh phân bố liệu cách giảm bớt số lượng phần tử lớp đa số Loại bỏ cách ngẫu nhiên mẫu thuộc lớp đa số đơn giản Phương pháp thực loại bỏ ngẫu nhiên phần tử thuộc lớp đa số tập huấn luyện (hình 3a) có tỷ lệ phù hợp hai lớp Với lý này, số lượng phần tử tập huấn luyện giảm đáng kể (hình 3b) M M u thi u s (a) (b ) Hình Minh họa loại bỏ phần tử lớp đa số Tuy nhiên, việc loại bỏ mẫu làm hao hụt thơng tin có khả làm mẫu mang thông tin quan trọng cho q trình xây dựng mơ hình phân lớp Khắc phục hạn chế phương pháp trên, số phương pháp loại bỏ mẫu theo mục tiêu đề xuất như: Tomek links, One-side Selection, Neighborhood Cleaning Rule [7] 2.2 Hướng tiếp cận mức độ thuật toán Tiếp cận mức độ thuật toán nghĩa điều chỉnh thuật tốn phân lớp để tăng cường độ xác phân lớp liệu cân Chiến lược chung để đối phó với vấn đề cân liệu lựa chọn khuynh hướng quy nạp thích hợp Ví dụ phương pháp định, cách tiếp cận điều chỉnh dự đốn xác xuất lá, phát triển phương pháp cắt tỉa Hay phương pháp phân lớp SVM, sử dụng số phạt khác cho lớp điều chỉnh ranh giới lớp dựa ý tưởng liên hết hạt nhân [11] Đối với phương pháp phân lớp K-NN, đề xuất hàm khoảng cách có trọng số Ý tưởng nhằm bù cho cân mẫu huấn luyện mà không làm thay đổi phân lớp 2.3 Thuật toán DEC-SVM cho toán phân lớp liệu cân Phương pháp sinh thêm phần tử nhân tạo cho lớp thiểu số phương pháp hiệu cho toán phân lớp liệu cân Tuy nhiên, nhiều trường hợp, việc sinh thêm mẫu tạo mẫu dư thừa nhiễu làm ảnh hưởng tới hiệu phân lớp Thuật toán DEC-SVM dựa việc tạo phần tử nhân tạo lớp thiểu số nhằm giảm tỷ lệ cân bằng, Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 19 NGHIÊN CỨU KHOA HỌC sau sử dụng kỹ thuật phân cụm cho tập liệu để loại bỏ mẫu dư thừa nhiễu Bằng xnew,j= cách lấy mẫu kết hợp với làm liệu, xi,j rand(j)>CR j ≠ rand(s) (2) xmu,j rand(j) ≤ CR j=rand(s) mẫu hữu ích giữ lại nâng cao hiệu đó: xi,j thuộc tính thứ j mẫu thứ i; phân lớp CR số crossover lựa chọn ngẫu nhiên [0, 1] xác định trước người dùng; 2.3.1 Điều chỉnh liệu thuật toán DE Với thuật toán SMOTE, mẫu sinh từ mẫu positive (mẫu lớp thiểu số) ban đầu láng giềng Với tảng thuật tốn MOTE, nhiên, thuật toán DE, từ hai số láng giềng gần mẫu positive tạo mẫu “đột biến”, mẫu sinh cách lai ghép chéo mẫu đột biến mẫu positive ban đầu 2.3.1.1 Đột biến Trong tập liệu huấn luyện, chọn ngẫu nhiên mẫu positive tìm k láng giềng gần nó, sau chọn ngẫu nhiên hai láng giềng láng giềng đó: x n1 x n Một rand(j) giá trị lựa chọn ngẫu nhiên khoảng [0, 1] Giá trị biến rand(s) số thuộc tính lấy cách ngẫu nhiên, đảm bảo mẫu sinh có thuộc tính từ mẫu đột biến Số mẫu nhân tạo tạo số mẫu positive ban đầu, mẫu nhân tạo gán nhãn positive Tùy thuộc vào số lượng mẫu positive cần lấy, lặp lại bước đột biến crossover cho liệu huấn luyện 2.3.2 Kỹ thuật làm liệu sử dụng phân cụm 2.3.1.2 Crossover Sau thực thuật toán DE, liệu thu được cải thiện tỉ lệ hai lớp Tuy nhiên, không loại trừ khả sinh mẫu dư thừa nhiễu Để khắc phục, ta sử dụng kỹ thuật phân cụm để phân cụm cho tập liệu với mục đích loại bỏ mẫu không cần thiết Qua bước đột biến, ta tạo số lượng mẫu đột biến số lượng mẫu positive ban đầu tập liệu huấn luyện Ở bước này, ta sử dụng mẫu đột biến với mẫu positive ban đầu để tạo mẫu nhân tạo Cụ thể, mẫu hình thành dựa theo (2): Chẳng hạn ta thu cụm giả sử đặt tên A, B, C, D, E, F hình Trong đó, số cụm chứa tất mẫu có nhãn lớp (các cụm C, D, E F), cụm khác chứa mẫu có nhãn lớp khác (cụm A B), dự đoán siêu phẳng SVM [2, 8] qua cụm mẫu đột biến x mu tạo cách sử dụng công thức (1) với rand(0,1) số ngẫu nhiên khoảng [0,1]: x m u = x i + r a nd(0,1) × (x n -x n ) (1) Hình Minh họa phân cụm tập liệu cân Nếu tất mẫu cụm có nhãn lớp (tức là positive negative), ta tiến hành loại bỏ mẫu dư thừa nhiễu Giả sử với cụm F có chứa tất mẫu negative, ta làm sau: ‒ Xác định ngưỡng tương đồng (0,1] ‒ Tính theo cơng thức (3): 20 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HĨA (3) ‒ Tìm mẫu trung tâm gần ‒ Tính độ tương đồng Sic mẫu theo (4) Nếu Sic lớn ngưỡng tương đồng xi bị loại khỏi F thứ i; xik thuộc tính thứ k mẫu I; Sij độ tương đồng xi xj 2.3.3 Thuật toán Phương pháp sinh thêm phần tử cho lớp thiểu số thuật toán DE kết hợp với kỹ thuật loại bỏ phần tử dư thừa (nhiễu) phân cụm tạo nên thuật toán điều chỉnh liệu DEC Sau điều chỉnh liệu thuật toán DEC, sử dụng kỹ thuật SVM để phân lớp cho liệu tạo nên mô Ngưỡng tương đồng nhỏ nhiều mẫu hình phân lớp Quá trình thực phân lớp bị loại bỏ Trong đó: ni số lượng mẫu cụm liệu mô tả hình Hình Quá trình phân lớp liệu thuật tốn DEC-SVM Thuật tốn DEC-SVM mơ tả sau: 1.4 Tạo mẫu thiểu số từ xi mẫu đột biến DEC-SVM (N, m, k, s, T) theo x m u cơng thức: Input: Số mẫu lớp thiểu số 𝑁, số thuộc tính 𝑚, số cụm 𝑘, ngưỡng tương đồng 𝑠, số lượng DE 𝑇% với xi,j thuộc tính j mẫu thứ i, Bước 1: Sinh thêm mẫu nhân tạo cho lớp thiểu số thuật toán DE 1.5 Nhãn mẫu nhân tạo gán nhãn lớp thiểu số 1.1 Tính số lượng mẫu lớp thiểu số tạo 𝐺 = (𝑁 * T%) Bước 2: Loại bỏ mẫu dư thừa (nhiễu) phân cụm 1.3 Chọn ngẫu nhiên hai số k láng giềng xi: xn1, xn2 để tạo mẫu đột biến theo cơng hai lớp: Output: Mơ hình huấn luyện 1.2 Với mẫu thuộc lớp thiểu số xi, tìm k láng giềng gần thức: x m u = x i +rand(0,1) × (x n -x n ) , Sử dụng thuật toán 𝑘-𝑚𝑒𝑎𝑛 phân cụm cho liệu huấn luyện Tại cụm có mẫu thuộc 2.1 Chọn mẫu trung tâm , tính với cụm tìm Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 21 NGHIÊN CỨU KHOA HỌC 2.2 Tính độ tương đồng mẫu cụm với công thức: với xik thuộc tính thứ k mẫu 2.3 Nếu 3.1.2 F-Measure , loại bỏ Bước 3: Sử dụng SVM phân lớp cho tập liệu để tạo mơ hình phân lớp KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ Một độ đo thường dùng để đánh giá mơ hình phân lớp F-measure hay F-core tính dựa hai độ đo khác precision recall, tính sau [5]: 3.1 Các tiêu chí đánh giá 3.1.1 Ma trận nhầm lẫn Trong tập liệu, với quy ước phần tử lớp đa số negative, phần tử lớp thiểu số positive, ta có ma trận nhầm lẫn bảng [11] Bảng Ma trận nhầm lẫn Dự đoán Dự đoán là positive negative Thực tế positive TP FN Thực tế negative FP TN Trong hàng ma trận nhãn lớp thực tế, cột ma trận nhãn lớp dự đoán TN: số lượng phần tử lớp đa số phân loại xác FN: số lượng phần tử lớp thiểu số bị phân loại nhầm phần tử lớp đa số TP: số lượng phần tử lớp thiểu số phân loại xác FP: số lượng phần tử lớp đa số bị phân loại nhầm phần tử lớp thiểu số Từ đó, độ xác mơ hình tính theo cơng thức sau: Ngồi cịn có số độ đo đánh giá khác dựa ma trận nhầm lẫn như: 3.1.3 G-mean G-mean độ đo thể cân hai giá trị , G-mean tính theo cơng thức sau [11]: 3.1.4 Đường cong ROC độ đo AUC ROC (receiver operating characteristic) phương pháp xuất phát từ lĩnh vực quân sự, phương pháp ứng dụng việc phát tàu địch hình radar Chiến tranh giới thứ hai [10] ROC dùng để đánh giá kết dự đoán Cho tới nay, ROC ứng dụng hiệu số lĩnh vực học máy (đánh giá kết học máy), chẩn đoán tiên lượng y khoa (chẩn đốn người có mắc bệnh hay khơng) Đường cong ROC (hình 6) đồ thị với trục tung tỉ lệ True Positive (TPrate) trục hoành tỉ lệ False Positive (FPrate) cho hệ thống phân loại nhị phân Diện tích phía đường cong ROC gọi AUC, thước đo độ xác cho tốn phân lớp liệu [10] Hình Đường cong ROC 22 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA 3.2 Dữ liệu thiết lập thực nghiệm Trong liệu trên, lớp đa số gán nhãn Negative lớp thiểu số gán nhãn Positive 3.2.1 Dữ liệu thực nghiệm Ðể thấy hiệu thuật toán DEC-SVM, tác giả tiến hành thực nghiệm với liệu lấy từ kho liệu UCI Thông tin liệu thể bảng Bảng Bộ liệu sử dụng cho thực nghiệm Tên liệu Số Số mẫu Số mẫu thuộc lớp lớp đa tính thiểu số số Breast-w 10 Glass Heart Pima Tỉ lệ cân 241 458 1:1,9 10 29 185 1:6,38 14 120 150 1:1,25 268 500 1:1,87 Các liệu nêu có cân lớp Trong đó, glass liệu có tỷ lệ cân cao Ngoại trừ liệu glass, ba liệu lại liệu y học Dữ liệu breast-w liệu ung thư vú, heart liệu bệnh tim pima liệu bệnh tiểu đường Ấn Ðộ 3.2.2 Thiết lập thực nghiệm Ðể nâng cao tính xác độ đo theo tiêu chí đánh giá nêu trên, ta sử dụng phương pháp k-Fold Cross Validation với k = 10 Bộ liệu ban đầu chia thành 10 tập (10 fold) với kích thước tương đương Thực 10 lần lặp, lần lặp, sử dụng tập làm liệu kiểm tra (Test Set) phần lại dùng làm liệu huấn luyện (Training Set) Với tập liệu huấn luyện, ta áp dụng phương pháp điều chỉnh liệu, sau sử dụng mơ hình phân lớp thuật toán phân lớp SVM Nhằm so sánh hiệu thuật toán DEC-SVM, ta đồng thời áp dụng số phương pháp điều chỉnh liệu bao gồm: SVM, SMOTE-SVM, DE-SVM Cuối cùng, sử dụng mô hình phân lớp để phân lớp cho liệu kiểm tra Kết đánh giá phân lớp sau lần 10-fold trung bình cộng giá trị 10 lần lặp Ðể đánh giá xác hiệu mơ hình phân lớp, ta thực 10 lần 10-fold Ngôn ngữ sử dụng để cài đặt chương trình ngơn ngữ R R ngơn ngữ sử dụng cho thống kê đồ họa sáng tạo hai nhà thống kê học Ross Ihaka Robert Gentleman 3.3 Kết thực nghiệm đánh giá Bảng kết đánh giá hiệu phân lớp cho liệu sử dụng thuật tốn DE-SVM Hình Tỉ lệ cân liệu Bảng kết đánh giá hiệu phân lớp cho liệu sử dụng thuật toán DEC-SVM Bảng Phân lớp liệu sử dụng thuật toán DE-SVM Datasets AUC G-mean F-measure TPrate TNrate PPvalue Breast 0.974 0.974 0.956 0.991 0.925 0.956 Glass 0.914 0.894 0.866 0.833 0.994 0.975 Pima 0.725 0.699 0.658 0.906 0.544 0.519 Heart 0.747 0.727 0.748 0.90 0.593 0.643 Bảng Phân lớp liệu sử dụng thuật toán DEC-SVM Datasets AUC G-mean F-measure TPrate TNrate PPvalue Breast 0.970 0.969 0.954 0.975 0.963 0.934 Glass 0.928 0.922 0.892 0.867 0.989 0.942 Pima 0.753 0.745 0.683 0.854 0.652 0.57 Heart 0.798 0.79 0.788 0.875 0.720 0.723 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 23 NGHIÊN CỨU KHOA HỌC Bảng so sánh hiệu hai thuật toán DESVM Bảng Bảng so sánh hiệu phân lớp Ðộ đo đánh giá AUC G-MEAN F-MEASURE Thuật toán DEC-SVM sử dụng cho liệu thử nghiệm Dữ liệu Breast-w Glass Pima Heart SVM 0.960 0.910 0.720 0.745 SMOTE 0.957 0.912 0.71 0.768 DE-SVM 0.974 0.914 725 0.747 DEC-SVM 0.970 0.928 0.753 0.797 SVM 0.960 0.900 0.701 0.750 SMOTE 0.96 0.900 0.7 0.775 DE-SVM 0.974 0.894 0.699 0.727 DEC-SVM 0.969 0.921 0.745 0.790 SVM 0.94 0.861 0.627 0.720 SMOTE 0.947 0.82 0.76 0.8 DE-SVM 0.956 0.866 0.657 0.748 DEC-SVM 0.954 0.892 0.683 0.788 Hình 8, hình 9, hình 10 biểu đồ so sánh giá trị AUC, G-mean, F-measure sử dụng thuật toán SVM, SMOTE, DE-SVM DEC-SVM với liệu thực nghiệm Hình 10 Biểu đồ so sánh giá trị F-measure KẾT LUẬN Hình Biểu đồ so sánh giá trị AUC Có thể thấy, với thuật tốn DE-SVM, kết đánh giá phân lớp đạt giá trị tương đối khả quan Tuy nhiên, sau kết hợp thêm kỹ thuật phân cụm làm liệu tạo thuật toán DEC-SVM, hiệu phân lớp cao Trong liệu thực nghiệm liệu glass, pima heart, kết đánh giá phân lớp thuật toán DEC-SVM cao thuật tốn DE-SVM Hình Biểu đồ so sánh giá trị G-mean Riêng liệu breast-w, tiêu chí đánh giá AUC, G-mean giải thuật DEC-SVM cao giải thuật cịn lại Chỉ có tiêu chí F-measure thuật tốn DE-SVM (đạt 0.956) tỏ hiệu DEC-SVM (đạt 0.954) Ta thấy, giá trị khác biệt khơng lớn, điều khẳng định hiệu 24 Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA phương pháp DEC-SVM phân lớp liệu cân TÀI LIỆU THAM KHẢO [1] Leichen Chen, Zhihua Cai, Lu Chen (2010) A Novel Different Evolution-Clustering Hybrid Resampling Algorithm on Imbalanced Datasets In Knowledge Discovery and Data Mining, 2010 WKDD ‘10 Third International Conference on, pp 81-85 [2] Corinna Cortes & Vladimir Vapnik (1995) Support-Vector Networks Machine Learning, vol 20, pp 273-297 [3] Chumphol Bunkhumpornpat, Krung Sinapiromsaran, Chidchanok Lursinsap (2009) Safe-Level-SMOTE: Safe-Level-Synthetic Minority Over Sampling Technique for Handling the Class Imbalanced Problem In Advances in Knowledge Discovery and Data Mining: Springer-Verlag Berlin Heidelberg, vol 5476, pp 475-482 [4] Mikel Galar, Alberto Fernandez, Edurne Barrenechea, Humberto Bustince (2011) A Review on Ensembles for the Class Imbalance Problem: Bagging – Boosting, and Hybrid-Based Approaches IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, vol 42, no 4, pp.463-484 [5] Haibo He and Edwardo A Garcia (2009) Learning from Imbalanced Data (2009) IEEE Transactions on Knowledge and Data Engineering, vol 21, no 9, pp 1263 - 1284 [6] Han Hui, Wang Wen-Yuan, and Mao Bing-Huan (2005) Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning In ICIC 2005, pp 878-887 [7] Sotiris Kotsiantis, Dimitris Kanellopoulos, Panayiotis Pintelas (2006) Handling imbalanced datasets: A review GESTS International Transactions on Computer Science and Engineering, vol.30 [8] David Meyer (2015) Support Vector Machines: The Interface to libsvm in package e1071 pp 1-8 [9] Chawla Nitesh V., Bowyer Kevin W., O Hall Lawrence, and Kegelmeyer W Philip (2002) SMOTE: Synthetic Minority Over-sampling Technique Artificial Intelligence Research, vol 16, pp 321–357 [10] Hanley JA, McNeil BJ (1982) The meaning and use of the area under a receiver operating characteristic (ROC) curve Radiology, vol 143(1), pp.29-36 [11] Sun Yanmin, Wong Andrew K.C., and Kamel Mohamed S (2009) Classification of imbalanced data: A review International Journal of Pattern Recognition and Artificial Intelligence, vol 23, pp 687–719 [12] Juanjuan Wang, Mantao Xu, Hui Wang, Jiwu Zhang Classification of Imbalanced Data by Using the SMOTE Algorithm and Locally Linear Embedding [13] Yuchun Tang, Yan-Qing Zhang, Nitesh V Chawla, Sven Krasser SVMs Modeling for Highly Imbalanced Classification [14] Qi Wang, ZhiHao Luo, JinCai Huang, YangHe Feng, and Zhong Liu A Novel Ensemble Method for Imbalanced Data Learning: Bagging of Extrapolation- SMOTE SVM Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 25 ... cho cân mẫu huấn luyện mà không làm thay đổi phân lớp 2.3 Thuật toán DEC-SVM cho toán phân lớp liệu cân Phương pháp sinh thêm phần tử nhân tạo cho lớp thiểu số phương pháp hiệu cho toán phân lớp. .. nhãn lớp thiểu số [9] minh họa hình 2 PHƯƠNG PHÁP DEC-SVM CHO BÀI TỐN PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG SMOTE (N, T, k) 2.1 Hướng tiếp cận mức độ liệu Tiếp cận mức độ liệu mục đích điều chỉnh tỉ lệ cân. .. 500 1:1,87 Các liệu nêu có cân lớp Trong đó, glass liệu có tỷ lệ cân cao Ngoại trừ liệu glass, ba liệu lại liệu y học Dữ liệu breast-w liệu ung thư vú, heart liệu bệnh tim pima liệu bệnh tiểu

Ngày đăng: 26/10/2020, 09:49