smoteinffc giai quyet nhieu va cac phan tu o duong bien trong phan lop mat can bang boi bo loc dua tren su hop nhat cac phan lop

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	14
Dung lượng	289,38 KB

Nội dung

Paper Title (use style paper title) SMOTE INFFC Giải quyết nhiễu và các phần tử ở đường biên trong phân lớp mất cân bằng, bởi bộ lọc dựa trên sự hợp nhất các phân lớp Hội thảo quốc gia lần thứ XX Một.

Hội thảo quốc gia lần thứ XX: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông – Quy Nhơn, 23-24/11/2017 SMOTE-INFFC: Giải nhiễu phần tử đường biên phân lớp cân bằng, lọc dựa hợp phân lớp Giáp Thị Phương Thảo Phòng Đào tạo - NCKH Trường CĐ Sư phạm Điện Biên Email:giapphuongthao@gmail.c om Bùi Dương Hưng Khoa Công nghệ thông tin Trường Đại học Cơng Đồn E-mail: hungbd@dhcd.edu.vn Tóm tắt:Sự phân bố khơng đồng phần tử liệu gọi liệu cân Đối với tập liệu việc phân lớp thường có hiệu suất thấp Tuy nhiên cân phân lớp khơng phải vấn đề ảnh hưởng đến hiệu suất phân lớp mà liên quan đến yếu tố khác Một số xuất phần tử nhiễu phần tử đường biên (các phần tử nằm xung quanh khu vực ranh giới lớp) Kỹ thuật sinh thêm phần tử nhân tạo (SMOTE) phương pháp tiền xử lý tốt để cân số lượng phần tử lớp Tuy SMOTE cịn có hạn chế nội làm trầm trọng thêm vấn đề phần tử nhân tạo sinh thêm Bài báo đề xuất mở rộng SMOTE thông qua lọc nhiễu dựa hợp phân lớp (INFFC) khắc phục vấn đề tạo phần tử nhiễu phần tử đường biêntrong liệu không cân Phần mở rộng SMOTE-INFFC nghiên cứu thực nghiệm so sánh với SMOTE, INFFC Đặng Xuân Thọ Khoa Công nghệ thông tin Trường Đại học Sư phạm Hà Nội E-mail: thodx@hnue.edu.vn số mở rộng SMOTE Các thí nghiệm thực liệu cân coil2000, yeast, abalone, newthyroid, haberman, ecoli, blood Các kết cho thấy chế hoạt động tốt phương pháp có Phân tích kết giúp xác định đặc tính INFFC so với phương pháp lọc khác Keywords: Noise; imbalanced; imbalanced classification I GIỚI THIỆU Trong khai phá liệu, hai vấn đề phổ biến chất lượng liệu mà thường ảnh hưởng đến phân lớp liệu thực tế lớp nhiễu lớp cân Lớp nhiễu, nơi giá trị thuộc tính ghi nhầm lẫn làm rối phân lớp làm giảm hiệu suất dự đoán Lớp cân xảy lớp chiếm phần nhỏ phần tử tập liệu, trường hợp phân lớp thường xác lớp thiểu số Hiệu suất phân lớp trở nên tồi tệ hai vấn đề xảy đồng thời Hội thảo quốc gia lần thứ XX: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông – Quy Nhơn, 23-24/11/2017 Hiện để giải toàn phân lớp liệu có chứa lớp cân lớp nhiễu đa số nghiên cứu dựa hai hướng tiếp cận dựa mức độ liệu dựa mức độ thuật toán Tiếp cận dựa mức độ thuật toán cải tiến kỹ thuật tìm kiếm chiến lược phân lớp để phù hợp cho loại liệu cân xử lý đắn nhiễu chịu ảnh hưởng xuất Tiếp cận dựa mức độ liệu bao gồm phương pháp tiền xử lý tập liệu[10][1] nhằm loại bỏ phần tử nhiễu bước trước điều chỉnh phân bố liệu lớp làm giảm tính cân lớp cân Một số phương pháp thực để xử lý liệu nhiễu cân sinh thêm phần tử nhân tạo lớp thiểu số SMOTE[10]; sinh thêm phần tử nhân tạo vùng an toàn Safe-Level SMOTE[2], sinh thêm phần tử nhân tạo khu vực đường biên Boderline- SMOTE[5] Ngoài phương pháp mở rộng SMOTE cịn có phương pháp áp dụng lọc như: Lọc tập hợp EF[3], lọc phân vùng IPF[12], lọc dựa hợp phân lớp INFFC[8] Một phương pháp mở rộng SMOTE kết hợp với lọc IPF để xử lý nhiễu lớp cân giới thiệu vào năm 2015 SMOTE-IPF [7].Mặc dù phương pháp có hiệu định cân lớp có liệu nhiễutuy nhiên phương pháp có hạn chế định như:SMOTE có số hạn chế liên quan đến sinh thêm phần tử “mù” Bởi việc sinh thêm phần tử tích cực (ở lớp thiểu số) làm cho phần tử tạo phần tử lớp gần sát Trong đặc tính khác liệu bị bỏ qua phân bố phần tử lớp đa số Những phương pháp lọc nhiễu xử lý vấn đề liệu nhiễu chưa giải vấn dề cân liệu nên khi phân lớp liệu cho liệu cân có xử lý nhiễu khó thực với số liệu Từ tác giả đề xuất mở rộng SMOTE thông qua nhân tố với lọc lặp lặp lại dựa tập hợp phân lớp INFFC (Iterative Noise Filter based on the Fusion of Classifiers) để loại bỏ nhiễu Phương pháp SMOTE – INFFC phân lớp liệu cân Phương pháp sử dụng kỹ thuật tái lấy mẫu SMOTE để sinh thêm phần tử nhân tạo lớp thiểu số, cân phân lớp áp dụng kỹ thuật lọc INFFC (Iterative Noise Filter based on the Fusion of Classifiers) để loại bỏ nhiễu đường biên Phần II giới thiệu chi tiết phương pháp SMOTE-INFFC Một số kết đạt đánh giá trình bày phần III, cuối phần IV kết luận Hội thảo quốc gia lần thứ XX: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông – Quy Nhơn, 23-24/11/2017 II PHƯƠNG PHÁP SMOTEINFFC XỬ LÝ NHIỄU VÀ CÁC PHẦN TỬ ĐƯỜNG BIÊN TRONG PHÂN LỚP MẤT CÂN BẰNG 1.Phương pháp SMOTE Thuật toán dựa lấy mẫu SMOTE (Synthetic Minority Oversampling Technique) đưa vào năm 2002, thuật toán SMOTE cố gắng để giải vấn đề cân lớp Nó cách tiếp cận tiếng thông qua đơn giản hiệu Nó kết hợp oversampling undersampling, cách tiếp cận oversampling cách tái tạo lớp thiểu số mà xây dựng phần tử liệu lớp thiểu số Dữ liệu nhân tạo lớp thiểu số sinh thêm cách [10]: Tìm hàng xóm gần phần tử lớp thiểu số Chọn ngẫu nhiên số hàng xóm gần (tùy thuộc vào số lượng phần tử muốn sinh thêm) Sinh thêm phần tử nhân tạo đoạn thẳng nối phần tử xét láng giềng lựa chọn cách tính độ lệch véc tơ thuộc tính phần tử lớp thiểu số xét láng giềng Nhân độ lệch với số ngẫu nhiên Và lấy kết thu thêm vào vector thuộc tính phần tử lớp thiểu số xét Phương pháp INFFC Phương pháp lọc INFFC lọc dựa kết hợp phân lớp Cách thức lọc dựa mơ hình Lọc tồn (Ensemble-based filtering) Ưu điểm phương pháp tiếp cận dựa giả thiết thu thập dự đoán từ phân lớp khác cung cấp khả phát nhiễu tốt so với thu thập thông tin từ phân lớp đơn lẻ Lọc lặp lại (Iterative filtering) Sức mạnh loại lọc việc sử dụng loại bỏ lặp lặp lại phần tử nhiễu ý tưởng phần tử loại bỏ lần lặp không ảnh hưởng đến việc phát nhiễu lọc Lọc dựa số liệu (Metric-based filtering) Các lọc nhiễu dựa tính tốn số đo liệu huấn luyện thường cho phép người thực hành kiểm soát mức độ dự đoán lọc theo cách mà ví dụ mà mức độ nhiễu ước tính vượt ngưỡng loại bỏ Đề xuất lọc INFFC kết hợp mơ hình nói Ba bước thực lần lặp [8]: Lọc sơ (Preliminary filtering): Bước loại bỏ phần nhiễu lần lặp để giảm ảnh hưởng bước sau Cụ thể hơn, phần tử nhiễu xác định với độ tin cậy cao dự kiến loại bỏ bước Hội thảo quốc gia lần thứ XX: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông – Quy Nhơn, 23-24/11/2017 DT 1, Lọc Bộ đánh giá CTbộ Hình 1: Sơ đồ sơ thực OulọcCPC tpu Bộ lọc INFFC [8] I CT tTập 2, Lọc n FC(C4 CPC không huấn CNhiện Ou thực Trong hình 1nhiễu lọc3-sơ p 5, Bộ lọc luyện tpu u liệu đưa vào lọc C T có sau: Dữ NN, 3,xóa t khả tchứaFC(C4.5, cácCNphần tửBộ nhiễu (C T nhiễu cuối phân CF LOG Ou 3-NN, LOG Tính tiên) số = DT lần lặp đầu Do tích đó, việc tpu điểm lọc dựa trênFals dữdừng liệu t nhiễu Điều kiện nhiễu e gây hiểu nhầm mơ hình lọc xây dựngCFbịTr uảnh hưởng phần tử nhiễu Vì evậy, liệu không đủ đáng tin cậy để định loại bỏ phần tử nhiễu Trong phần trước tiên thực lọc sơ liệu CT lần lặp để loại bỏ hầu hết phần tử có khả nhiễu cao Sau đó, xem xét bước lọc thứ hai, lọc khơng nhiễu, lọc giai đoạn huấn luyện với phần tử coi khơng có nhiễu (CPC) xác định nhiễu lọc không nhiễu mong đợi đáng tin cậy Bộ lọc hệ thống dựa tập hợp phân lớp FC (fusion of classifiers) ba phân lớp nói C4.5 [6], 3-NN [4] LOG [11] từ CT (tập huấn luyện bắt đầu lặp lại) Bộ lọc dựa FC sử dụng để đánh giá phần tử CT Các phần tử nhiễu CPN xác định lọc xoá khỏi CT, dẫn đến liệu huấn luyện CPC Lọc không nhiễu (Noise-free filtering): Một lọc mới, tạo từ liệu dọn phần từ bước trước, áp dụng cho tất phần tử huấn luyện lần lặp tại, kết thành hai phần tử: nhiễu Bộ lọc dự kiến xác so với lọc trước lọc nhiễu xây dựng từ liệu Trong hình 1số liệu lọc cung cấp lọc sơ (CPC) liệu tập huấn luyện đầu vào CT Do đó, lọc dựa FC xây dựng từ liệu CPC dự kiến thực xác định nhiễu xác CT, mơ hình xây dựng để lọc khơng bị ảnh hưởng phần tử nhiễu, phần tử có khả nhiễu cao phát loại bỏ khỏi CT Do đó, bước thứ hai lần lặp, lọc dựa FC thực liệu CPC Bộ lọc đánh giá toàn phần tử CT (tất phần tử huấn luyện ban đầu) Từ thu hai liệu khác C C CN (CC CT, bao gồm phần tử coi lọc CN CT, Hội thảo quốc gia lần thứ XX: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông – Quy Nhơn, 23-24/11/2017 tập phần tử coi có tiềm nhiễu (với CC CN =  CC CN = CT)) Loại bỏ nhiễu cuối (Final removal of noise): Bước cuối lọc kiểm soát độ nhạy cảm nhiễu làm giảm số lượng phần tử nhiễu bị loại bỏ, đảm bảo phần tử gây nhiễu thực bị loại bỏ phần tử nghi ngờ nhiễu phân tích lại sau Các phần tử nhiễu xác định bước lặp thứ hai CN phần tử xem xét phân tích với điểm số nhiễu Chúng xếp theo điểm số nhiễu, từ nhiễu đến nhiễu phần tử nhận dạng sai nhiễu lọc Cuối cùng, phần tử vượt ngưỡng thiết lập người dùng bị loại bỏ Việc xác định điểm số nhiễu thực qua quan sát sau: Nhãn lớp số phần tử huấn luyện sai: Bất kỳ tập liệu dễ bị nhiễu Vì lọc thiết kế đặc biệt để xử lý tập liệu có nhiễu lớp nên khơng thể tin tưởng vào lớp tất phần tử Các phần tử nhiễu phát lọc khơng xác: Từ tiền đề trên, định thu từ liệu nhiễu khơng xác Bộ lọc INFFC liên quan đến định lọc nhiễu phần tử nhiễu định Do đó, tập hợp phần tử nhiễu phát bước thứ hai lần lặp phân tích với điểm số nhiễu Phần tử cụm nhiễu có độ tin cậy thấp hơn: Thơng tin thu từ cụm phần tử nhiễu, tức tập hợp phần tử nhiễu không đáng tin cậy Có phần tử dán nhãn nhiễu lọc ngược lại Tương tự xảy với nhãn lớp: rõ ràng cụm phần tử nhiễu, hầu hết số chúng có nhãn lớp gán khơng xác Vì vậy, thơng tin từ cụm cần thận trọng (với tự tin ít) Sự diện phần tử với nhãn lớp khác vùng lân cậncủa phần tử phần tử nhiễu: Các phần tử khác vùng lân cận (k hàng xóm gần nhất) phần tử e có nhãn lớp khác với phần tử e phần tử e có khả nhiễu Sẽ có nhiều khả e nhiễu k hàng xóm gần dán nhãn phần tử lọc nhiễu Sự diện phần tử với nhãn lớp tương tự vùng lân cận phần tử cho thấy phần tử sạch: Các phần tử khác vùng lân cận (k hàng xóm gần nhất) ví dụ e có nhãn lớp với ví dụ e, ví dụ e Nó chí cho e hàng xóm gần dán nhãn phần tử lọc nhiễu Trong lọc INFFC xem xét thông tin sau Hội thảo quốc gia lần thứ XX: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông – Quy Nhơn, 23-24/11/2017 (được cung cấp phần tử từ CT) để đặt độ tin cậy (confidence) ví dụ e  CN có nhãn nhiễu nhiễu: + Các kết phát lọc nhiễu FC (liên quan đến quan sát 2): phần tử dán nhãn nhiễu lọc dựa FC xây dựng bước thứ hai phương pháp + Thông tin phần tử huấn luyện thuộc hàng xóm phần tử nhiễu khác (liên quan đến quan sát 3): thời gian phần tử số k hàng xóm gần phần tử khác dán nhãn nhiễu CN (gọi t(e)) Giá trị cung cấp ý tưởng mức độ liên quan đến phần tử khu vực nhiễu (các cụm với nhiễu) Nếu giá trị cao, có nghĩa phần tử hàng xóm gần nhiều phần tử khác có nhiễu + Thơng tin vùng lân cận phần tử e (liên quan đến quan sát 5) phân lớp e phần tử gần e, nghĩa là, k hàng xóm gần (k = xem xét lọc này) Dựa quan sát 3, hàm confidence(e) định nghĩa sau: (1) Hàm kiểm tra xem phần tử e có gần phần tử nhiễu khác khơng Nó trả giá trị khoảng (0,1] Giá trị confidence(e) cao e không nằm vùng lân cận phần tử nhiễu khác, e thấp e nằm vùng lân cận số phần tử nhiễu Do đó, confidence(e) = (khi e không nằm vùng lân cận phần tử nhiễu nào), thông tin mà phần tử cung cấp đáng tin cậy (vì gán nhãn lớp nhiễu lọc dựa FC) Tuy nhiên, confidence(e) (khi e hàng xóm gần nhiều phần tử nhiễu), thơng tin mà cung cấp khơng tính đến Tương tự vậy, dựa quan sát 3-5, hàm neighborhood(e) định nghĩa sau: (2) Chức nhằm mục đích phân tích vùng lân cận phần tử e (k hàng xóm gần nhất) để xác định mức độ e cụm nhiễu Hàm tính giá trị trung bình k hàng xóm gần xem xét lớp (hàm differentClasses(e, ei)), mức độ láng giềng e (chức clean(ei)) độ tin cậy hàng xóm (hàm confidence(ei)) Hàm differentClasses(e1; e2), định nghĩa phương trình (3), có tính đến quan sát (các lớp khác tăng điểm nhiễu) (các lớp đồng thời làm giảm điểm nhiễu) Trong trường hợp đó, phần tử e ei lân cận có nhãn lớp khác giá trị Hội thảo quốc gia lần thứ XX: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông – Quy Nhơn, 23-24/11/2017 neighborhood(e) tăng lên, chúng có nhãn lớp giá trị neighborhood(e) bị giảm Hơn nữa, quan sát nêu rõ phần tử phải có trọng số cao phần tử có nhiễu việc tính tốn điểm số nhiễu Do đó, chức clean(ei) xác định dựa việc xem xét số lượng phần tử nhiễu xung quanh phần tử ei (trong n(ei)) số độ phần tử) Do đó, phần tử bao quanh nhiều phần tử có mức độ cao phần tử bao quanh phần tử nhiễu, khơng tin tưởng vào thơng tin cung cấp khu vực với nhiều phần tử nhiễu (quan sát 3) Tương tự xảy với phần tử nhiễu: phần tử nhiễu bao quanh nhiều phần tử nhiễu khác, nói phần tử có mức độ nhiễu thấp phần tử nhiễu khác bao quanh phần tử sạch, đặt khu vực đáng tin cậy Vì lý này, chức clean(ei) định nghĩa sau: (4) Hàm isnoise(ei), sử dụng clean(ei), đơn giản trả ei phần tử nhiễu -1 Nhớ lại gắn kết phần tử với lọc nhiễu xác định lọc dựa FC sử dụng bước thứ hai trình lọc Do đó, chức clean(e) cung cấp giá trị phần tử e Cuối cùng, tính điểm số nhiễu NS cho phần tử e  CN chủ yếu dựa vào phân tích khu vực lân cận nó, đại diện neighborhood(e), giá trị đánh giá độ tin cậy riêng phần tử e, đại diện confidence(e) Do đó, hai chức kết hợp để xác định điểm số nhiễu NS(e) sau: NS(e) = confidence(e) neighborhood(e)(5) Như đề cập, hàm confidence(e) định nghĩa khoảng [0,1], hàm neighborhood(e) định nghĩa [-1, 1] Do đó, NS xác định khoảng [-1, 1], cao phần tử e có nhiều khả có nhiễu Dấu hiệu kết cung cấp hàm neighborhood(e) xác định phần tử e thực (giá trị âm) nhiễu (giá trị dương), giá trị tuyệt đối xác định mức độ tin cậy lựa chọn (giá trị -1 tương ứng phần tử e hoàn toàn phần tử e chắn nhiễu) Một giá trị NS(e) =0 ngụ ý khơng có thông tin đáng tin cậy phần tử e dán nhãn nhiễu Mặt khác, chức confidence(e) yếu tố khác xác định mức độ đại diện kết Hội thảo quốc gia lần thứ XX: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông – Quy Nhơn, 23-24/11/2017 cung cấp neighbourhood(e), dựa mức độ thành viên e đến cụm nhiễu Sau tính điểm nhiễu cho ví dụ nhiễu tiềm CN, phần tử có điểm số nhiễu cao ngưỡng thiết lập người dùng loại bỏ Phương pháp SMOTE-INFC Phương pháp INFFC trì mức độ loại bỏ phần tử nhiễu cân lọc nhiễu khác đặc biệt mức độ nhiễu tăng Do đó, phương pháp INFFC thể trì cân phần tử xóa (phần tử nhiễu) phần tử không nhiễu (phần tử sạch) Tuy nhiên phân lớp cân phương pháp cịn có hạn chế định tác giả đề xuất phương pháp SMOTE-INFFC để làm giảm tính cân lớp đa số lớp thiểu số đồng thời lọc INFFC giúp xử lý nhiễu phần tử đường biên, góp phần nâng cao hiệu phân lớp Ý tưởng thuật toán sau: Input (tập liệu cân chứa nhiễu) Output(Tập liệu cân sạch) DT tập liệu huấn luyện cân gốc Áp dụng SMOTE với tập D tập DT =SMOTE(D) thu tập liệu cân Với lần lặp: Ph ần tử đa số Ph ần tử + Lọc sơ bộ: áp dụng thuật toán C4.5, 3-NN, LOG vào tập DT thu tập liệu DPC + Lọc Không nhiễu: Áp dụng thuật toán C4.5, 3-NN, LOG vào tập DPC vừa thực lọc sơ thu tập liệu DC (tập liệu sạch) DN (tập liệu nhiễu) + Loại bỏ tập nhiễu: Tại bước phần tử nhiễu xác định bước lọc không nhiễu tính điểm số nhiễu dựa vào thơng tin phần tử tậpdữ liệu huấn luyện hàng xóm phần tử nhiễu thông tin vùng lân cận phần tử nhiễu Sau phần tử nhiễu xếp theo điểm số từ nhiễu nhiều đến nhiễu Cuối cùng, phần tử vượt ngưỡng thiết lập người dùng bị loại bỏ - Kết thúc trình thu tập liệu DF Hình 2a mơ tả liệu gốc có cân phần tử, đồng thời chứa phần tử nhiễu phần tử đường biên Hình 2b liệu thực phương pháp SMOTE để cân số lượng phần tử, hình 2c áp dụng lọc INFFC để loại bỏ nhiễu giúp việc phân lớp thường xuyên - Ý tưởng thuật tốn loại bỏ nhiễu phần tử đường biên phân lớp cân dựa kết hợp SMOTE tập hợp phân lớp Phương pháp không làm tăng chi phí phân lớp cân phần tử lớp thiểu số với lớp đa số Sơ đồ q trình thực nghiệm mơ tả hình Từ thi ểu số Hội thảo quốc gia lần thứ XX: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông – Quy Nhơn, 23-24/11/2017 tập liệu huấn luyện ban đầu chi thành tập train (dùng để huấn luyện) test (dùng để kiểm thử) tiếp tập train thực phương pháp SMOTE, INFFC tiếp phân lớp phương pháp bagging tree, xây dựng mơ hình kiểm thử tập test Hình 3: Sơ đồ trình thực phương pháp SMOTE-INFFC III THỰC NGHIỆM VÀ ĐÁNH GIÁ Dữ liệu Các liệu sử dụng liệu thực tế áp dụng cho phân lớp cân với phần tử nhiễu đường biên trình bày [9] liệu dành cho phân lớp cân khác Các liệu có sẵn kho liệu KEEL (http://keel.es) kho liệu UCI Cụ thể sau: BẢNG 1: DỮ LIỆU THỰC NGHIỆM Dữ liệu abalone blood newthyroi d ecoli haberman yeast Số Tỷ lệ Thuộc phần cân tính tử 731 1:16 748 1:3 215 55 1:5 768 306 1484 88 1:8 1:3 1:28 coil2000 5822 85 1:17 Cách thực nghiệm Để đánh giá hiệu phương pháp kết hợp, tiến hành cài đặt chạy chương trình ngôn ngữ R Tôi thực nghiệm liệu trình bày bảng với phương pháp điều chỉnh liệu: SMOTE, INFFC, IPF, BLSMOTE, SLSMOTE phương pháp SMOTE-INFFC Sau áp dụng phương pháp điều chỉnh liệu, liệu phân lớp giải thuật “bagging tree” thực tính tiêu chí đánh giá AUC Gmean mục đích để so sánh kết AUC Gmean phương pháp điều chỉnh liệu Kết so sánh cuối giá trị trung bình Gmean AUC sau 20 lần thực phương pháp Hình 4: Kết AUC liệu thực nghiệm Hình 5: Kết Gmean liệu thực nghiệm Kết Qua kết thu Hình cho thấy phương pháp SMOTEINFFC có kết cao phương pháp khác lĩnh vực lọc liệu phương pháp có tiền xử lý với SMOTE a b c d Hội thảo quốc gia lần thứ XX: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông – Quy Nhơn, 23-24/11/2017 f g e Hình 6: Phân bố liệu: a ablone; b blood; c ecoli; d.haberman; e newthyroid,; f coil2000; g yeast Đối với hướng lọc liệu phương pháp SMOTE-INFFC thực tốt phương pháp IPF, INFFC liệu cân phần tử tích cực thường lại có ý nghĩa quan trọng cho việc phân lớp Đặc biệt với liệu coil2000, áp dụng lọc IPF INFFC dẫn đến nhiều phần tử thiểu số bị xóa, khơng thực phân lớp liệu Đối với phương pháp có tiền xử lý với SMOTE SMOTE-IPF, BLSMOTE, SLSMOTE phương pháp chúng tơi đạt hiệu suất phân lớp cao hẳn Điều sau thực tiền xử lý với SMOTE lọc INFFC loại bỏ phần tử nhiễu phần tử đường biên có kiểm sốt độ nhạy cảm nhiễu cách tính số điểm nhiễu (được trình bày phần II, mục 2) ngưỡng loại bỏ nhiễu không vượt 1% liệu huấn luyện Đánh giá Qua kết thực nghiệm thấy với tất liệu thực nghiệm phương pháp SMOTE-INFFC cho kết tốt Các liệu ecoli, newthyroid có kết cao 0.82, 0.950 liệu có phân bố liệu tốt, phần tử nhiễu phần tử đường biên Các liệu abalone, blood, haberman, coil2000, yeast có AUC Gmean thấp liệu có phân bố khơng đồng đều, có nhiều phần tử nhiễu phần tử đường biên Đối với liệu coil2000 có AUC Gmean INFFC IPF có giá trị trình áp dụng lọc phần tử positive phần tử nhiễu phần tử đường biên nhiều dẫn đến bị xóa khơng thể phân lớp liệu Dưới mô tả cácbộ liệu thực nghiệm.Thơng qua hình ảnh mô tả liệu thấy phương pháp SMOTEINFFC phù hợp với liệu có phân bố thường xuyên Đối với liệu liệu cân có phân bố chồng chéo phương pháp chúng tơi giải tốt vấn đề cân nhiễu chồng chéo tạo ranh giới lớp thường xuyên liệu coil2000, haberman, blood IV KẾT LUẬN Bài báo nghiên cứu phương pháp giải nhiễu đường biên phân lớp cân phương pháp kết hợp sinh thêm phần tử nhân tạo lọc nhiễu dựa hợp phương pháp phân lớp nhằm làm tăng độ xác phân lớp liệu Sự phù hợp phương pháp Hội thảo quốc gia lần thứ XX: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông – Quy Nhơn, 23-24/11/2017 phân tích đánh giá liệu cân có phân bố khác lớp thiểu số Các giá trị AUC Gmean cho thấy đề xuất chúng tơi có hiệu tốt liệu cân với phần tử nhiễu phần tử đường biên Dữ liệu cân có chứa nhiễu tiền xử lý SMOTE sau lọc nhiễu lọc INFFC có kiểm sốt độ nhạy cảm nhiễu tính số điểm nhiễu Từ kết nghiên cứu phân lớp liệu cân bằng, khai thác liệu cho thấy lĩnh vực khoa học hữu ích, thiết thực thực tế liệu chứa nhiễu Thơng qua việc kết hợp sinh thêm phần tử nhân tạo lớp thiểu số loại bỏ phần tử nhiễu liệu tạo khả khai phá liệu hiệu quả, đồng thời làm tăng độ xác kết phân lớp liệu cân áp dụng thuật toán phân lớp chuẩn Đây tiền đề cho hướng nghiên cứu thời gian tới kết hợp giảm chiều liệu với SMOTE-INFFC cho liệu cân có số lượng phần tử, thuộc tính lớn Ngồi kết hợp SMOTE-INFFC với phương pháp cải thiện suất phân lớp hướng nghiên cứu thời gian tới TÀI LIỆU THAM KHẢO [1] A Estabrooks (2000),A combination scheme for inductive learning from imbalanced data sets,Master’s thesis, Faculty of Computer Science, Dalhousie University, Halifax, Nova Scotia, Canada [2] Bunkhumpornpat, K Sinapiromsaran, C Lursinsap (2009), “Safe-level-SMOTE: safe-level-synthetic minority over-sampling technique for handling the class imbalanced problem”, Proceedings of the 13th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining, Berlin, Heidelberg,pp 475–482 [3] C.E Brodley, M.A Friedl (1999), “Identifying mislabeled training data”,J Artif, pp 131–167 [4] G.J Mclachlan (2004), Discriminant Analysis and Statistical Pattern Recognition, Wiley Interscience [5] H Han, W.Y Wang, B.H Mao (2005), “Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning”, Proceedings of the 2005 International Conference on Advances in Intelligent Computing – Volume Part I, Springer-Verlag, Berlin, Heidelberg, pp.878–887 [6] J.R Quinlan (1993), C4.5: Programs for Machine Learning, Hội thảo quốc gia lần thứ XX: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông – Quy Nhơn, 23-24/11/2017 Morgan Kaufman Publishers, San Francisco, CA, USA [7] José A Sáez, Julián Luengo, Jerzy Stefanowski, Francisco Herrera (2015), “SMOTE–IPF: Addressing the noisy and borderline examples problem in imbalanced classification by a resampling method with filtering”, Information Sciences(291), pp 184–203 [8] José A Sáez, Mikel Galar, Julián Luengo, Francisco Herrera (2016), “INFFC: An iterative class noise filter based on the fusion of classifiers with noise sensitivity control”, Information Fusion(27), pp 19–32 [9] K Napierala, J Stefanowski, S Wilk (2010), “Learning from imbalanced data in presence of noisy and borderline examples”, Rough Sets and Current Trends in Computing, Lecture Notes in Computer Science, vol 6086, Springer, Berlin/Heidelberg,pp 158–167 [10] N.V Chawla, K.W Bowyer, L.O Hall, W.P Kegelmeyer (2002), “SMOTE: synthetic minority over-sampling technique”, Journal of Artificial Intelligence Research (16), pp 321–357 [11] S le Cessie, J van Houwelingen (1992), “Ridge estimators in logistic regression”, Applied Statistics 41(1) pp 191– 201 [12] T.M Khoshgoftaar, P Rebours (2007), “Improving software quality prediction by noise filtering techniques”, Journal of Computer Science and Technology,(22)pp.387–396

Ngày đăng: 02/05/2023, 23:48