Phương pháp mới dựa trên vùng an toàn nâng cao hiệu quả phân lớp dữ liệu mất cân bằng

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	10
Dung lượng	1,06 MB

Nội dung

Bài viết nghiên cứu cách thức tăng (giảm) phần tử của lớp mất cân bằng dựa trên một mức độ “an toàn”. Từ đó, đề xuất một phương pháp mới vừa tăng số lượng các phần tử an toàn ở lớp thiểu số, vừa giảm các phần tử an toàn ở mức đa số.

PHƯƠNG PHÁP MỚI DỰA TRÊN VÙNG AN TOÀN NÂNG CAO HIỆU QUẢ PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG BÙI DƯƠNG HƯNG NGUYỄN THỊ HỒNG , ĐẶNG XUÂN THỌ Khoa Tin học, Trường Đại học Cơng đồn Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Hà Nội Email: thodx@hnue.edu.vn Tóm tắt: Nghiên cứu toán phân lớp thực tế chuẩn đoán y học, phát cố tràn dầu, phát gian lận kinh tế tài chính… ngày nhiều nhà khoa học quan tâm tầm ảnh hưởng lớn lĩnh vực tới người Tuy nhiên, nhiều nghiên cứu hiệu phân lớp tốn chưa cao có chênh lệch số lượng phần tử lớp liệu Một yêu cầu đặt cần có hướng tiếp cận trường hợp liệu cân để tăng tính hiệu phân lớp xác thuật tốn phân lớp Bài báo chúng tơi đề xuất ba thuật tốn dựa mức an toàn nhằm nâng cao hiệu phân lớp liệu Hai thuật toán, Random Safe Oversampling (RSO) Random Safe Undersampling (RSU) cải tiến trực tiếp từ Random Oversamling Random Undersampling Thuật toán thứ ba, Random Safe Over-Undersampling (RSOU) kết hợp RSO RSU nhằm đồng thời vừa tăng thêm phần tử lớp thiểu số vừa loại bỏ phần tử lớp đa số vùng an toàn Từ khóa: Dữ liệu cân bằng; Phân lớp liệu; Safe level; Random Oversampling; Random Undersampling; Random Safe Oversampling; Random Safe Undersampling MỞ ĐẦU Ngày nay, số lượng lớn liệu thu thập lưu trữ sở liệu khắp nơi giới Khơng khó để tìm sở liệu lên tới Terabytes doanh nghiệp trung tâm nghiên cứu [1], [2] Rất nhiều thông tin kiến thức vô giá tiềm ẩn sở liệu vậy, mà chưa có phương pháp tự động hiệu để phân tách thông tin [3] Trong suốt nhiều năm, nhiều thuật toán tạo để phân tách gọi “quặng vàng” tri thức từ tập liệu lớn Đặc biệt, vấn đề phân lớp cân ngày phổ biến số lượng lớn lĩnh vực có tầm quan trọng cộng đồng khai phá liệu Đây 10 vấn đề khó cộng đồng học máy khai phá liệu quan tâm Một số phương pháp khác để tiếp cận vấn đề phân lớp liệu; kết hợp quy tắc; phân cụm liệu… [4], [5] Trong giải thuật Random Oversampling phương pháp tiếng tổng quát để giải vấn đề cân Bài báo phân tích chi tiết phương pháp nghiên cứu – thuật toán sinh thêm phần tử dựa vào cấp độ an toàn liệu cân Thuật toán sinh dựa phát Tạp chí Khoa học Giáo dục, Trường Đại học Sư phạm Huế ISSN 1859-1612, Số 01(45)/2018: tr 149-158 Ngày nhận bài: 27/3/2017; Hoàn thành phản biện: 23/5/2017; Ngày nhận đăng: 14/6/2017 150 ĐẶNG XUÂN THỌ cs triển từ thuật toán Random Oversampling Giải thuật đưa nhằm làm tăng hiệu phân lớp so với thuật toán Random Oversampling Phân lớp nhiệm vụ quan trọng mơ hình kiểu mẫu Một loạt thuật toán học máy chẳng hạn Cây định (Decision tree); Mạng lưới thần kinh lan truyền ngược; Mạng Bayes; k-láng giềng gần nhất; Máy vector hỗ trợ (Support Vector Machine)… phát triển tốt áp dụng thành công nhiều lĩnh vực [6] Tuy nhiên, cân tập liệu gặp phải khó khăn tương đối nghiêm trọng cho hầu hết thuật tốn học phân lớp Khó khăn quan trọng vấn đề phân lớp cân xuất thường xuyên ứng dụng thực tế học máy khai thác liệu thu hút quan tâm nghiên cứu Một số ví dụ minh hoạ cho vấn đề khai phá liệu cân phát gian lận thẻ tín dụng; chuẩn đốn y học, phát xâm nhập mạng, phát cố tràn dầu từ hình ảnh radar bề mặt trái đất, cơng nghiệp viễn thông… [6] Nhiều nghiên cứu rằng, với tập liệu cân làm cho mơ hình học phân lớp gặp nhiều khó khăn dự báo liệu lớp thiểu số Chính vậy, cần phải có hướng tiếp cận việc khai phá liệu dạng Một tập liệu coi cân lớp có số lượng phần tử nhỏ để so sánh với lớp khác Trong báo này, đề cập tới trường hợp phân lớp nhị phân, nghĩa liệu có hai nhãn lớp, lớp có số lượng phần tử nhỏ gọi lớp thiểu số, lớp có số phần tử lớn gọi lớp đa số Ví dụ, tập liệu Mammography chứa 10.923 mẫu gán nhãn “negative” (Không ung thư) 260 mẫu gán nhãn “positive” (Ung thư) Nhiều nghiên cứu rằng, với liệu Mammography, phần tử lớp đa số phân lớp với độ xác gần 100% lớp thiểu số có độ xác 0-10% Giả sử, phân lớp đạt độ xác 10% lớp thiểu số, nghĩa có 234 mẫu lớp thiểu số bị phân loại sai thành lớp đa số Điều dẫn đến 234 mẫu bị ung thư chuẩn đốn nhầm khơng bị ung thư [7] Như vậy, việc phân lớp nhầm gây hậu nghiêm trọng Từ cho thấy vai trị việc giải toán cân liệu vấn đề quan trọng nhiều nhà nghiên cứu lĩnh vực học máy, khai phá liệu quan tâm NỘI DUNG NGHIÊN CỨU Các phương pháp để giải vấn đề cân lớp chia thành loại: Phương pháp tiếp cận mức độ liệu phương pháp tiếp cận dựa mức độ thuật toán Ở cấp độ liệu, mục đích để cân phân bố lớp, việc điều chỉnh mẫu vùng liệu Ở cấp độ thuật toán, giải pháp cố gắng thích ứng tồn thuật tốn phân lớp để tăng cường việc học lớp thiểu số Các thuật tốn học dựa chi phí (Cost-sensitive learning) kết hợp tiếp cận chặt chẽ cấp độ thuật toán liệu Một vài thuật toán boosting báo cáo kỹ thuật meta ứng dụng tới hầu hết thuật toán học phân lớp Ý tưởng chung phương pháp boosting giới thiệu loại chi phí tới dataframe việc học tới AdaBoost PHƯƠNG PHÁP MỚI DỰA TRÊN VÙNG AN TOÀN NÂNG CAO HIỆU QUẢ PHÂN LỚP 151 Phương pháp tiếp cận mức độ liệu với mục đích cân phân bố lớp, việc điều chỉnh mẫu vùng liệu Thuật toán tiêu biểu phương pháp Random Oversampling - tăng ngẫu nhiên phần tử lớp thiểu số Random Undersampling - giảm ngẫu nhiên phần tử lớp đa số Ngồi ra, kết hợp hai phương pháp để đạt hiệu phân lớp mong muốn Random Oversampling (RO) phương pháp điều chỉnh tăng kích thước mẫu Thuật tốn lựa chọn ngẫu nhiên phần tử lớp thiểu số nhân chúng, làm cho liệu giảm bớt cân Ngược lại, phương pháp Random Undersampling (RU) loại bỏ phần tử lớp đa số cách ngẫu nhiên đến tỷ lệ phần tử thiểu số đa số đạt mức độ định Do số lượng phần tử tập huấn luyện giảm đáng kể Hai phương pháp thực nghiệm chứng minh tương đối tốt, số trường hợp lại đạt kết chưa mong muốn Vì chúng tơi nghiên cứu cách thức tăng (giảm) phần tử lớp cân dựa mức độ “an toàn” Từ đó, đề xuất phương pháp vừa tăng số lượng phần tử an toàn lớp thiểu số, vừa giảm phần tử an toàn mức đa số 2.1 Random Safe Oversampling (RSO) 2.1.1 Ý tưởng Phát triển từ thuật toán RO với khái niệm vùng an tồn [8], chúng tơi đề xuất thuật tốn RSO phương pháp sinh thêm phần tử an toàn lớp thiểu số cách ngẫu nhiên Nếu thuật toán RO lựa chọn ngẫu nhiên phần tử phân lớp thiểu số để nhân bản, thuật tốn tập trung lựa chọn phần tử “an toàn” phân lớp thiểu số để nhân Thuật tốn tính tốn cấp độ an tồn đối tượng dựa số láng giềng gần đối tượng thiểu số trước sinh thêm phần tử Bằng cách sinh thêm nhiều phần tử nhân tạo lớp thiểu số xung quanh cấp độ an toàn lớn hơn, kết thực nghiệm phương pháp RSO đạt hiệu suất xác so với trước so với thuật toán RO gốc Trong giải thuật RSO, cấp độ an toàn safe level positive (slp) định nghĩa công thức số (1) [8] Nếu cấp độ an toàn safe level positive đối tượng gần tới 0, đối tượng gần với phần tử nhiễu, ngược lại gần tới k, đối tượng nằm vùng an toàn Mức độ an toàn phần tử positive định nghĩa cơng thức số (2) Nó thường chọn vị trí an tồn tới phần tử sinh nhân tạo safe level positive (slp) = số láng giềng lớp thiểu số k láng giềng gần (1) safe level area (slp_area) = slp đối tượng thuộc lớp thiểu số / k láng giềng gần phần tử xét (2) Giả sử p phần tử liệu lớp thiểu số xét, slp_area mức độ an tồn phần tử Đối tượng lớp thiểu số có nhân hay không phụ thuộc vào tỉ lệ slp_area Nếu slp_area>0.5, nghĩa xung quanh phần tử thiểu số xét có nhiều phần tử nhãn với nó, phần tử thiểu số xét coi an toàn Ngược lại, slp_area

Ngày đăng: 21/05/2021, 13:46