Phương pháp mới dựa trên vùng an toàn nâng cao hiệu quả phân lớp dữ liệu mất cân bằng

7 11 0
Phương pháp mới dựa trên vùng an toàn nâng cao hiệu quả phân lớp dữ liệu mất cân bằng

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bằng cách sinh thêm nhiều hơn các phần tử nhân tạo lớp thiểu số xung quanh cấp độ an toàn lớn hơn, các kết quả thực nghiệm đã chỉ ra phương pháp mới RSO đạt hiệu suất chính xác hơn so [r]

(1)

Tạp chí Khoa học Giáo dục, Trường Đại học Sư phạm Huế ISSN 1859-1612, Số 01(45)/2018: tr 149-158

Ngày nhận bài: 27/3/2017; Hoàn thành phản biện: 23/5/2017; Ngày nhận đăng: 14/6/2017 PHƯƠNG PHÁP MỚI DỰA TRÊN VÙNG AN TOÀN NÂNG CAO HIỆU QUẢ PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG

BÙI DƯƠNG HƯNG 1 NGUYỄN THỊ HỒNG , ĐẶNG XUÂN THỌ 2

1Khoa Tin học, Trường Đại học Công đồn 2Khoa Cơng nghệ Thơng tin, Trường Đại học Sư phạm Hà Nội Email: thodx@hnue.edu.vn Tóm tắt: Nghiên cứu toán phân lớp thực tế chuẩn đoán y học,

phát cố tràn dầu, phát gian lận kinh tế tài chính… ngày nhiều nhà khoa học quan tâm tầm ảnh hưởng lớn lĩnh vực tới người Tuy nhiên, nhiều nghiên cứu hiệu phân lớp toán chưa cao có chênh lệch số lượng phần tử lớp liệu Một yêu cầu đặt cần có hướng tiếp cận trường hợp liệu cân để tăng tính hiệu phân lớp xác thuật tốn phân lớp Bài báo đề xuất ba thuật tốn dựa mức an tồn nhằm nâng cao hiệu phân lớp liệu Hai thuật toán, Random Safe Oversampling (RSO) Random Safe Undersampling (RSU) cải tiến trực tiếp từ Random Oversamling Random Undersampling Thuật toán thứ ba, Random Safe Over-Undersampling (RSOU) kết hợp RSO RSU nhằm đồng thời vừa tăng thêm phần tử lớp thiểu số vừa loại bỏ phần tử lớp đa số vùng an tồn

Từ khóa: Dữ liệu cân bằng; Phân lớp liệu; Safe level; Random Oversampling; Random Undersampling; Random Safe Oversampling; Random Safe Undersampling

1 MỞ ĐẦU

(2)

150 ĐẶNG XUÂN THỌ cs

triển từ thuật toán Random Oversampling Giải thuật đưa nhằm làm tăng hiệu phân lớp so với thuật toán Random Oversampling

Phân lớp nhiệm vụ quan trọng mơ hình kiểu mẫu Một loạt thuật toán học máy chẳng hạn Cây định (Decision tree); Mạng lưới thần kinh lan truyền ngược; Mạng Bayes; k-láng giềng gần nhất; Máy vector hỗ trợ (Support Vector Machine)… phát triển tốt áp dụng thành công nhiều lĩnh vực [6] Tuy nhiên, cân tập liệu gặp phải khó khăn tương đối nghiêm trọng cho hầu hết thuật toán học phân lớp Khó khăn quan trọng vấn đề phân lớp cân xuất thường xuyên ứng dụng thực tế học máy khai thác liệu thu hút quan tâm nghiên cứu Một số ví dụ minh hoạ cho vấn đề khai phá liệu cân phát gian lận thẻ tín dụng; chuẩn đốn y học, phát xâm nhập mạng, phát cố tràn dầu từ hình ảnh radar bề mặt trái đất, công nghiệp viễn thông… [6] Nhiều nghiên cứu rằng, với tập liệu cân làm cho mơ hình học phân lớp gặp nhiều khó khăn dự báo liệu lớp thiểu số Chính vậy, cần phải có hướng tiếp cận việc khai phá liệu dạng

Một tập liệu coi cân lớp có số lượng phần tử nhỏ để so sánh với lớp khác Trong báo này, đề cập tới trường hợp phân lớp nhị phân, nghĩa liệu có hai nhãn lớp, lớp có số lượng phần tử nhỏ gọi lớp thiểu số, lớp có số phần tử lớn gọi lớp đa số Ví dụ, tập liệu Mammography chứa 10.923 mẫu gán nhãn “negative” (Không ung thư) 260 mẫu gán nhãn “positive” (Ung thư) Nhiều nghiên cứu rằng, với liệu Mammography, phần tử lớp đa số phân lớp với độ xác gần 100% lớp thiểu số có độ xác 0-10% Giả sử, phân lớp đạt độ xác 10% lớp thiểu số, nghĩa có 234 mẫu lớp thiểu số bị phân loại sai thành lớp đa số Điều dẫn đến 234 mẫu bị ung thư chuẩn đoán nhầm không bị ung thư [7] Như vậy, việc phân lớp nhầm gây hậu nghiêm trọng Từ cho thấy vai trị việc giải tốn cân liệu vấn đề quan trọng nhiều nhà nghiên cứu lĩnh vực học máy, khai phá liệu quan tâm

2 NỘI DUNG NGHIÊN CỨU

(3)

PHƯƠNG PHÁP MỚI DỰA TRÊN VÙNG AN TOÀN NÂNG CAO HIỆU QUẢ PHÂN LỚP 151

Phương pháp tiếp cận mức độ liệu với mục đích cân phân bố lớp, việc điều chỉnh mẫu vùng liệu Thuật toán tiêu biểu phương pháp Random Oversampling - tăng ngẫu nhiên phần tử lớp thiểu số Random Undersampling - giảm ngẫu nhiên phần tử lớp đa số Ngồi ra, kết hợp hai phương pháp để đạt hiệu phân lớp mong muốn Random Oversampling (RO) phương pháp điều chỉnh tăng kích thước mẫu Thuật toán lựa chọn ngẫu nhiên phần tử lớp thiểu số nhân chúng, làm cho liệu giảm bớt cân Ngược lại, phương pháp Random Undersampling (RU) loại bỏ phần tử lớp đa số cách ngẫu nhiên đến tỷ lệ phần tử thiểu số đa số đạt mức độ định Do số lượng phần tử tập huấn luyện giảm đáng kể Hai phương pháp thực nghiệm chứng minh tương đối tốt, số trường hợp lại đạt kết chưa mong muốn Vì chúng tơi nghiên cứu cách thức tăng (giảm) phần tử lớp cân dựa mức độ “an tồn” Từ đó, đề xuất phương pháp vừa tăng số lượng phần tử an toàn lớp thiểu số, vừa giảm phần tử an toàn mức đa số

2.1 Random Safe Oversampling (RSO)

2.1.1 Ý tưởng

Phát triển từ thuật toán RO với khái niệm vùng an tồn [8], chúng tơi đề xuất thuật toán RSO phương pháp sinh thêm phần tử an toàn lớp thiểu số cách ngẫu nhiên Nếu thuật toán RO lựa chọn ngẫu nhiên phần tử phân lớp thiểu số để nhân bản, thuật toán tập trung lựa chọn phần tử “an toàn” phân lớp thiểu số để nhân Thuật tốn tính tốn cấp độ an tồn đối tượng dựa số láng giềng gần đối tượng thiểu số trước sinh thêm phần tử Bằng cách sinh thêm nhiều phần tử nhân tạo lớp thiểu số xung quanh cấp độ an toàn lớn hơn, kết thực nghiệm phương pháp RSO đạt hiệu suất xác so với trước so với thuật toán RO gốc

Trong giải thuật RSO, cấp độ an toàn safe level positive(slp) định nghĩa cơng thức số (1) [8] Nếu cấp độ an tồn safe level positive đối tượng gần tới 0, đối tượng gần với phần tử nhiễu, ngược lại gần tới k, đối tượng nằm

vùng an toàn Mức độ an toàn phần tử positive định nghĩa công thức số (2) Nó thường chọn vị trí an tồn tới phần tử sinh nhân tạo

safe level positive (slp) = số láng giềng lớp thiểu số k láng giềng gần (1)

safe level area (slp_area) = slp đối tượng thuộc lớp thiểu số / k láng giềng gần phần tử xét (2)

Giả sử p phần tử liệu lớp thiểu số xét, slp_area mức độ an tồn phần tử Đối tượng lớp thiểu số có nhân hay không phụ thuộc vào tỉ lệ

slp_area Nếu slp_area>0.5, nghĩa xung quanh phần tử thiểu số xét có nhiều

(4)

152 ĐẶNG XUÂN THỌ cs

tử nhãn với nó, có nhiều phần tử nhiễu, lúc ta loại phần tử xét mà khơng nhân chúng lên

2.1.2 Thuật toán RSO

Input: Bộ liệu huấn luyện T có tập phần tử lớp thiểu số D

N%: Số % positive nhân thuật toán RSO

k: Số láng giềng gần phần tử positive

Output: Bộ liệu huấn luyện T’ gồm tập phần tử nhân sinh thêm D’ Các bước thực thuật toán sau:

𝐷′= ∅

∀𝑝 ∈ 𝐷: Tính k láng giềng gần p T

slp = số lượng positive k láng giềng gần p trong D

slp_area = slp/k

if (0.5 < slp_area ≤ 1)

Nhân N% phần tử p an toàn xét; return 𝐷′

2.2 Random Safe Undersampling (RSU)

2.2.1 Ý tưởng

Kết hợp ý tưởng từ thuật toán RU khái niệm vùng an tồn, thuật tốn RSU ngẫu nhiên loại bỏ phần tử an toàn lớp đa số Tương tự thuật tốn RSO, với thuật tốn RSU chúng tơi định nghĩa cấp độ an toàn safe level negative(sln) cơng thức (3) mức độ an tồn phần tử negative định nghĩa công thức (4) sau:

safe level negative (sln) = số láng giềng lớp đa số k láng giềng gần (3)

safe level area (sln_area) = sln đối tượng thuộc lớp đa số / k láng giềng gần phần tử xét (4)

Nếu tỷ lệ sln_area đối tượng n xét nằm khoảng từ 0.5 ÷ 1, tức nằm vùng an tồn, ta loại bỏ phần tử negative khỏi liệu

2.2.2 Thuật toán RSU

Input: Bộ liệu huấn luyện T có tập phần tử lớp đa số C

M%: Số % negative bị loại bỏ thuật toán RSU

(5)

PHƯƠNG PHÁP MỚI DỰA TRÊN VÙNG AN TOÀN NÂNG CAO HIỆU QUẢ PHÂN LỚP 153

Output: Bộ liệu huấn luyện T’ đã loại bỏ tập phần tử negative an toàn C’ Các bước thực thuật toán:

𝐶′= ∅

∀𝑛 ∈ 𝐶: Tính k láng giềng gần n

sln = số lượng negative k láng giềng gần n C

slp_area = sln/k

if (0.5 < sln_area ≤ 1)

Loại bỏ M% phần tử n an toàn xét; return C’

2.3 Random Safe Over and Undersampling (RSOU)

Kết hợp hai thuật tốn RSO RSU trên, chúng tơi đề xuất thuật toán RSOU dựa cấp độ an toàn mức độ an toàn đối tượng để vừa sinh thêm phần tử an toàn lớp thiểu số, vừa loại bỏ phần tử an tồn lớp đa số

Thuật tốn cụ thể sau:

Input: Bộ liệu huấn luyện T

Tập phần tử lớp thiểu số D, tập phần tử lớp đa số C

N%: Số % positive nhân thuật toán RSO

M%: Số % negative bị loại bỏ thuật toán RSU

k: Số láng giềng gần phần tử positive

Output: Bộ liệu huấn luyện T’ gồm tập phần tử nhân sinh thêm D’ 𝐷′= ∅; 𝐶′= ∅

If (class = “Positive”)

Thực thuật toán RSO If (class = “Negative”)

Thực thuật toán RSU Return 𝐷′⋃𝐶′

2.4 Thực nghiệm

2.4.1 Các tiêu chí đánh giá

(6)

154 ĐẶNG XUÂN THỌ cs

negative mơ hình phân lớp dự đốn positive FN số phần tử có nhãn lớp thực tế positive mơ hình phân lớp dự đoán negative TN số phần tử có nhãn lớp thực tế negative mơ hình phân lớp dự đốn negative

Bảng Ma trận nhầm lẫn

Positive dự đoán Negative dự đoán

Positive thực tế TP FN

Negative thực tế FP TN

Một số độ đo định nghĩa dựa ma trận nhầm lẫn Error! Reference source not found.:

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃+𝑇𝑁

𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁 (5)

𝑇𝑃𝑟𝑎𝑡𝑒 =

𝑇𝑃

𝑇𝑃+𝐹𝑁 (6)

𝑇𝑁𝑟𝑎𝑡𝑒 = 𝑇𝑁

𝑇𝑁+𝐹𝑃 (7)

𝐺 − 𝑚𝑒𝑎𝑛 = √𝑇𝑃𝑟𝑎𝑡𝑒∙ 𝑇𝑁𝑟𝑎𝑡𝑒 (8)

Trong đó, G-mean độ đo biểu diễn hiệu phân lớp hai lớp thiểu số lớp đa số [9] G-mean được xác định dựa vào hai giá trị TPrate TNrate Trong phần thực

nghiệm, sử dụng độ đo G-mean để đánh giá hiệu phân lớp thuật toán

2.4.2 Dữ liệu

Chúng tiến hành thực nghiệm liệu cân từ kho liệu chuẩn quốc tế UCI [10] Bảng thông tin số liệu mà báosử dụng trình thực nghiệm

Bảng Dữ liệu chuẩn quốc tế nguồn UCI

Dữ liệu Số phần tử Số thuộc tính mất cân Tỉ lệ

Pima 768 :

Glass 193 :

Haberman 306 :

Blood 748 :

Breast-w 198 32 :

(7)

PHƯƠNG PHÁP MỚI DỰA TRÊN VÙNG AN TOÀN NÂNG CAO HIỆU QUẢ PHÂN LỚP 155

2.4.3 Kết thực nghiệm đánh giá

Chúng tiến hành thực nghiệm xây dựng ngôn ngữ R Perl Trong R sử dụng gói kernlab – package có chức phân lớp theo thuật toán SVM Để đánh giá hiệu phân lớp hai thuật tốn, chúng tơi kết hợp chúng với thuật toán phân lớp chuẩn SVM

Đầu tiên chia ngẫu nhiên liệu ban đầu phương pháp cross-validation làm 10-fold có kích thước xấp xỉ Việc đánh giá thực 10 lần, lần lấy fold làm tập kiểm thử, folds lại sử dụng làm tập huấn luyện Với lần lặp, từ tập liệu huấn luyện, thực áp dụng thuật toán RO, RU, RSO, RSU, RSOU để thu tập liệu huấn luyện Tỷ lệ sinh phần tử nhân tạo giảm phần tử tính dựa theo tham số N% M%.

Trong thực nghiệm, thực với tham số N% lần lượt 100%, 200%, 300%; tham số M% 5%, 10%, 15%, 20% cuối lựa chọn tham số tốt cho liệu

Sau đó, áp dụng thuật tốn phân lớp SVM vào liệu huấn luyện thu mơ hình phân lớp để đưa vào đánh giá tập liệu kiểm thử Sau 10 lần lặp, hiệu phân lớp xác định trung bình cộng 10 giá trị độ đo tính lần Sau cài đặt, thống kê kết quả, thực đánh giá hiệu thuật tốn liệu Hình

Hình 1. Biểu đồ so sánh G-mean liệu UCI

20.00 30.00 40.00 50.00 60.00 70.00 80.00 90.00

Breast-p Blood Haberman Glass Pima

Breast-p Blood Haberman Glass Pima

Original 35.50 30.59 41.33 85.03 69.22

RO 64.98 65.97 60.65 85.04 74.09

RU 58.26 65.64 58.74 86.18 74.62

RSO 36.27 61.70 51.94 86.80 73.66

RSU 57.21 63.92 53.05 86.00 73.47

RSOU 66.08 67.87 62.63 87.10 75.45

Ngày đăng: 31/03/2021, 23:55

Tài liệu cùng người dùng

Tài liệu liên quan