ROC Curve cho từng loại kernel OCSVM trên tập Bana- 123docz.net

5 ỨNG DỤNG PHÁT HIỆN DỮ LIỆU NGOẠI LAI

4.5 ROC Curve cho từng loại kernel OCSVM trên tập Banana

4.3. Tập dữ liệu Mammography

Nhận xét, đánh giá

Bảng bên dưới là tổng hợp kết quả sau khi thực nghiệm trên tập dữ liệu banana.

Linear-

SVDD Poly-SVDD RBF-SVDD Linear-OCSVM Poly-OCSVM RBF-OCSVM Accuracy 0.6300 0.5567 0.9667 0.8600 0.5700 0.8800

Precision 0.4032 0.3606 0.9221 0.9459 0.2923 0.9535

Recall 1. 1. 0.9467 0.4667 0.5067 0.5467

f1 0.5747 0.5300 0.9342 0.6250 0.3707 0.6949

AUC 0.6815 0.7690 0.9915 0.8181 0.4978 0.9606

Bảng 4.5: Tổng hợp kết quả thực nghiệm với tập dữ liệu banana

Như đã trình bày ở mục cơ sở lý thuyết, kernel Gaussian (RBF) được sử dụng chủ yếu và cho kết quả tốt khi làm việc với SVDD cũng như OCSVM. Và rõ ràng, qua bảng số liệu, chúng ta dễ thấy được khi sử dụng kernel RBF cho kết quả tốt hơn so với những kernel khác như linear hay polynomial. Nhìn chung, qua bảng số liệu trên, hai hướng tiếp cận SVDD và OCSVM đều cho kết quả đánh giá khá tương đồng nhau. Vì đây là tập dữ liệu hai chiều, nên chúng tôi không thực hiện thử nghiệm với Autoencoder SVDD. Tiếp theo, chúng tôi sẽ thử nghiệm với một tập Benchmark khác.

4.3 Tập dữ liệu Mammography 4.3.1 Mô tả dữ liệu

Tập dữ liệu gốc Mammography được xây dựng bởi Kevin Woods, 1993 và được thử nghiệm trong một bài báo có tên "Comparative Evaluation Of Pattern Recognition Techniques For Detection Of Microcalcifications In Mammography". Đầu tiên, tập dữ liệu liên quan tới 24 bức ảnh chụp X-quang tuyến vú, phục vụ cho việc chuẩn đoán bênh ung thư. Những bức ảnh này được tiền xử lý, sử dụng những kỹ thuật phân đoạn, trích xuất đặc trưng của thị giác máy tính. Nhãn của

4.3. Tập dữ liệu Mammography

ảnh được đánh theo kinh nghiệm của bác sĩ. Có tổng cộng 29 đặc trưng được trích xuất từ những đối tượng được phân đoạn, sau đó được giảm xuống 18 và cuối cùng là 6, bao gồm:

Diện tích(theo pixel) Mức xám trung bình

Cường độ chuyển màu của các pixel chu vi

Mức dao động trung bình bình phương nhiễu so với điểm gốc

Độ tương phản giữa mức xám trung bình của đối tượng trừ đi trung bình của đường viên rộng 2 pixels bao quanh đối tượng

Một thời điểm ở vị trí thấp dựa vào bộ mơ tả hình dạng

Có hai lớp bị ung thư và không bị ung thư. Mục tiêu của chúng ta là phân biệt được bị hay không bị ung thư.

Lớp bị ung thư: lớp thiểu số Lớp không bị ung thư: lớp đa số

Đây là tập dữ liệu bất cân bằng, nên phù hợp cho cuộc thử nghiệm trong luận văn này. Tập gồm 11183 mẫu, trong đó có 260 mẫu thuộc lớp thiểu số (tức bị dán nhãn ung thư).

ROC Curve cho từng loại kernel OCSVM trên tập Banana

Một số tiếp cận phổ biến hiện nay

Giới thiệu các biến slack