5 ỨNG DỤNG PHÁT HIỆN DỮ LIỆU NGOẠI LAI
4.5 ROC Curve cho từng loại kernel OCSVM trên tập Banana
4.3. Tập dữ liệu Mammography
Nhận xét, đánh giá
Bảng bên dưới là tổng hợp kết quả sau khi thực nghiệm trên tập dữ liệu banana.
Linear-
SVDD Poly-SVDD RBF-SVDD Linear-OCSVM Poly-OCSVM RBF-OCSVM Accuracy 0.6300 0.5567 0.9667 0.8600 0.5700 0.8800
Precision 0.4032 0.3606 0.9221 0.9459 0.2923 0.9535
Recall 1. 1. 0.9467 0.4667 0.5067 0.5467
f1 0.5747 0.5300 0.9342 0.6250 0.3707 0.6949
AUC 0.6815 0.7690 0.9915 0.8181 0.4978 0.9606
Bảng 4.5: Tổng hợp kết quả thực nghiệm với tập dữ liệu banana
Như đã trình bày ở mục cơ sở lý thuyết, kernel Gaussian (RBF) được sử dụng chủ yếu và cho kết quả tốt khi làm việc với SVDD cũng như OCSVM. Và rõ ràng, qua bảng số liệu, chúng ta dễ thấy được khi sử dụng kernel RBF cho kết quả tốt hơn so với những kernel khác như linear hay polynomial. Nhìn chung, qua bảng số liệu trên, hai hướng tiếp cận SVDD và OCSVM đều cho kết quả đánh giá khá tương đồng nhau. Vì đây là tập dữ liệu hai chiều, nên chúng tôi không thực hiện thử nghiệm với Autoencoder SVDD. Tiếp theo, chúng tôi sẽ thử nghiệm với một tập Benchmark khác.
4.3 Tập dữ liệu Mammography 4.3.1 Mô tả dữ liệu
Tập dữ liệu gốc Mammography được xây dựng bởi Kevin Woods, 1993 và được thử nghiệm trong một bài báo có tên "Comparative Evaluation Of Pattern Recognition Techniques For Detection Of Microcalcifications In Mammography". Đầu tiên, tập dữ liệu liên quan tới 24 bức ảnh chụp X-quang tuyến vú, phục vụ cho việc chuẩn đoán bênh ung thư. Những bức ảnh này được tiền xử lý, sử dụng những kỹ thuật phân đoạn, trích xuất đặc trưng của thị giác máy tính. Nhãn của
4.3. Tập dữ liệu Mammography
ảnh được đánh theo kinh nghiệm của bác sĩ. Có tổng cộng 29 đặc trưng được trích xuất từ những đối tượng được phân đoạn, sau đó được giảm xuống 18 và cuối cùng là 6, bao gồm:
Diện tích(theo pixel) Mức xám trung bình
Cường độ chuyển màu của các pixel chu vi
Mức dao động trung bình bình phương nhiễu so với điểm gốc
Độ tương phản giữa mức xám trung bình của đối tượng trừ đi trung bình của đường viên rộng 2 pixels bao quanh đối tượng
Một thời điểm ở vị trí thấp dựa vào bộ mơ tả hình dạng
Có hai lớp bị ung thư và không bị ung thư. Mục tiêu của chúng ta là phân biệt được bị hay không bị ung thư.
Lớp bị ung thư: lớp thiểu số Lớp không bị ung thư: lớp đa số
Đây là tập dữ liệu bất cân bằng, nên phù hợp cho cuộc thử nghiệm trong luận văn này. Tập gồm 11183 mẫu, trong đó có 260 mẫu thuộc lớp thiểu số (tức bị dán nhãn ung thư).