Kết quả thực nghiệm

Một phần của tài liệu Phân lớp dữ liệu hình ảnh một lớp ứng dụng trong các hệ thống giám sát lỗi (Trang 36 - 43)

4 Hiện thực và ứng dụng

4.3 Kết quả thực nghiệm

4.3.1 Thực nghiệm trên tập dữ liệu MVTecAD

Trong luận văn này, chúng tôi quyết định sử dụng mô hình ResNet18 vì mô hình này không quá cồng kềnh, và đã được huấn luyện từ trước. Chúng tôi cũng thực nghiệm trên mô hình VGG16 để so sánh kết quả với ResNet18.

Chương 4. Hiện thực và ứng dụng

Hình 4.3: Kiến trúc mô hình ResNet18

Sử dụng mô hình ResNet18 đã được huấn luyện trước từ với tập dữ liệu ImageNet thư viện torchvision, chúng tôi hiện thực phương pháp như sau.

Với dữ liệu huấn luyện, chúng tôi biến đổi ảnh theo các bước như sau:

• Thu nhỏ ảnh về 256 × 256

• Cắt ảnh từ tâm với kích thước 224 × 224

• Chuẩn hóa ảnh về trung bình và độ lệch chuẩn của tập ImageNet

Để tạo được vector nhúng, chúng tôi chọn ngẫu nhiên 100 giá trị từ các vector đặc trưng đã được nối lại với nhau. Dưới đây là một số kết quả từ tập dữ liệu MVTec AD gốc, chưa được gia tăng dữ liệu. Cột thứ nhất và cột thứ hai lần lượt là ảnh chứa bất thường và phân vùng lỗi có trong ảnh. Cột thứ ba chứa bản đồ nhiệt (heatmap) dự đoán điểm bất thường cho các pixel trong ảnh. Cột thứ tư là kết quả phân vùng lỗi của ảnh.

Chương 4. Hiện thực và ứng dụng

Hình 4.4: Ảnh dự đoán Leather, Wood, Capsule

Chương 4. Hiện thực và ứng dụng

Hình 4.6: Ảnh dự đoán Pill, Transistor, HazelNut

Chương 4. Hiện thực và ứng dụng

Hình 4.8: Ảnh dự đoán Tile, MetalNut, Zipper

Kết quả đánh giá mô hình ResNet18 dựa trên độ đo AUROC cho 2 mức: mức toàn ảnh và mức điểm ảnh. Trục hoành của đồ thị thể hiện tỉ lệ dương tính giả (FPR), trục tung của đồ thị thể hiện tỉ lệ dương tính thật (TPR). Mỗi điểm trong đồ thị thể hiện 2 giá trị này tương ứng với các ngưỡng khác nhau (ngưỡng quyết định phân lớp). Điểm ROCAUC hay AUROC với mô hình ResNet18 trên toàn bộ tập dữ liệu, với mức toàn ảnh đạt trung bình 0.912, với mức điểm ảnh đạt trung bình 0.966.

Chương 4. Hiện thực và ứng dụng

Hình 4.9: AUROC trên tất cả các tập dữ liệu sử dụng mô hình ResNet18

Luận văn này cũng thử nghiệm phương pháp đề xuất với mô hình VGG16, tuy nhiên, khi chọn ngẫu nhiên các đặc trưng, số lương chúng tôi chọn là 200 thay vì 100 như ResNet18. Số đặc trưng được chọn lớn hơn là do số chiều đặc trưng của VGG16 lớn gấp đôi so với ResNet18 ở những layer đã chọn. Điểm ROCAUC hay AUROC với mô hình VGG16 trên toàn bộ tập dữ liệu, với mức toàn ảnh đạt trung bình 0.857, với mức điểm ảnh đạt trung bình 0.920.

Chương 4. Hiện thực và ứng dụng 4.3.2 Thực nghiệm với tập dữ liệu nhỏ MVTecAD

Một thách thức với các mô hình học sâu là tập dữ liệu huấn luyện phải đủ lớn để học được tính tổng quát. Tuy nhiên, vì một vài lý do như quyền riêng tư, tính bảo mật, chi phí lấy mẫu lớn mà khiến cho việc có nhiều dữ liệu thường không khả thi. Để thực nghiệm với trường hợp dữ liệu nhỏ, chúng tôi thực nghiệm phương pháp đề xuất với tập dữ liệu MVTecAD đã được thu nhỏ. Cụ thể hơn, chúng tôi thực nghiệm huấn luyện trên 15%tập dữ liệu gốc, sử dụng mô hình ResNet18 và kiểm thử trên toàn bộ tập kiểm thử của bộ dữ liệu MVTecAD gốc.

Mô tả bộ dữ liệu nhỏ (gọi là SMVTecAD):

• Tập huấn luyện: 15 % tập huấn luyện gốc, ∼ 550 ảnh. Mỗi loại đối tượng ∼35 ảnh.

• Tập kiểm tra: sử dụng toàn bộ tập kiểm tra gốc.

Hình 4.11: Kết quả thực nghiệm trên tập dữ liệu SMVTecAD

Kết quả thực nghiệm trên tập SMVTecAD khá tốt, trong đó các lớp đối tượng vẫn đạt được AUROC trên 0.9 bao gồm:

bottle carpet leather tile wood 0.993 0.978 0.987 0.950 0.979

Chương 4. Hiện thực và ứng dụng Một số lớp có AUROC từ 0.8 đến 0.9 gồm:

capsule grid metal nut toothbrush transistor 0.818 0.815 0.875 0.847 0.841

Bảng 4.2: Kết quả thực nghiệm trên SMVTecAD với ResNet18

Với tập SMVTecAD, phương pháp đề xuất vẫn mang lại kết quả khá tốt trên một vài lớp đối tượng. Điều này có thể giải thích được do sự tương đồng giữa các vùng trong bức ảnh với nhau. Các lớp đối tượng dạng kết câu như carpet, leather, tile, wood, grid đều mang lại kết quả tốt. Một số đối tượng có dạng đối xứng (tâm, trục) cũng mang lại kết quả tốt như bottle, capsule, metal nut, toothbrush, transistor.

Một phần của tài liệu Phân lớp dữ liệu hình ảnh một lớp ứng dụng trong các hệ thống giám sát lỗi (Trang 36 - 43)