4 Hiện thực và ứng dụng
4.11 Kết quả thực nghiệm trên tập dữ liệu SMVTecAD
Kết quả thực nghiệm trên tập SMVTecAD khá tốt, trong đó các lớp đối tượng vẫn đạt được AUROC trên 0.9 bao gồm:
bottle carpet leather tile wood 0.993 0.978 0.987 0.950 0.979
Chương 4. Hiện thực và ứng dụng Một số lớp có AUROC từ 0.8 đến 0.9 gồm:
capsule grid metal nut toothbrush transistor 0.818 0.815 0.875 0.847 0.841
Bảng 4.2: Kết quả thực nghiệm trên SMVTecAD với ResNet18
Với tập SMVTecAD, phương pháp đề xuất vẫn mang lại kết quả khá tốt trên một vài lớp đối tượng. Điều này có thể giải thích được do sự tương đồng giữa các vùng trong bức ảnh với nhau. Các lớp đối tượng dạng kết câu như carpet, leather, tile, wood, grid đều mang lại kết quả tốt. Một số đối tượng có dạng đối xứng (tâm, trục) cũng mang lại kết quả tốt như bottle, capsule, metal nut, toothbrush, transistor.
4.4 Tổng kết kết quả thực nghiệm
Sau quá trình thực nghiệm bằng mô hình ResNet18 với bộ dữ liệu MVTecAD, kết quả phân lớp tốt nhất đạt 0.996, thấp nhất đạt 0.741 sử dụng độ đo ROC-AUC.
Với bộ dữ liệu chuẩn đã được chuẩn hóa MVTecAD, kết quả phân lớp đạt được là khá cao. Có thể giải thích kết quả này một phần là do dữ liệu đã được tiền xử lý rất tốt, được căn chỉnh tốt và chụp dưới ảnh sáng tốt. Tuy nhiên, với những dữ liệu không đối xứng, chụp không được căn chỉnh như Screw, kết quả mang lại chưa đạt được cao.
Với mô hình học sâu như mạng nơ-ron tích chập thì việc sử dụng hình ảnh kích thước nhỏ có thể mất một số đặc trưng tốt nhưng ưu điều là huấn luyện nhanh, trong khi sử dụng hình ảnh có kích thước lớn, nhiều chi tiết sẽ mang lại các đặc trưng tốt nhưng có thể mất đặc trưng toàn cục.
Với bài toán phân lớp một lớp, sử dụng phương pháp được đề xuất cũng đã mang lại kết quả khả quan mặc dù sử dụng bộ dữ liệu không quá lớn. Mặc dù số lượng dữ liệu càng nhiều, mô hình huấn luyện càng kỹ có thể mang lại kết quả cao, nhưng không phải vì vậy mà ta cần xây dựng một mô hình đủ lớn để có thể đáp ứng được các yêu cầu. Do đó, việc lựa chọn mô hình phù hợp dựa trên bộ dữ liệu là yêu cầu được đặt ra.
Thực nghiệm phương pháp với mô hình ResNet18 trên tập dữ liệu nhỏ SMVTecAD, kết quả mang lại khá tốt chứng tỏ rằng, phương pháp đề xuất hoàn toàn có thể ứng dụng trong thực tế. Với những sản phẩm yêu cầu bảo mật cao, yêu cầu tính riêng tư, phương
Chương 4. Hiện thực và ứng dụng pháp đề xuất đã giải quyết được thách thức mà các mô hình hiện nay đang phải đối mặt.
Chương 5 Kết luận
5.1 Kết luận
Chúng tôi đã nghiên cứu về bài toán phân lớp một lớp, các kỹ thuật phân lớp cơ bản, các độ đo để đánh giá hiệu năng của kỹ thuật phân lớp, tập trung nghiên cứu về các kỹ thuật áp dụng cho bài toán phát hiện bất thường, sử dụng mạng nơ-ron được huấn luyện trước phù hợp cho các yêu cầu về thời gian và bộ nhớ.
Chúng tôi tìm hiểu và mô hình hóa bài toán phân lớp một lớp cho tập dữ liệu công nghiệp MVTecAD bằng mô hình học sâu nơ-ron tích chập, một trong những kỹ thuật được sử dụng rộng rãi hiện nay. Tập dữ liệu này đã được căn chỉnh tốt.
Thực nghiệm với tập dữ liệu nhỏ, chúng tôi cũng đã chỉ ra phương pháp được đề xuất hoàn toàn có thể giải quyết được vấn đề này. Đây thực sự là một vấn đề quan trọng mà các mô hình hiện nay chưa giải quyết được.
Chúng tôi đã nêu ra các yêu cầu của bài toán phát hiện bất thường trong công nghiệp như thời gian huấn luyện và kích thước mô hình. Chúng tôi cũng đã đưa ra được các ứng dụng của đề tài phân lớp một lớp trong các lĩnh vực khác nhau.
5.2 Định hướng phát triển
Về định hướng phát triển, tôi sẽ nghiên cứu thêm cái hướng tiếp cận khác nhau để giải quyết bài toán phát hiện bất thường nhưng giải quyết được thêm các vấn đề còn tồn tại như tính có thể giải thích được [9], học nửa giám sát với các dữ liệu bất thường thu
Chương 5. Kết luận thập được, thực hiện trên các tập dữ liệu phức tạp hơn, như beanTech[13] hay MVTecAD có chỉnh sửa (dịch chuyển ảnh, xoay ảnh, thêm nhiễu vào ảnh).
Về mặt ứng dụng, tôi sẽ xây dựng ứng dụng desktop sử dụng được đầy đủ phần cứng máy tính để giả lập môi trường công nghiệp, đo lường hiệu suất phân lớp và tăng hiệu quả của mô hình. Ứng dụng này sẽ sử dụng ngôn ngữ C sharp để hiện thực, do C sharp cung cấp lượng lớn thư viện phục vụ thiết kế giao diện đồ họa người dùng. Qua đó, chúng tôi vừa có kiến thức trong phát triển phần mềm đồng thời cũng có kiến thức nghiên cứu về các mô hình học sâu.
Tài liệu tham khảo
[1] Pramuditha Perera, Poojan Oza, and Vishal M. Patel. One-class classification: A survey, 2021.
[2] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg, and Li Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. Interna- tional Journal of Computer Vision (IJCV), 115(3):211–252, 2015.
[3] Alex Krizhevsky. Learning multiple layers of features from tiny images. Technical report, 2009.
[4] Pramuditha Perera and Vishal M. Patel. Learning deep features for one-class classi- fication. IEEE Transactions on Image Processing, 28(11):5450–5463, Nov 2019. [5] Fahad Sohrab, Jenni Raitoharju, Moncef Gabbouj, and Alexandros Iosifidis. Sub-
space support vector data description, 2018.
[6] Larry M. Manevitz and Malik Yousef. One-class svms for document classification. J. Mach. Learn. Res., 2:139–154, March 2002.
[7] Thomas Defard, Aleksandr Setkov, Angelique Loesch, and Romaric Audigier. Padim: a patch distribution modeling framework for anomaly detection and localization.
CoRR, abs/2011.08785, 2020.
[8] Pramuditha Perera, Ramesh Nallapati, and Bing Xiang. Ocgan: One-class novelty detection using gans with constrained latent representations, 2019.
[9] Philipp Liznerski, Lukas Ruff, Robert A. Vandermeulen, Billy Joe Franks, Marius Kloft, and Klaus-Robert M¨uller. Explainable deep one-class classification, 2021. [10] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning
Tài liệu tham khảo [11] Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-
scale image recognition, 2015.
[12] Prasanta Chandra Mahalanobis. On the generalized distance in statistics.Proceedings of the National Institute of Sciences (Calcutta), 2:49–55, 1936.
[13] Pankaj Mishra, Riccardo Verk, Daniele Fornasier, Claudio Piciarelli, and Gian Luca Foresti. Vt-adl: A vision transformer network for image anomaly detection and lo- calization, 2021.