MỤC LỤC
Tuy nhiên, phản hồi từ một lớp sâu hơn trong hệ thống phân cấp của thuật toán đóng vai trò như một bộ lọc đặc trưng mà mô hình có thể sử dụng để không chỉ phân biệt khuôn mặt với các hình ảnh không phải khuôn mặt mà còn tạo bộ phân loại mới trong quá trình phân loại. Simonyan và Zisserman trong [1] của Đại học Oxford đã tạo ra CNN 19 tầng (16 tầng tích chập và 3 tầng được kết nối đầy đủ), sử dụng bộ lọc 3x3 với sải bước và đệm là 1, cùng với các tầng gộp tối đa với sải bước 2, được gọi là mô hình VGG19 (đặt theo tên nhóm Visual Geometry Group của Đại học Oxford).
Hiện nay, những thiết bị tự động phát hiện khiếm khuyết bề mặt (Surface Defect Detection) đang dần thay thế công đoạn kiểm tra bằng mắt thường của con người trong nhiều lĩnh vực khác nhau, bao gồm 3D, ô tô, đồ gia dụng, sản xuất máy, linh kiện bán dẫn, điện tử, dược phẩm, hàng không vũ trụ và các ngành công nghiệp khác. Trong bài toán nhận diện các mẫu hình khuyết điểm trên tấm bán dẫn (wafer map), Wang và đồng nghiệp [13] đã công bố bộ dữ liệu MixedWM38 và thiết kế một mạng Deformable Convolution (DC-Net) kết hợp với một lớp đầu ra đa nhãn (multi-label) cho phân loại các khuyết điểm hỗn hợp (mixed-type) với độ chính xác trung bình là 93.2%. Phần tiếp theo ta sẽ tìm hiểu những cách tiếp cận phổ biến của phương pháp học biểu diễn (Representation Learning) và cơ chế học tự giám sát (Self-supervised Learning) để xây dựng một mô hình hoạt động hiệu quả dưới điều kiện thiếu dữ liệu ảnh lỗi, đồng thời ta cũng xem xét các hàm mất mát (Loss Function) có thể tối ưu được các biểu diễn ảnh của các lớp khác nhau nhằm tăng độ chính xác của mô hình phân loại.
Bài báo thiết kế khá nhiều thí nghiệm để chứng minh độ hiệu quả của phương pháp, để tổng quát hơn ta sẽ xem xét bảng so sánh độ chính xác của SimCLR với baseline Supervised Learning, các phương pháp label-propagation và học biểu diễn (represention learning) ở hình 3.5. Tuy nhiờn, điểm yếu của hàm này là khụng cú khả năng tối ưu húa rừ ràng cỏc vec-tơ embedding chứa các đặc điểm khuôn mặt để tăng thêm sự tương đồng giữa những khuôn mặt trong cùng một lớp và tăng thêm sự đa dạng giữa các khuôn mặt giữa các lớp khác nhau, dẫn đến tạo ra một khoảng cách cho những khuôn mặt với nhiều biến thể (do khác biệt tuổi tác hay do khác biệt về dáng khuôn mặt). Vì các vec-tơ đặc trưng được phân bổ xung quanh mỗi đặc trưng trung tâm theo một hypersphere, ta sẽ thêm vào đó một hình phạt biên góc cộng (additive angular margin penalty) mgiữaxivàWyi để đồng thời tăng cường tính nhỏ gọn trong nội bộ lớp và sự khác biệt giữa các lớp.
Trong phạm vi luận văn này, chúng tôi đề xuất xây dựng một mô hình kết hợp giữa 2 phương phápSelf-Supervised LearningvàRepresentation Learningđể tận dụng được thông tin có giám sát từ lượng ít dữ liệu ảnh bề mặt có khiếm khuyết, đồng thời học được các biểu diễn từ những hình ảnh không được gán nhãn dựa vào quá trình tăng cường dữ liệu. Áp dụng tư tưởng của kiến trúcSimCLRcủa Contrastive Learning và cơ chế của hàmAdditive Angular Margin Loss trong nhận diện khuôn mặt, chúng tôi sẽ kết hợp các hàm mất mát (loss function) được giới thiệu trong 2 nghiên cứu này để xây dựng mô hình biểu diễn ảnh. Mô-đun này giúp tăng độ tương đồng giữa các đặc trưng của hai ảnh tăng cường bằng cách tối ưu hóa hàm mất mát self-contrastive, với các nhãn được giả định là "positive" (ảnh tăng cường thuộc cùng một ảnh) hoặc "negative" (ảnh tăng cường thuộc hai ảnh khác nhau).
Bộ dữ liệu NEU được công bố bởi trường đại học Northeastern University (NEU), được dùng cho bài toán phân loại và phát hiện đối tượng. Bộ dữ liệu thu thập 6 loại lỗi bề mặt điển hình của những thanh thép cán nóng (hot-rolled steel strip), được đặt tên lần lượt: rolling scale (RS), plaque (Pa), cracking (Cr), pitting surface (PS), inclusions (In) and scratches (Sc). 29 loại còn lại là hỗn hợp (mix-typed defect) của một vài loại khuyết điểm đơn xuất hiện cùng một tấm wafer, khiến cho nhiệm vụ nhận dạng trở nên phức tạp hơn.
Thông qua thử nghiệm này, chúng tôi muốn quan sát hiệu suất của việc kết hợp hai hàm Contrastive loss và Arc loss khi tối ưu hóa Backbone cho việc trích xuất đặc trưng, so với việc fine-tune Backbone theo cách truyền thống. Đặc biệt, trong trường hợp chỉ có 10 ảnh lỗi huấn luyện cho mỗi loại, mô hình đề xuất vẫn đạt được 98.39% dự đoán đúng trên tập kiểm thử. Trong khi các mô hình CNN đòi hỏi một lượng lớn dữ liệu huấn luyện đã được gán nhãn để tránh over-fitting, phương pháp.
Các heat-map thu được cho thấy rằng phương pháp đề xuất cho ra các biểu diễn đặc trưng tập trung vào vùng ảnh lỗi trên hình ảnh tấm bán dẫn (wafer map). Điều này có thể chỉ ra hiệu suất của việc học đặc trưng trong việc phân loại các tổ hợp lỗi phức tạp của wafer, thậm chí là khó nhận diện đối với mắt người. Một lần nữa, điều này cho thấy rằng Contrastive loss và Arc loss đóng vai trò quan trọng trong việc tạo ra các đặc trưng phân biệt cho các lớp khác nhau với dữ liệu quy mô rất nhỏ, nhưng vẫn tránh được hiện tượng over-fitting hay under-fitting.
Với ít dữ liệu, một hướng cho công việc tương lai là áp dụng Supervised Contrastive Learning [28] để tận dụng thông tin nhãn và tránh nhận diện sai các hình ảnh cùng lớp trong một mini-batch huấn luyện. Hàm mất mát hiện tại cũng có thể kết hợp với một mục tiêu phân đoạn (segmentation target) theo hướng weakly supervised để nhận diện và xác định vị trí các khuyết điểm có độ tương đồng cao tốt hơn (fine-grained defects). Ngoài ra, để triển khai được trên dây chuyền sản xuất thực tế, chúng tôi sẽ cần phải giảm số lượng tham số mô hình bằng các kỹ thuật như lượng tử hóa (quantization) để cải thiện tốc độ nhận diện trong khi vẫn duy trì độ chính xác mong muốn.
• Tìm hiểu được nội dung bài toán giám sát ngoại quan trong công nghiệp, nắm được thách thức và các giải pháp trong học thuật để khắc phục tình trạng thiếu dữ liệu huấn luyện cho các mô hình học sâu. • Đề xuất một mô hình end-to-end cải thiện việc biểu diễn các đặc trưng phân loại của backbone trích xuất đặc trưng cho nhiệm vụ nhận diện khuyết điểm bề mặt thông qua phương pháp học biểu diễn bằng tăng cường dữ liệu và kết hợp các hàm mất mát. • Thiết kế nhiều thí nghiệm với tập dữ liệu được giảm số lượng ảnh huấn luyện trên nhiệm vụ phân loại và few-shot learning để phân tích toàn diện tính hiệu quả của việc kết hợp các hàm mất mát trong quá trình huấn luyện.
Chúng tôi tích hợp hai mô-đun Self-Contrastive Learning (SCL) và Angular Margin Penalty (AMP) vào một pipeline để tối ưu hiệu quả các hàm mất mát. Kết quả thực nghiệm với các cài đặt dữ liệu nhỏ cho thấy mô hình tập trung vào các đặc trưng phân biệt của các vùng khuyết điểm tốt hơn so với mô hình backbone ở giai đoạn kiểm thử. • Kết quả của luận văn đã được gửi đến Hội nghị ICIIT 2024và được BTC Hội nghị đề nghị Chỉnh sửa bổ sung và đăng vào Tạp chí JAIT.
Thai Tieu Phuong, Duong Duc Tin, and Le Hong Trang, "Improving Image Representation for Surface Defect Recognition with Small Data", Journal of Advances in Information Technology, Accepted Jan.
With the excellent achievement of deep learning methods in computer vision, many pre-trained convolution-based networks on ImageNet [19–22] became the backbone or feature extraction blocks used for image classification task, including industrial defect recognition problems. The experimental results in Table II show that within the context of the same training samples, our representation learning strategy can outperform another contrastive learning approach [30], an attention mechanism [26] and a semi-supervised method [15], with the average accuracy of 100%, 99.81%, and 99.58%, respectively. While the original Convolutional Neural Network (CNN) baseline requires a large number of labeled training data to avoid over-fitting, our method overcomes this challenge by utilizing contrastive self-supervised learning algorithm with composition of data augmentations, additionally reinforcing discriminative features with the margin penalty module.
Địa chỉ liên hệ: Đội 8 Thôn Qui Hậu, Xã Hòa Trị, Huyện Phú Hòa, Tỉnh Phú Yên.