MỤC LỤC
Khi nhắc đến khối trích xuất đặc trưng (backbone), tập dữ liệu được sử dụng nhiều nhất để huấn luyện là ImageNet 1K [2] với tổng số loại đối tượng là 1000 loại đối tượng. Do đó, để phân lớp đối tượng có độ tương đồng cao, đề tài có tìm kiếm hai bộ dữ liệu có độ tương đồng cao về đối tượng.
Có thể thay đổi số kênh và các khối phần dư trong mô-đun để tạo ra các mô hình ResNet khác nhau, ví dụ mô hình 152 tầng của ResNet-152. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)[6] là bài báo ra đời vào năm 2020, sự tiếp nối của việc bùng nổ trong lĩnh vực xử lý ngôn ngữ tự nhiên, những kĩ thuật của xử lý ngôn ngữ tự nhiên được áp dụng qua xử lý ảnh làm cho lĩnh vực này bước lên một nấc thang mới. Với mỗi ảnh đầu vào, ViT sẽ chia ảnh thành những phần bằng nhau có thể trùng (overlap) hoặc không trùng nhau như hình 3.5.
Tương tự như phân lớp đối tượng thông thường, mô hình học sâu dựa trên biểu diễn đặc trưng đã đạt được một số thành công nhất định trong fine-grained như DeCAF [8], Features off-the- shelf: an Astounding Baseline for Recognition [9]. Tuy nhiên, việc nhận dạng đối tượng trong bài toán fine-grained đòi hỏi mô hình phải tập trung sâu vào vị trí của đối tượng đặc biệt là phần khác nhau. Learning Multi-Attention Convolutional Neural Network for Fine-Grained Image Recognition (MA-CNN)[10] là bài báo ra đời năm 2017 ở hội nghị ICCV, đề xuất mô hình huấn luyện mạng.
Multi-task Formulation: Hàm lỗi của MA-CNN được tối ưu hóa bởi hai hàm lỗi của mô hình học giám sát bao gồm hàm lỗi phân lớp bộ phận và hàm lỗi tổng hợp kênh.
One-Squeeze Multi-Excitation Attention Module: Thuật toán sẽ đưa hai bức ảnh của hai lớp khác nhau đi qua các lớp tích chập. Khi đó, tác giả sẽ thiết kế hàm lỗi dựa trên Hingeloss để phạt những trường hợp này sao cho nếu cùng lớp thì attention map sẽ càng giống nhau và khác lớp thì attention map sẽ càng khác nhau. Lấy các cặp ảnh đưa qua mô hình của khối OSME để trích xuất attention và dựa vào các hàm lỗi để giúp mô hình nhìn vào những phần khác nhau của đối tượng.
Một sửa đổi quan trọng trong kiến trúc của tác giả là trong phần upsampling, tác giả cũng có một số lượng lớn kênh đặc trưng, cho phép mạng truyền thông tin ngữ cảnh đến các lớp độ phân giải cao hơn. Mạng không có bất kỳ lớp kết nối đầy đủ nào và chỉ sử dụng phần hợp lệ của mỗi tích chập, tức là bản đồ phân đoạn chỉ chứa các pixel mà toàn bộ ngữ cảnh có sẵn trong hình ảnh đầu vào. U2-Net: Going Deeper with Nested U-Structure for Salient Object Detection [13] là bài báo ra đời năm 2020 và là sự phát triển của bài báo U-Net [12].
Trong đó,xi∈Rd là vector đặc trưng thứithuộc lớpyi vớid được cho là 512.Wj∈Rd là cột thứ j của ma trậnW ∈Rdxnvàbj∈Rn. Bài báo về Naive Semi-Supervised Deep Learning using Pseudo-Label [15] tập trung vào việc đề xuất một phương pháp học máy bán giám sát thông qua việc sử dụng pseudo-labels, một cách tiếp cận đơn giản nhưng có hiệu quả trong việc tận dụng dữ liệu không gắn nhãn để cải thiện hiệu suất của mô hình. Phương pháp này đáp ứng nhu cầu ngày càng tăng về việc mở rộng khả năng học của mô hình trong trường hợp có ít dữ liệu gắn nhãn nhưng nhiều dữ liệu không gắn nhãn.
Phương pháp thứ nhất là một kỹ thuật nửa giám sát với việc cải thiện biểu diễn và đánh nhãn giả. Trong khi phương pháp thứ hai tập trung vào việc tự học của mô hình, với đa hàm mất mát cho việc phân lớp và phân đoạn.
Trong công việc của chúng tôi, chúng tôi sử dụng ResNet-18 làm backbone và Projector là một lớp fully connected với128chiều để thu được một embedding vectorv∈R128. Phương pháp của chúng tôi thực hiện nhãn giả bằng cách kết hợp khoảng cách của các embedding vector đến các điểm dữ liệu có nhãn và xác suất tương ứng được tạo ra bởi hàm softmax. Sau khi tìm ra lớp dự đoán dựa trên khoảng cách Euclidean, lớp có xác suất cao nhất phải tương ứng với lớp có kết quả nhỏ nhất dựa trên khoảng cách.
Trong những giai đoạn huấn luyện đầu tiên, rất khó để xác suất dự đoán cho mỗi lớp và khoảng cách đến các lớp tương ứng của chúng đồng thuận với nhau. LT ng=LArcloss+LCE(yl,M(xl)) +LCE(yl,y).ˆ (4.4) Hàm mất mát này phục vụ để thúc đẩy mô hình phát triển các embedding vector có khả năng phân biệt cao, đồng thời tạo ra sự nhất quán giữa các biểu diễn không gian và tương quan giữa các lớp. Xác suất này phụ thuộc vào quá trình học của lớp được phân loại cuối cùng, có thể không chính xác nắm bắt được đặc trưng phân biệt trong những giai đoạn huấn luyện đầu tiên.
• Multi-classification loss (MCL): sẽ cố gắng thúc đẩy backbone nhìn kĩ vào mô hình trên từng đặc trưng được đưa ra từ tổng quan đến chi tiết nhằm loại bỏ những chi tiết dư thừa từ những lớp đầu tiên. Hàm lỗi MCL sẽ giúp cho mô hình tăng khả năng biểu diễn ảnh bằng cách cập nhật trọng số mạnh mẽ hơn hàm lỗi thông thường thông qua việc hạn chế gradient vanishing và sự ảnh hưởng của chuỗi đạo hàm (chain rule). • Multi-segmentation loss (MSL): sẽ cố gắng giúp mô hình backbone tìm kiếm, xác định vị trí của đối tượng nhằm tăng cường việc loại bỏ phong nền và những dữ liệu dư thừa mà tập trung vào đối tượng cần phân loại.
Khi đó, đạo hàm của các mô hình phân lớp con này sẽ có ảnh hưởng lớn đến việc cập nhật trọng số hơn khi chúng ta chỉ có một hàm mất mát ở khối cuối cùng để cập nhật vì xảy ra nhiều lý do như đạo hàm quá nhỏ. Dễ dàng thấy rằng nếu từng mô hình con được cập nhật trọng số trực tiếp tức là mô hình con sẽ đi theo hướng cố gắng nhìn vào những đặc trưng mang tính phân tách cao từ đó sẽ loại bỏ đi những đặc trưng nhiễu như phông nền, những chi tiết chung của lớp,. Trong sốCibản đồ đặc trưng này, sẽ có những bản đồ thể hiện vùng mô hình đang xem xét là vùng của phông nền khi đó mô hình con này sẽ không nhìn được vào vùng có tính phân tách cao như hình 4.7.
Mặt khác, như đã đề cập ở những phần trước, việc xây dựng mô hình trong đề tài này nhằm mang đến ý tưởng phạt sớm, tức những tầng đầu tiên phải được làm chuẩn, nếu có sai lệch thì hạn chế truyền được đến những tầng sau. Ở những tầng đầu, nếu mô hình có cho ra những điểm nằm trong phong nền, khi đến tầng cuối, sau khi phạt qua cácMithì những điểm này biến mất, khi đó, chúng ta có thể xem rằng việc lấy nhãn ở tầng cuối cùng sẽ giúp cho mặt nạMi mất đi những điểm phong nền. Những tầng cao như trong block 1, việc này giúp cho mô hình loại bỏ đi những vùng phông nền và không cần thiết dựa vào việc tối ưu hóa hàm lỗi ở mô hình segmentation từ đó giúp trọng số trong những block này được cập nhật để nhìn vào những vùng.
Như hình 4.9, dễ dàng thấy rằng, mô hình mà chúng tôi đề xuất được thiết kế với khả năng mở rộng ở mức sâu, cho phép nó tự động học các đặc trưng phức tạp và ngữ cảnh đa dạng từ dữ liệu đào tạo. Điều này giúp mô hình tập trung vào những chi tiết quan trọng trong hình ảnh, đồng thời giảm ảnh hưởng của các yếu tố nhiễu hoặc phông nền không quan trọng. Việc này mang lại lợi ích lớn trong việc tăng khả năng phân loại chính xác, đặc biệt khi đối mặt với những thách thức như sự chồng chất giữa các đối tượng hoặc nền phức tạp.
Trong phần này của luận văn, chúng tôi dụng mô hình Resnet-50 làm baseline để so sánh với các kết quả của các bài báo khác và sử dụng tập dữ liệu CAR [4] đạt tiêu chí về ít dữ liệu ( 40 ảnh cho mỗi lớp đối tượng) dùng để huấn luyện. Một số kết quả công bố trên các bài báo về Resnet-50 đạt được độ chính xác cơ bản là 89.8% và các đánh giá khác được thể hiện ở bảng 5.1 với "Dữ liệu thêm" thể hiện cho việc sử dụng thêm nhãn (đóng khung vật thể hoặc thành phần của đối tượng) và 1 giai đoạn thể hiện việc mô hình có thể huấn luyện trong 1 giai đoạn. Việc lựa chọn ResNet-50 không chỉ là sự chọn lựa chiến lược hợp lý dựa trên hiệu suất đã được kiểm chứng của mô hình này trong nhiều bài toán thị giác máy tính, mà còn nhằm mục tiờu rừ ràng: thể hiện khả năng huấn luyện hiệu quả của mụ hỡnh trong một giai đoạn duy nhất.
Điều này đặt ra những thách thức trong việc cân nhắc và cải thiện quá trình xử lý thông tin ở những tầng giữa của mô hình, có thể thông qua việc tối ưu hóa quá trình xây dựng mask hoặc tăng cường khả năng nhận diện đặc trưng quan trọng trong các phần quan sát nhỏ. Tổng cộng, việc kết hợp cấu hình hệ thống cơ sở dữ liệu linh hoạt, hướng tiếp cận one-shot learning, điều chỉnh siêu tham số mô hình, và sử dụng các phương pháp xử lý ngưỡng linh hoạt là chìa khóa để tối ưu hóa khả năng học và nhận dạng của mô hình trong môi trường đa dạng và biến động.
Schroff et al., in [25], introduced the concept of the Triplet loss, which is based on the distances between negative and positive pairs of im- ages, incorporating a margin to further enhance the discriminative capabilities of the learned features. Building upon this research, other investigations, for an example as ArcFace [6], have proposed a different loss function that tried to leverage an angular margin to effectively promote the development of highly discriminative features. In the pseudo-labeling step, adding all data points from the set of unlabeled data with pseudo-labels, denoted byUˆ, to the training process can potentially lead to the misclassification of certain data points that are less discriminative.
Yan, “A noise robust method based on completed local binary patterns for hot-rolled steel strip surface defects,”Applied Surface Science, vol. Mei, “Look closer to see better: Recurrent attention convolu- tional neural network for fine-grained image recognition,” in2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2017, pp. Fei-Fei, “Fine-grained recognition without part annota- tions,” in2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2015, pp.