MỤC LỤC
Hiện tại để giải quyết các vấn đề phức tạp và thực tế với nhiều giá trị biến từ một tập dữ liệu lớn như COCO [11] và ImageNet 2012 [12], AlexNet [13] của Krizhevsky et al – năm 2012, bao gồm tám lớp: năm lớp tích chập, ba lớp được kết nối đầy đủ, sử dụng tính phi tuyến tính ReLU thay vì hàm tanh, có thể nhận dạng lệch tâm các đối tượng và hầu hết năm lớp hàng đầu của nó cho mỗi hình ảnh, ngoài ra, giảm thời gian đào tạo trong khi áp dụng nhiều GPU và áp dụng hai phương pháp để xử lý vấn đề bão hòa: tăng cường dữ liệu và DropOut, đã giành chiến thắng trong cuộc thi ImageNet. Do số lượng tham số khổng lồ (khoảng 60 triệu) của AlexNet và sự xuống cấp nghiêm trọng trong trường hợp loại bỏ bất kỳ lớp tích chập nào, VGG [7] – Visual Nhóm Hình học được biết đến bởi Simonyan et al – kế thừa các ghi chú đáng chú ý và tiếp tục phát triển bằng cách sử dụng lớp tích chập với bộ lọc nhỏ (3x3) thay thế cho lớp tích chập với bộ lọc lớn hơn (5x5 và 11x11) dẫn đến giảm các tham số tương ứng với ánh xạ phi tuyến tính, sâu hơn và đặc biệt là tốt hơn trong thời gian đào tạo, nhưng việc xây dựng một mạng lưới thần kinh là với 16 và 19 lớp sâu hơn vào năm 2015 [12].
Sau khi nhận được tập dữ liệu được gắn nhãn có sẵn và xem xét kết quả của toàn bộ tập dữ liệu, học viên nhận thấy có rất nhiều dữ liệu rác - dữ liệu không bao gồm thẻ - trong thống kê hình 2.1.2.2 dẫn đến việc mất cân bằng trong tập dữ liệu và mô hình không thể học hiệu quả trên tập dữ liệu này. Như được hiển thị trong bảng bên dưới, duy trì cùng một môi trường thiết lập như nhãn, số lượng lớp, kích thước lô, v.v., học viên đã thực hiện việc tăng kích thước của hình ảnh và sử dụng các mô hình tương tự: ResNet18, DenseNet121, EfficientNetB0, và CoAtNet để đánh giá ảnh hưởng của kích thước đến độ chính xác của mô hình. Trong học máy, tăng cường dữ liệu là quá trình mở rộng tập dữ liệu huấn luyện về cả quy mô và sự đa dạng từ dữ liệu hiện tại thông qua việc sử dụng các phép biến đổi và thay đổi bằng cách đào tạo trên một số bản sao dữ liệu hiện có được sửa đổi một chút giúp giảm tình trạng bị quá mức (overfitting) khi đào tạo mô hình học máy.
Xoay và chia tỷ lệ (Rotating and Scaling): Hình ảnh và dạng sóng âm thanh có thể được xoay và thu nhỏ tương ứng theo kích thước hoặc hướng mới. Phương pháp này có thể áp dụng trong các lĩnh vực như phân tích hình ảnh y tế và phân tích hình ảnh trên không trong đó hướng và kích thước của vật thể đóng vai trò quan trọng. Mô hình có thể học cách nhận dạng vật phẩm ở nhiều góc độ và kích thước khác nhau bằng cách xoay và chia tỷ lệ dữ liệu. a) Ảnh gốc, b) Các phương pháp truyền thống được áp dụng (Xoay, lật, thay đổi kích thước, nhiễu), c) CutOut với kích thước khối là 8x8, d) RandAugment. Đồng thời với các lớp tích chập, có cách gộp giúp giảm kích thước của bản đồ đối tượng (feature maps) như gộp chung tối đa (max pooling) hoặc gộp chung trung bình (average pooling); hàm kích hoạt đầu ra của nút đó với một đầu vào hoặc một tập hợp các đầu vào cụ thể là: ReLU, Tanh, Sigmoid, GELU,..; chuẩn hóa hàng loạt (Batch Normalization – BN) tăng tốc độ đào tạo bằng cách bình thường hóa việc kích hoạt lớp ẩn (hidden layer), làm mịn hàm mất mát và so sánh sự khác biệt của đầu ra được dự đoán và kết quả thật (ground truth). Mục đích của CoAtNet là kết hợp lợi thế của CNN và Transformers thành một kiến trúc duy nhất, về mặt khái quát hóa và năng lực mô hình vì hạn chế chính của ViT là ngốn dữ liệu trong khi CNN không tập trung vào chủ thể và khó khăn trong việc đối tượng nhận dạng ở cùng cấp độ với con người.
Cùng ý tưởng như khối CBAM là cải thiện khả năng chú ý và học của mô hình, khối ép và kích thích (SE – Squeeze -and-Excitation), được Jie Hu, Li Shen và các công sự công bố vào năm 2018, là một đơn vị kiến trúc có thể được kết nối vào mạng nơ ron tích chập để cải thiện sự phụ thuộc lẫn nhau (interdependencies) giữa các kênh tính năng khác nhau. Như đã biết CNN sử dụng các bộ lọc tích chập để thu thập thông tin không gian và thời gian từ hình ảnh, CNN thực hiện phân loại hình ảnh bằng cách tìm kiếm các đặc điểm cấp thấp như các cạnh và đường cong, sau đó xây dựng các đặc điểm trừu tượng hơn thông qua một loạt các lớp chập. Tiếp tục triển vọng này, vào năm 2020, Khung đơn giản để học tương phản về biểu diễn trực quan (A Simple Framework for Constrastive Learning of Visual Representations – SimCLR) [16] do Chen và cộng sự xuất bản đã xác định các cặp mẫu 'tích cực' và 'tiêu cực' giúp tối đa hóa sự đồng thuận giữa các chế độ xem tăng cường khác nhau của cùng một ví dụ dữ liệu và được xử lý khác nhau trong hàm mất mát.
Trước hết, điểm F1 hoặc chỉ số F1 (F1-metric) đo lường sự cân bằng giữa độ chính xác (Precision – Pre) tính toán độ chính xác của mô hình trong việc phân loại mẫu là dương tính và độ thu hồi (Recall – Re) tính toán khả năng của mô hình để phát hiện các mẫu dương tính trong đó TP, TN, FP và FN tương ứng với Dương tính thật (True Positive), Âm tính thật (True Negative), Dương tính giả (False Positive) và.
Từ bảng 1, ta có kết quả khảo sát trên mô hình: ResNet18, DenseNet121, EfficientNetB0 lần lượt là 75%, 70% và 64%, các khảo sát sẽ không thực hiện trên mô hình CoAtNet và Vision Transformer vì khối chú ý nhiều đầu (Multi-head. self-attentions) đã được tích hợp sẵn trong các mô hình này. Khi tích hợp thêm khối CBAM, kết quả của giá trị chính xác không thay đổi nhiều 1-2% (88% là giá trị cao nhất trong việc cải thiện mô hình khi kết hợp SE- và CBAM) hoặc làm giảm độ chính xác của mô hình như trong trường hợp ở lớp 3 và 4. Vì vậy, tùy theo nhu cầu của người sử dụng sau này hoặc chỉ sử dụng khối CBAM hoặc chỉ khối SE- hoặc CBAM và SE- cho lớp 4, học viện chỉ mở rộng thêm trong nghiên cứu của mình, tuy nhiên, vẫn giữ nguyên mô hình ResNet18 kết hợp với khối CBAM được nâng cấp ở các lớp 1, 2, 3 và dùng mô hình này như xương sống cho.
Liên quan đến phương pháp tự học Barlow Twins, mô hình được huấn luyện có độ chính xác cao từ bước học có giám sát trước đó (ResNet18+CBAMupdated 1, 2, 3) đã được sử dụng làm xương sống trong phương pháp Barlow Twins để tối ưu hóa trên tập dữ liệu của dự án. Từ đú, bài toỏn theo dừi lợn dựa vào camera được đặt ra, để phõn biệt được 12 con lợn khỏc nhau trong cựng 1 chuồng và theo dừi cỏc tập tớnh bất thường trực tiếp bằng camera 24/7, công ty NorvinAS đã sử dụng thẻ đeo tai khác nhau nhằm phân biệt và theo dừi từng cỏ thể. Trong tương lai, khi được ghộp lại hoàn chỉnh, một hệ thống theo dừi lơn 24/7 và xỏc định những cá thể có tính cách bất thường sẽ được hoàn thiện và sẽ tối ưu trong việc chọn lọc giống vật nuôi trực tiếp trên camera và có thể hạn chế sự can thiệp của người nuôi.
Với phần tìm hiểu trong việc nâng cấp khối tập trung CBAM bằng việc kết hợp thay thế hàm kích hoạt ReLU bằng GeLU trong khối chú ý kênh và chèn thêm lớp chuẩn hàng loạt ở sau khối MaxPool và Average Pool trong khối chú ý không gian để tăng sự hội tụ đã giúp cải thiện từ 2-4% so với khối CBAM gốc và đã được báo cáo tại Hội Nghị NAFOSTED tại Hồ Chí Minh, Việt Nam vào năm 2022 – Improvement on Mechanics Attention Deep Learning Model for Classification Ear-tag of Swine. Để giúp mô hình được huấn luyện riêng cho tập dữ liệu PigBrother (sử dụng cả những hình ảnh chưa được gắn nhãn với số lượng nhiều hơn tập gán nhãn), phương pháp tự học Barlow Twins đã được áp dụng và thay thế công thức tính mất mát truyền thống (Cross- Entropy) bằng công thức tính mất mát tiêu cự (Focal Loss) để một phần hỗ trợ mô hình trong trường hợp dữ liệu mất cân bằng – điều này là không thể tránh khỏi vì tập dữ liệu chưa gán nhãn rất lớn và xác suất mất cân bằng rất cao.