1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Kỹ thuật viễn thông: Phát triển và tối ưu mô hình học sâu cho tác vụ phân loại thẻ đeo tai của vật nuôi trong công nghiệp

77 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Trang 2

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Trang 3

Công trình được hoàn thành tại: Trường Đại học Bách Khoa – ĐHQG-HCM

Cán bộ hướng dẫn khoa học: GS TS Lê Tiến Thường

(Ghi rõ họ, tên, học hàm, học vị và chữ ký) Cán bộ chấm nhận xét 1 : PGS TS Hà Hoàng Kha

(Ghi rõ họ, tên, học hàm, học vị và chữ ký) Cán bộ chấm nhận xét 2 : TS Nguyễn Đình Long

(Ghi rõ họ, tên, học hàm, học vị và chữ ký) Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 05 tháng 01 năm 2024 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ) 1 TS Huỳnh Phú Minh Cường (Chủ tịch)

2 TS Trịnh Xuân Dũng (Thư ký)

3 PGS.TS Hà Hoàng Kha (Phản biện 1)

4 TS Nguyễn Đình Long (Phản biện 2)

5 GS TS Võ Nguyễn Quốc Bảo (Ủy viên) Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên

ngành sau khi luận văn đã được sửa chữa (nếu có)

CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA ĐIỆN - ĐIỆN TỬ

Trang 4

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ và tên học viên: Phạm Đức Thịnh MSHV: 2070144 Ngày, tháng, năm sinh: 28/10/1995 Nơi sinh: Hồ Chí Minh Chuyên ngành: Viễn Thông Mã số : 8520208

I TÊN ĐỀ TÀI: Phát triển và tối ưu mô hình học sâu cho tác vụ phân loại thẻ đeo tai

của vật nuôi trong công nghiệp (Tiếng Anh: Developing and optimizing the deep

learning models for the classification of ear-tags in industry)

II NHIỆM VỤ VÀ NỘI DUNG: Với bộ dữ liệu nội bộ nhận được từ dự án của công ty

Norsvin AS ở Na Uy về heo và thẻ đeo tai của heo, học viên sẽ:

1/ Trình bày tổng quan cơ sở lý thuyết các mô hình điển hình, các phương pháp tập trung, các phương pháp học và các thông số được dùng để đánh giá kết quả 2/ Gán nhãn và các phương thức xử lý bộ dữ liệu để có kết quả phù hợp nhất 3/ Khảo sát các mô hình điển hình trên bộ dữ liệu đã được xử lý và chọn mô hình phù hợp Sử dụng phương pháp tập trung (CBAM) để cải thiện và nâng cấp khối CBAM 4/ Áp dụng phương pháp Self-supervised learning trên tập dữ liệu không gắn nhãn và cân chỉnh các siêu tham số (hyperparameters) phù hợp nhất để tối ưu hóa mô hình 5/ Các hàm loss function như Focal Loss, Poly Loss được khảo sát để giúp mô hình học tốt trong điều kiện tập dữ liệu mất cân bằng giữa các lớp (class) 6/ Với luận văn thạc sĩ theo hướng nghiên cứu, học viên có bài báo nghiên cứu khoa học về một phần hoặc đầy đủ các nội dung nghiên cứu

III NGÀY GIAO NHIỆM VỤ : (Ghi theo trong QĐ giao đề tài) IV NGÀY HOÀN THÀNH NHIỆM VỤ: (Ghi theo trong QĐ giao đề tài) V CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): GS.TS Lê Tiến Thường

Trang 5

Luận văn tốt nghiệp thạc sĩ Phạm Đức Thịnh

Hochiminh, March 8, 2024

Trang 6

Lời Cảm Ơn

Lời cảm ơn đầu tiên, tôi xin gửi đến GS TS Lê Tiến Thường, người đã hướng dẫn trong việc tìm hiểu, nghiên cứu về lĩnh vực xử lý tín hiệu và máy học Từ đó, với đề xuất đề tài, tôi có góc nhìn cụ thể và đưa ra cách giải quyết, đồng thời ứng dụng vào bài toán thực tế về phân loại thẻ đeo tai cho vật nuôi trong công nghiệp Đồng thời, nhờ có sự giúp đỡ của Thầy, tôi đã có cơ hội tiếp cận đến các thành tựu nổi bật và các hội nghị nghiên cứu trong thời gian qua Những lời nhận xét, góp ý và sự giúp đỡ của Thầy trong suốt quá trình đã góp phần to lớn, tạo động lực cho tôi đi qua những khó khăn khi tìm hiểu và nghiên cứu đề tài

Bên cạnh đó, tôi xin cảm ơn quý thầy cô khoa Điện – Điện tử trong chương trình thạc sĩ đã truyền đạt các kiến thức đại cương và chuyên ngành, giúp tôi có được các kiến thức và kỹ năng vững vàng làm tiền đề cho sự phát triển của tôi; song song với việc tiếp nhận kiến thức, tôi cũng đã được truyền cảm hứng để trở thành một kỹ sư và rèn luyện thêm khả năng nghiên cứu của mình

Cuối cùng, tôi xin cảm ơn cha mẹ, người đã nuôi dạy, là nguồn động lực và là hậu phương vững chắc để tôi cố gắng, phấn đấu nỗ lực không ngừng để được như ngày hôm nay và cũng như xin được cảm ơn những người bạn đã giúp đỡ, hỗ trợ rất nhiều để tôi hoàn thành Luận văn tốt nghiệp đúng tiến độ nghiệm thu

Trong quá trình tìm hiểu, thực hiện và báo cáo đề tài chắc chắn không thể tránh khỏi sai sót và hạn chế Rất mong nhận được những phản hồi, ý kiến góp ý từ thầy, cô và các bạn học viên Xin chân thành cảm ơn

TP HCM, ngày 22, tháng 12, năm 2023 Học viên thực hiện

Trang 7

Tóm tắt

Đây là một phần trong phân đoạn cuối cùng của tổng thể dự án phát hiện và theo dõi hành vi của lợn nhằm các mục đích để phân loại, lựa chọn giống có những đặc tính gen di truyền tốt nhất, để theo dõi sức khỏe của từng cá thể và đảm bảo nguồn phân phối sản xuất hiệu quả

Hiện tại, phương pháp truyền thống theo dõi bằng tần số vô tuyến (RFID) đang được sử dụng để theo dõi trong phần lớn công nghiệp Tuy nhiên, việc mất tín hiệu RFID có thể xảy ra khi có lợn nằm chồng lên nhau và chỉ có thể được xác lập lại khi chúng trở lại trạm cho ăn Vậy nên, cần thiết xây dựng mô hình theo dõi mới bằng camera 24/7 nhằm hỗ trợ cho phương pháp hiện tại

Đối với bước tiền xử lý, sau khi nhận được kết quả ở định dạng tệp COCO JSON từ bước phát hiện vật thể (object detection): phát hiện và ước tính tư thế, phương pháp lấy điểm chính (key point) từ thẻ tai phải nơi thẻ được gắn Tập dữ liệu được xây dựng lại, kế thừa và chú thích thủ công theo bảng thẻ đeo tai bằng phần mềm Labelme vì trong tập dữ liệu tự trích xuất phần lớn là dữ liệu rác Bước này chủ yếu ảnh hưởng đến độ học chính xác của mô hình trong giá trị của F1 và trực quan hóa bộ dữ liệu

Ngoài ra, bước khảo sát về kích thước cắt ảnh với các phương pháp tăng cường khác nhau như crop, rotate, shear, noise, blur, cutout, randaugment,… được thực hiện để đánh giá sự cải thiện trong việc học Nhiều mô hình tiên tiến (SOTA) đã được áp dụng để kiểm tra sự phù hợp với vấn đề hiện tại và cuối cùng, mô hình ResNet đã được chọn Với mô hình kiến trúc này, các phương pháp chú ý cơ học (attention mechanism) ở cả hai chú ý về không gian và về kênh được sử dụng để tập trung hơn vào phần quan trọng của hình ảnh đầu vào và cải thiện kết quả phân loại của mô hình Mô đun chú ý cũng đã được cải thiện bằng cách thêm Batch Normalize (BN) và thay thế chức năng hàm kích hoạt trước đó (RELU) với hàm chức năng mới (GELU) Tiếp theo, phương pháp tự học (Self-learning) được kết hợp để tối ưu hóa mô hình xương sống (backbone) và khai thác triệt để các tính chất trong bộ dữ liệu Tuy nhiên, trong bước này, quá trình tự học nhạy cảm với bộ dữ liệu mất cân bằng – nghĩa là kết quả phỏng đoán sẽ sai nếu có tập dữ liệu nào có đặc trưng cao và chiếm ưu thế Vì thế học viên đã sử dụng hàm tổn thất tiêu cự (FL) thay vì tổn thất entropy chéo (CE) để xử lý vấn đề

Trang 8

Cuối cùng, sự kết hợp của tất cả các phương pháp tối ưu hóa từ dữ liệu tiền xử lý đến mô hình đã mang lại kết quả đến thời điểm hiện tai với độ chính xác trên 90% Bên cạnh đó, do chi phí lưu trữ dữ liệu, phương pháp nén hình ảnh và video đã được triển khai và nghiên cứu để kiểm tra ảnh hưởng đến hiệu suất của phân đoạn, ước tính vị trí và cả phân loại Sau nhiều lần khảo sát và cân chỉnh thủ công dựa trên quan sát và thử nghiệm, học viên cũng cung cấp bảng các thông số đã được tối ưu hóa cho đến thời điểm hiện tại Kết quả và nghiên cứu sẽ được minh họa rõ ràng ở các chương sau

Trang 9

Abstract

This is the last module in the big general project for detecting and tracking swine To ensure an efficient source of production, it is necessary to observe animals on an individual level in order to evaluate their health and well-being

Currently, the method of radio-frequency identification (RFID) is used to track the pig, however, we may lose the signal in occluding scenes and it could be re-identified after it comes back to the feeding station For these purposes, we try to build a suitable method For the pre-processing step, after receiving the result in COCO JSON file format from the previous step: detecting and pose estimating, we took the key point from the right ear tag where the tag is mounted The dataset was rebuilt, inherited, and re-annotated because the trash data dominated the previous dataset It mainly influenced the accuracy of the model while we measured the micro and macro value of the F1-score and visualize the dataset

The survey on cropping size with the set of augmentation methods such as crop, rotate, shear, noise, blur, cutout, randaugment, was executed to evaluate the improvement in learning Moving to the next step, many state-of-the-art (SOTA) architecture models were applied to check the corresponding to our problem – it was ResNet With the chosen architecture model, we integrated the attention module which was in both channel and spatial attention to more focus on the important part of the input image We also improved this module by adding the Batch Normalize (BN) and replacing the previous activation function with the latest one – Gaussian Error Linear Unit (GELU) We combined the self-learning method for optimizing the backbone and fully exploiting the features in the dataset In this step, self-learning would be sensitive to the imbalanced dataset Therefore, we applied focal loss (FL) instead of cross-entropy loss (CE) to handle this problem

Finally, the combination of all optimization from the pre-processing data to the model provided a satisfying result of more than 90% We also provide the table of hyperparameters that were optimized until this time Moreover, due to the cost of the storage of data, the method of compression on images and videos was implemented and investigated to check the influence on the performance of segmentation, pose estimation, and also classification at this time The result and ablation study will be illustrated clearly by the end of each chapter

Trang 10

Lời Cam Đoan

Tôi là Phạm Đức Thịnh, học viên thạc sĩ khoa Điện - Điện tử, chuyên ngành Viễn thông, khóa 2020, tại Đại học Quốc gia thành phố Hồ Chí Minh – Trường Đại học Bách Khoa Tôi xin cam đoan những nội dung sau đều là sự thật:

(i) Công trình nghiên cứ hoàn toàn do chính tôi thực hiện;

(ii) Các tài liệu và trích dẫn trong nghiên cứu được tham khảo từ các nguồn thực tế, có uy tín và độ chính xác cao;

(iii) Các số liệu và kết quả của nghiên cứu được tôi tự thực hiện một cách độc lập và trung thực

TP HCM, ngày 22, tháng 12, năm 2023

Trang 11

Danh sách từ viết tắt xiii

Chương 1: Giới thiệu 1

1.1 Mở đầu 1

1.1.1 Đặt vấn đề 1

1.1.2 Sơ lược về tập ảnh chăn nuôi 1

1.1.3 Mục tiêu nghiên cứu 2

1.1.4 Đối tương và phạm vi nghiên cứu 2

1.1.5 Các đóng góp của luận văn 3

2.1.3 Các phương pháp tăng cường được sử dụng 11

2.1.3.1 Kỹ thuật tăng cường dữ liệu đơn giản 11

2.1.3.2 Kỹ thuật tăng cường dữ liệu nâng cao 13

2.2 Các mô hình học sâu và các khối tăng cường 14

2.2.1 Mạng ResNet – Residual Network [15] 14

2.2.2 Mạng DenseNet – Densely Network [21] 15

2.2.3 Mạng EfficientNet – Efficient Network [22] 16

2.2.4 Mô hình ViT – Vision Transformer [23] 17

2.2.5 Mạng CoAtNet – Convolution Block And Attention Network [24] 19

Trang 12

2.2.6 Khối chú ý – Convolution Block Attention Module [25, 43] 19

2.2.7 Mạng SE – Squeeze-and-Excitation Network [18] 20

2.2.8 Phương pháp tự học – Barlow Twins [28] 22

2.3 Hàm kích hoạt (Activation Function) 23

3.1.1 Tập dữ liệu: Khảo sát với các kích thướng khác nhau 27

3.1.2 Tập dữ liệu: Các phương pháp tăng cường 28

3.1.3 Mô hình: Các khối tích hợp: SE, CBAM và khối CBAM nâng cấp 29

3.1.4 Mô hình: Phương pháp tự học Barlow Twins 31

3.2 Ý nghĩa thực tiễn và khoa học 32

3.2.1 Ý nghĩa thực tiễn: 32

3.2.2 Ý nghĩa khoa học: 32

3.3 Kết luận chương 3 33

Chương 4: Kết luận và hướng phát triển 34

Danh mục các công trình công trình khoa học 35

1/ Bài báo đăng trên Hội nghị NAFOSTED 2022 36

2/ Bài báo nghiên cứu ở Hội nghị ISPCEM 2023 42

Danh mục tài liệu tham khảo 50

Phụ lục 55

PHẦN LÝ LỊCH TRÍCH NGANG 59

QUÁ TRÌNH ĐÀO TẠO 60

QUÁ TRÌNH CÔNG TÁC 61

Trang 13

Danh sách bảng

Bảng 3.1: Kết quả khảo sát đánh giá độ chính xác F1 tương ứng với các kích thước cắt ảnh

lần lượt là 16, 32, 64 trên các mô hình khác nhau: ResNet18, DenseNet121, EfficientNetB0, CoAtNet_tiny và ViT Small 27

Bảng 3.2: Kết quả đánh giá trên các mô hình khác nhau (và cả với các mô hình có tích hợp

hoặc không tích hợp khối CBAM) khi kết hợp các loại tăng cường khác nhau và kết quả thông số của mô hình (M tính bằng triệu) RUCBAM12, RUCBAM123 có nghĩa là ResNet18 + Updated CBAM cập nhật ở lớp 1, 2 hoặc lớp 1, 2, 3 28

Bảng 3.3: Các quan sát để đánh giá độ chính xác của các mô hình: ResNet18, DenseNet121,

EfficientNetB0, tích hợp CBAM Chữ viết tắt L, B có nghĩa là Layer (lớp) và Block (khối) tương ứng 29

Bảng 3.4: Khảo sát sự kết hợp giữa khối Squeeze and Excitation (SE-) và CBAM trong mô

hình ResNet18 qua giá trị chính xác (Accuracy) 30

Bảng 3.5: Việc loại bỏ để quan sát tính chính xác của mô hình tự học ResNet18 với

mô-đun chú ý được cập nhật ở lớp 1, 2 và 3, một bộ tăng cường được giữ nguyên Chữ viết tắt Ba, Ep, PH, MLP, LF, BLL và Acc lần lượt có nghĩa là Batch (Lô), Epoch (Kỷ nguyên), Project Head (Trưởng dự án), Perceptron nhiều lớp (Perceptron Multi layer), Hàm mất mát (Loss Function), Barlow Twins Loss và Độ chính xác (Accuracy) 31

Bảng 3.6: Các giá trị siêu tham số (hyperparameters) được sử dụng trong cấu hình của các

thí nghiệm 33

Bảng Phụ lục 1: So sánh các phương pháp đánh giá chất lượng hình ảnh Mức thấp hơn sẽ

được áp dụng tốt hơn trên BRISQUE - Công cụ đánh giá chất lượng không gian hình ảnh không tham chiếu, NIQE - Công cụ đánh giá chất lượng hình ảnh tự nhiên và PIQE - Công cụ đánh giá chất lượng hình ảnh dựa trên nhận thức; và giá trị cao hơn sẽ tốt hơn cho UCIQE - Đánh giá chất lượng hình ảnh dưới nước, MDM - Số liệu dựa trên khoảng cách Minkowski và CEIQ - thước đo chất lượng hình ảnh thay đổi độ tương phản dựa trên nâng cao độ tương phản RU - Đơn vị thô, UC1: Đơn vị thay đổi 1, UC2: Đơn vị thay đổi 2, UC3: Đơn vị thay đổi 3 và UC4: Đơn vị thay đổi 4 54

Trang 14

Danh sách hình vẽ

Hình 1.1: 16 thẻ tai duy nhất được sử dụng trong công việc này để xác định từng con lợn

Các thẻ sử dụng các ký tự chữ và số được in trên tai Destron FearingTMHogmax và được công ty lựa chọn để dễ dàng quan sát 3

Hình 1.2: Lưu đồ của quá trinh nghiên cứu – bằng tiếng anh [43] 7 Hình 1.3: Quy trình thực hiện: Tiền xử lý ảnh và nâng cấp mô hình học sâu 8 Hình 2.1: Minh họa bước tiền xử lý của lần cắt ảnh thứ nhất (a) và lần cắt ảnh thứ hai (b).

9

Hình 2.2: Sơ đồ tiền xử lý dữ liệu 10 Hình 2.3: Thống kê tập dữ liệu trước và sau tiền xử lý 11 Hình 2.4: Ví dụ phương pháp tăng cường: a) Ảnh gốc, b) Các phương pháp truyền thống

được áp dụng (Xoay, lật, thay đổi kích thước, nhiễu), c) CutOut với kích thước khối là 8x8, d) RandAugment 12

Hình 2.5: Ví dụ phương pháp tăng cường GAN: Ảnh bên trái là ảnh gốc và 3 ảnh bên phải

lần lượt là ảnh được áp dụng UNIT (Unsupervised image-to-image) với các cấu hình khác nhau (như áp dụng cân bằng histogram trên từng tập ảnh UNIT 3 và UNIT 4 hoặc 2 tập ảnh cùng một lúc UNIT 2 13

Hình 2.6: Khối residual block đơn giản 14 Hình 2.7: Kiến trúc ResNet18 với vị trí có thể kết hợp với khối chú ý (CBAM) [43] 15 Hình 2.8: Mô hình DenseNet [21] 16 Hình 2.9: Mô hình EfficientNetB0 với vị trí có thể kết hợp với khối chú ý (CBAM)

[43] 17

Hình 2.10: Mô hình Vision Transformer [23] 18 Hình 2.11: Kiến trúc CoAtNet với khối chập và hai mô-đun chú ý liên tiếp [24] 19 Hình 2.12: Hình minh họa khối CBAM và các tính năng được nâng cấp (GELU và Batch

Trang 15

Danh sách từ viết tắt

Từ viết

tắt Nghĩa Tiếng Anh Nghĩa Tiếng Việt

CE Cross Entropy Mất mát entropy chéo BN Batch Normalize Chuẩn hóa hàng loạt

GELU Gaussion Error Linear Unit Đơn vị tuyến tính lỗi Gaussian SSL Self-supervised learning Tự học giám sát

SOTA State-of-the-art Điển hình

RFID Radio-frequency identification Xác định bằng tần số vô tuyến CBAM Convolution Block and Attention

Module

Mô-đun cơ chế chú ý MLP Multi-layer Perceptron Perceptron nhiều lớp GAN Generative Adversarial Network Mạng GAN

CNN Convolution Neuron Network Mạng các lớp tích chập FM Feature maps Bản đồ các tính chất MP Max Pooling Gộp chung tối đa

(G)AP (Global) Average Pooling Gộp chung trung bình toàn cầu

VGG Visual Geometry Group Mạng sử dụng khối Res block Residual Block Khối dư

ML Machine Learning Học máy

ViT Vision Transformer Mô hình Transformer trong thị giác NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên

FFN Feed-forward Network Mạng lưới thần kinh chuyển tiếp SE block Squeeze-and-Excitation block Khối ép và kích thích

CCM Cross-correlation matrix Ma trận tương quan chéo

FP False Positive Dương tính giả FN False Negative Âm tính giả

GPU Graphics Processing Unit Bộ xử lý đồ họa

Trang 16

CoAtNet Convolution Attention Network Mạng tích chập và chú ý TL Transfer learning Học chuyển tiếp

RGB Red Green Blue Ba kênh màu đỏ, xanh lá, xanh dương

IR Infrared Photography Ảnh hồng ngoại

UNIT Unsupervised image-to-image Chuyển đổi ảnh không giám sát CAM Channel Attention Module Chú ý kênh

SAM Spatial Attention Module Chú ý không gian DenseNet Densely Network Mạng kết nối dày đặt BRISQUE Blind/Reference Image Spatial

Đo lường thay đổi độ tương phản chất lượng hình ảnh dựa trên Tăng cường độ tương phản

Trang 17

Chương 1: Giới thiệu

1.1 Mở đầu: 1.1.1 Đặt vấn đề:

Hiện nay sản lượng tiêu thụ thực phẩm, thịt công nghiệp, ngày càng tăng ở các nước Trong đó, nhu cầu thịt sạch, có chất lượng tốt và hạn chế ảnh hưởng đến môi trường là vấn đề được đặt ra Ở Việt Nam, các mô hình chăn nuôi hiện tại có quy mô nhỏ, lẻ, không đủ vệ sinh an toàn và gia cầm dễ bị bệnh Về mặt công nghiệp, các trại chăn nuôi chưa áp dụng triệt để kỹ thuật cao vào việc theo dõi gia súc Việc cải thiện thức ăn và cách thức nuôi thủ công cho vật nuôi cũng một phần giúp cải thiện sức khỏe của gia súc (lợn, bò, cừu, …) tuy nhiên nếu con giống được chọn lọc tốt thì chất lượng sẽ được cải thiện nhanh và triệt để hơn Do đó, nhu yếu theo dõi vật nuôi để xác định sự bất thường là cần thiết và trong đó phải kể đến bài toán phân loại

Trong thời gian tìm hiểu, nhiệm vụ chính của học viên là xác định, xây dựng và tối ưu hóa mô hình để phân loại thẻ tai của lợn Đây là một phần trong tổng thể lớn bài toán theo dõi lợn Để đảm bảo nguồn sản xuất hiệu quả, cần quan sát động vật ở cấp độ cá nhân để đánh giá sức khỏe và thói quen của chúng Hiện tại, phương pháp đang được sử dụng phổ biến là nhận dạng bằng RFID để theo dõi lợn, tuy nhiên, tín hiệu có thể bị mất khi có trường hợp heo nằm chồng lên nhau và RFID chỉ có thể được xác định lại sau khi heo quay trở lại trạm cho ăn – nơi được bố trí đầy đủ các thiết bị Đó là lý do, yêu cầu xây dựng một phương pháp phù hợp hơn được đặt ra: sử dụng camera để theo dõi 24/24 đàn heo và đặc biệt là từng cá thể trong chuồng

1.1.2 Sơ lược về tập ảnh chăn nuôi:

Dưới sự hợp tác giữa trường Norwegian University of Science and Technology – nơi học viên đã thực tập – và dự án PigBrother từ công ty Norsvin AS ở Na Uy, học viên có cơ hội tiếp xúc với tập dữ liệu đã và đang được chú thích, dán nhãn với khoảng hơn ba nghìn hình ảnh – Tập dữ liệu Norsvin-Pigbrother – với chất lượng rất cao được trích xuất từ máy ảnh LOREX (4K Ultra HD IP NVR) và ELOTEC (4MP Bullet, IP67) Sau khi nhận được dữ liệu, học viên cần xử lý dữ liệu trước khi thực hiện thuật toán tối ưu hoặc đưa vào mô hình

Trang 18

Đầu tiên, tại khớp điểm trích xuất từ bước xác định tư thế (pose estimation), tai phải chứa thẻ sẽ được cắt bằng hình ảnh kích thước cài đặt từ tư thế có chú thích của các tệp định dạng JSON COCO của lợn và hình ảnh tương ứng trong bước 1 Tuy nhiên, như trong hình 2.1.1, có một số hình ảnh dư thừa không chứa thẻ hoặc ít nhất là nhiễu dư thừa xung quanh thẻ như chuồng, máng hoặc heo khác Vì định hướng ban đầu là phương pháp học có giám sát nên kết quả từ bước dữ liệu cần phải được kiểm tra và lựa chọn trước khi dán nhãn thẻ trong công cụ Labelme

1.1.3 Mục tiêu nghiên cứu

Đề tài luận văn tốt nghiệp thạc sĩ dựa trên những nghiên cứu về các mô hình học sâu và các phương pháp học để huấn luyện mô hình mạng học sâu phù hợp với tác vụ phân loại, giúp ứng dụng trong lĩnh vực phân loại thẻ đeo tai của gia súc trong chăn nuôi Đề tài hỗ trợ cho người chăn nuôi có khả năng theo dõi vật nuôi 24/7 bằng camera và giúp đánh giá chất lượng con giống và đồng thời có thể can thiệp khi có những bất thường trong hành vi vật nuôi

Để đạt được mục tiêu trên, học viên cần thu thập và xây dựng tập dữ liệu hình ảnh riêng cho tác vụ phân loại thẻ đeo tai và sau đó, khảo sát trên các mô hình tích chập, học sâu và cải thiện với mô hình phù hợp nhất để huấn luyện một mạng có khả năng đáp ứng các mục tiêu đã đề ra Các mục tiêu nghiên cứu cụ thể như sau:

Nội dung 1: Tìm hiểu lý thuyết về các mô hình tích chập, các mô hình mạng học sâu và các phương pháp cải tiến, tối ưu để giải quyết bài toán phân loại ảnh

Nội dung 2: Thu thập, phân tích tập dữ liệu phục vụ cho quá trình huấn luyện mô hình Nội dung 3: Tiến hành huấn luyện mô hình học sâu với các phương pháp tối ưu

Nội dung 4: Hiệu chỉnh, tối ưu hóa mô hình bằng các phương pháp đề xuất lý thuyết và các thí nghiệm thử sai

Nội dung 5: Ghi nhận kết quả, nhận xét, rút ra kết luận và viết báo cáo

1.1.4 Đối tượng và phạm vi nghiên cứu

Đối tượng thực hiện của đề tài luận văn là dữ liệu hình ảnh được trích xuất từ các camera chất lượng cao LOREX (4k Ultra HD IP NVR) và ELOTEC (4MP Bullet, IP67)

Phạm vi nghiên cứu của đề tài chỉ tập trung trên các ảnh có tồn tại thẻ đeo trên tai heo

Trang 19

1.1.5 Các đóng góp của luận văn

Qua quá trình thực hiện luận văn tốt nghiệp, học viên đã kết hợp thành công những nổi bật trong các mô hình tích chập và mạng học sâu cùng với phương pháp chú ý và tự học để huấn luyện mô hình có độ tin cậy cao cho việc phân loại thẻ đeo tai Đề tài hỗ trợ cho quá trình tự động hóa và theo dõi vật nuôi nhằm giúp các cơ sở chăn nuôi có thể tối ưu hóa sản lượng cũng như chất lượng và sớm cảnh báo các nguy hiểm từ các điểm bất thường cũng như đồng thời hỗ trợ có phương pháp phù hợp Các ý nghĩa khoa học và thực tiễn, giá trị vi mô và vĩ mô đã được học viên trình bày chi tiết trong chương 3, mục 3.2.1 và mục 3.2.2

Hình 1.1: 16 thẻ tai duy nhất được sử dụng trong công việc này để xác định từng con lợn

Các thẻ sử dụng các ký tự chữ và số được in trên tai Destron FearingTMHogmax và được công ty lựa chọn để dễ dàng quan sát

1.2 Tổng quan:

Ngày nay, công nghiệp hóa và tự động hóa đã và đang hỗ trợ con người đạt được năng suất cao trong nhiều lĩnh vực: từ kinh tế, chuỗi cung ứng hàng hóa và y học cho đến quản lý chăn nuôi gia súc Đi sâu vào ứng dụng trong lĩnh vực chăn nuôi, tác vụ phân loại và theo dõi vật nuôi bằng thẻ đeo tai [1] là rất cần thiết trong việc chọn lọc như việc chọn giống tốt dựa trên các thói quen và biểu hiện trong đời sống hằng ngày của vật nuôi Việc này giúp người chăn nuôi quan sát liên tục để đánh giá đúng về tình trạng sức khỏe và chất lượng của từng cá thể Ngoài ra, bài toán phân loại đã trở nên phổ biến tuy nhiên với học viên thì lĩnh vực này khá hấp dẫn và nhiều động lực trong việc bắt đầu tìm hiểu

Ở bước đầu tiên, học viên xử lý, đánh giá bộ dữ liệu, mô hình và kết quả - hình 1.2

Tiếp theo, học viên sẽ xem lại bộ dữ liệu với thẻ đeo đa dạng – hình 2.1.1: như màu sắc,

độ sáng, vị trí của thẻ đeo tai, v.v … Việc mô phỏng lại những tình huống đó là cần thiết Bên cạnh đó, học viên có cơ hội thực hiện gắn nhãn tập dữ liệu vì tập dữ liệu ban đầu không cân bằng và có nhiều hình ảnh “rác” Do, hạn chế về số lượng tập dữ liệu, học viên đã áp

Trang 20

dụng một tập hợp các phương pháp tăng cường để làm phong phú dữ liệu và phân tích tính phù hợp của từng phướng pháp Trong giai đoạn, một số chủ đề thú vị được nêu ra:

Thứ nhất, bộ dữ liệu chủ yếu được ghi lại vào ban ngày có nghĩa là bạn có thể quan sát rõ ràng màu sắc và các ký tự nhưng trong trường hợp IR hình ảnh từ camera quan sát dùng vào ban đêm không tồn tại (tham khảo thêm ở phần phụ lục) Thứ hai, việc thay thế chức năng mất CE [5] bằng Focal Loss [6] để xử lý dữ liệu mất cân bằng không dự đoán trước được; thứ ba, do chi phí cao chi phí lưu trữ mà phương pháp nén đã nghiên cứu trong tình hình thực tế (tham khảo thêm ở phần phụ lục) được trình bày, áp dụng và cuối cùng là một số tiêu chí đánh giá kết quả Việc phát triển và tối ưu hóa các mô hình CNN là quan trọng nhất, thiết yếu và nhiều cảm hứng trong quá trình nghiên cứu

Tại giai đoạn mới tiếp cận thông tin, việc tự xây dựng mô hình CNN đơn giản với các lớp tích chập và mạng neuron 3-4 lớp, tuy nhiên, kết quả không được chấp nhận vì kết quả của mô hình rất thấp Do đó, việc thực hiện trên các mô hình kiến trúc SOTA là cần thiết để tìm ra mô hình nào là phù hợp cho tập dữ liệu trước khi tối ưu hóa bằng các phương pháp khác nhau để cải thiện kết quả học của mô hình

Theo [1], phân loại là một phương pháp học máy có giám sát trong đó mô hình cố gắng dự đoán nhãn chính xác của dữ liệu đầu vào nhất định Trong đó, mô hình được huấn luyện đầy đủ bằng cách sử dụng dữ liệu huấn luyện và sau đó được đánh giá trên dữ liệu thử nghiệm trước khi được sử dụng để thực hiện dự đoán về dữ liệu mới chưa được nhìn thấy CNN bắt đầu với ý tưởng bắt chước cách thức con người hình dung bằng cách áp dụng tích chập với nhiều bộ lọc khác nhau (kernels) và tổng hợp cho phép trích xuất tối đa các tính năng của hình ảnh trước khi đến perceptron đa lớp để thực hiện nhiệm vụ của mình Theo dự kiến, học viên khảo sát trên các mô hình kiến trúc điển hình như là ResNet18, DenseNet121, EfficientNetB0 và CoAtNet, sau đó, kết hợp mô-đun cơ chế chú ý (CBAM) với các mô hình này ngoại trừ CoAtNet đã có sẵn mô-đun tự chú ý Học viên cũng mô phỏng chạy trên mô hình điển hình nhất hiện nay là Vision Transformer để so sánh sự phù hợp với tập dữ liệu hiện tại Việc học chuyển giao (transfer learning) và đào tạo trước (pre-trained) đã được chấp nhận trong trường hợp này vì tập dữ liệu hiện có khá nhỏ Tiếp đến, mô hình đã được chọn sẽ được sử dụng làm xương sống trong Barlow Twins – Self-supervised learning – để rút ra toàn bộ các tính năng trên phần dữ liệu chưa được gắn nhãn Cuối cùng, các tiêu chí để ước tính kết quả và so sánh hiệu suất giữa các mô hình sẽ được trình bày

Trang 21

Cùng với đó, các nghiên cứu liên quan trước đây của các mô hình cũng cần được xem lại Một vài thập kỷ trước, một phiên bản đơn giản của mô hình CNN như LeNet của Yann LeCun – năm 1995 [8] – đủ dùng cho các tác vụ cơ bản với một bộ dữ liệu nhỏ như CIFAR [9] hoặc NORB [10] cho mô hình hiệu quả Hiện tại để giải quyết các vấn đề phức tạp và thực tế với nhiều giá trị biến từ một tập dữ liệu lớn như COCO [11] và ImageNet 2012 [12], AlexNet [13] của Krizhevsky et al – năm 2012, bao gồm tám lớp: năm lớp tích chập, ba lớp được kết nối đầy đủ, sử dụng tính phi tuyến tính ReLU thay vì hàm tanh, có thể nhận dạng lệch tâm các đối tượng và hầu hết năm lớp hàng đầu của nó cho mỗi hình ảnh, ngoài ra, giảm thời gian đào tạo trong khi áp dụng nhiều GPU và áp dụng hai phương pháp để xử lý vấn đề bão hòa: tăng cường dữ liệu và DropOut, đã giành chiến thắng trong cuộc thi ImageNet Do số lượng tham số khổng lồ (khoảng 60 triệu) của AlexNet và sự xuống cấp nghiêm trọng trong trường hợp loại bỏ bất kỳ lớp tích chập nào, VGG [7] – Visual Nhóm Hình học được biết đến bởi Simonyan et al – kế thừa các ghi chú đáng chú ý và tiếp tục phát triển bằng cách sử dụng lớp tích chập với bộ lọc nhỏ (3x3) thay thế cho lớp tích chập với bộ lọc lớn hơn (5x5 và 11x11) dẫn đến giảm các tham số tương ứng với ánh xạ phi tuyến tính, sâu hơn và đặc biệt là tốt hơn trong thời gian đào tạo, nhưng việc xây dựng một mạng lưới thần kinh là với 16 và 19 lớp sâu hơn vào năm 2015 [12] Khi số lớp tăng lên trong CNN để mở rộng độ sâu của mạng, khả năng của mô hình phù hợp với các chức năng phức tạp hơn cũng tăng lên và khó đào tạo hơn do vấn đề độ dốc biến mất Vào năm 2016, He và cộng sự [14] đã dành riêng kiến trúc mới bằng cách sử dụng khối dư – ResNet – có thông số thấp hơn, không cần tăng layer mà vẫn đạt được hiệu suất trong khi so sánh với mạng đơn giản Nhiều phiên bản đang phát triển của ResNet xuất hiện sau đó như Wide-ResNet [15] của Zagoruyko et al., ResNeXt [16] của Xie và cộng sự, hoặc Hyper-ResNet [17] Sau một năm, mạng Squeeze-and-Excite [18] của Đại học Oxford – Hu et al – có cách thích ứng hiệu chỉnh lại các phản hồi tính năng theo kênh bằng cách lập mô hình rõ ràng về sự phụ thuộc lẫn nhau giữa các kênh, đã giành chiến thắng trong thử thách phân loại ILSVRC 2017, đặc biệt là khối SE có thể được thêm vào liên kết với các phương pháp SOTA hiện có như VGG [7], Inception [19], MobileNet [20], Với mong muốn trong việc cải thiện model sẽ sâu hơn nhưng giảm bớt vấn đề độ dốc biến mất, tăng cường lan truyền tính năng, thực hiện ít tính toán hơn để đạt được hiệu suất cao và giảm sự dư thừa, Convolutional được kết nối chặt chẽ – DenseNet [21] được biết đến vào năm 2017 và đã được phát hiện bởi Gao et al Cùng một mục đích tối ưu hóa; khi một tập hợp các biến thể

Trang 22

của ResNets cho thấy rằng nhiều lớp đóng góp rất ít, có thể bị loại bỏ ngẫu nhiên trong quá trình đào tạo và trạng thái của nó tương tự như tái diễn mạng thần kinh nhưng số lượng tham số lớn hơn đáng kể bởi vì mỗi lớp có trọng số của nó, bố cục mạng dày đặc tương tự như cấu trúc tầng và kết nối giữa các lớp chia sẻ thông tin giữa các lớp để sử dụng hiệu quả tài nguyên mạng mà vẫn đạt được khả năng thích ứng cao Đối với tác giả, ban đầu, DenseNet đạt được tỷ lệ lỗi thấp hơn trong khi sử dụng ít tham số hơn ResNet và hoạt động tốt hơn với biên độ lớn mà không cần tăng cường dữ liệu Ngoài ra, Tan và cộng sự đã trình bày EfficientNet [22] – ý tưởng cẩn thận cân bằng độ sâu, chiều rộng và độ phân giải của mạng để có thể dẫn đến hiệu suất tốt hơn khi sử dụng thành quả đơn giản mà hiệu quả cao trong năm 2019 Vào năm 2021, sự kết hợp sáng tạo giữa tích chập theo chiều sâu và cơ chế tự chú ý thừa hưởng lợi thế từ Transformer [23] thông qua sự chú ý tương đối đơn giản trong CoAtNet [24] đã đạt được hiệu suất hiện đại nhất theo các bộ dữ liệu khác nhau của Dai et al Vì thế, vấn đề phân loại được giải quyết dựa trên cách tiếp cận hiện có và tích hợp với thuật toán tối ưu hóa

Mô đun chú ý – Attention Module – là một trong những khái niệm thiết yếu còn thiếu trong các mô hình sẵn có hiện tại Thông thường, Attention Module được biết đến nhiều trong Transformer hoặc Vision Transformer [38] Trên thực tế, có một cơ chế chú ý khác cho miền hình ảnh đó là mô-đun chú ý khối tích chập (CBAM) – Convolution Block Attention Module [25] Tính linh hoạt và toàn vẹn của CBAM được kết hợp vào nhiều kiến trúc CNN điển hình đã cải thiện kết quả một cách ấn tượng bằng cách tập trung nhiều hơn vào thông tin quan trọng thay vì tìm hiểu thông tin cơ bản xung quanh như lợn, chuồng lợn, v.v CBAM được hình thành bởi hai khối liên tiếp: kênh chú ý mô-đun và mô-đun chú ý không gian Trong chính mô-đun chú ý của kênh, tính năng đầu vào F sẽ chuyển theo hai cách: max pooling và average pooling thành nhận được nhiều tính năng đặc biệt hơn trên kênh Sau đó, một nhận thức đa lớp – multi-layer perceptron được chia sẻ (MLP) của một lớp ẩn với hàng loạt được chuẩn hóa bằng ReLU để có được giá trị phi tuyến tính đầu ra trước khi kết hợp hai đầu ra F′ cho sự chú ý của kênh trong khi F′ sẽ trải qua quá trình kết hợp các hoạt động tổng hợp để tạo ra một hệ thống hiệu quả đặc trưng trong miền không gian Trong mô-đun CBAM, học viên có ý tưởng nâng cấp bằng cách thay thế ReLU bằng GELU [26] trong chú ý kênh và thêm Chuẩn hóa hàng loạt (BN) vào mô-đun chú ý không gian

Trang 23

Hình 1.2: Lưu đồ của quá trình nghiên cứu – bằng tiếng anh [43]

Hơn nữa, học viên còn kết hợp Self-Supervised Learning (SSL) – là phương pháp học máy nhằm khai thác triệt để dữ liệu chưa được gắn nhãn để tạo ra các nhãn SimCLR, BYOL và MoCo là những phương pháp tự giám sát nổi tiếng hiện nay [27] Bên cạnh đó với nghiên cứu của Jure Zbontar và các cộng sự vào năm 2021 về phương pháp tự học, cụ thể là phương pháp Barlow Twins [28] đặc biệt với 2 kênh hình thành mạng những đặc tính và cải thiện về ma trận chéo sẽ được học viên sử dụng để tăng cường xương sống của mô hình CNN Cuối cùng, vì SSL rất nhạy cảm với sự thay đổi của tập dữ liệu, đặc biệt là tập dữ liệu không cân bằng nên Focal loss – FL [6] – đã thay thế hàm Cross Entropy – CE – truyền thống để ngăn chặn điều này Các mục cụ thể sẽ nghiên cứu như sau:

Trang 24

• Dữ liệu được chú thích và xây dựng lại bộ dữ liệu

• Khảo sát về kích thước cắt xén, khảo sát sự phân bố của các chiến lược tăng dữ liệu để cải thiện tính tổng quát của mô hình

• Biểu diễn và ước lượng dữ liệu nén

• Được khảo sát trên các mô hình sẵn có và kết hợp không gian và hướng sự chú ý vào các mô hình CNN

• Bên cạnh đó khảo sát mô hình CNN phù hợp nhất trên phương pháp tự học – Barlow Twins với Focal loss

• Một phân tích định lượng kỹ lưỡng đã được thực hiện trên các mô hình hiện đại cho thấy hiệu quả của các phương pháp

Hình 1.3: Quy trình thực hiện: Tiền xử lý ảnh và nâng cấp mô hình học sâu

1.3 Kết luận chương 1:

Trong chương 1, học viên đã trình bày mở đầu, tổng quan về tập ảnh được sử dụng và mục tiêu các phương pháp khác nhau được sử dụng trong tác vụ phân loại ảnh Qua những phần tổng quan tài liệu, học viên đề ra mục tiêu nghiên cứu cùng với những giới hạn thực hiện cho đề tài luận văn tốt nghiệp

Trang 25

Chương 2: Cơ sở lý thuyết

2.1 Xử lý dữ liệu:

2.1.1 Giới thiệu thẻ đeo tai:

Như đã giới thiệu lúc đầu, đây là tập dữ liệu của dự án PigBrother của công ty Norsvin AS, dữ liệu hình ảnh với chất lượng cao được trích xuất từ máy ảnh LOREX (4K Ultra HD IP NVR) và ELOTEC (4MP Bullet, IP67) Sau bước ước tính tư thế (pose estimation), dữ liệu sẽ được lưu trữ dưới các tệp định dạng JSON COCO tại khớp điểm ở tai phải, thẻ sẽ được cắt có chú thích và hình ảnh tương ứng Tuy nhiên, có một số hình ảnh dư thừa không được bao gồm một thẻ hoặc ít nhất là bị nhiễu dư thừa xung quanh thẻ như chuồng hoặc sự chồng chéo (do lợn nằm chồng lên nhau) Vì định hướng ban đầu với phương pháp học có giám sát nên kết quả dữ liệu cung cấp vào mô hình cần phải được kiểm tra và lựa chọn trước khi dán nhãn thẻ trong công cụ Labelme [29]

Trong tập thẻ đeo tai, 16 thẻ tai được sử dụng trong công việc này để xác định từng con lợn trong chuồng – hình 1.1 Các thẻ sử dụng các ký tự chữ và số được in từ Destron FearingTMHogmax – được công ty lựa chọn với mục đích để dễ dàng quan sát Vì số thẻ đeo tai sẽ tương ứng với số lượng heo trong chuồng, hiện tại, mỗi chuồng chỉ tối đa 12 con heo nên số lượng tập phân loại sẽ tương ứng với 12 tập

Hình 2.1: Minh họa bước tiền xử lý của lần cắt ảnh thứ nhất (a)

và lần cắt ảnh thứ hai (b)

2.1.2 Tiền xử lý:

Theo hình 2.1.2.1, các tệp JSON dưới định dạng COCO (COCO annotated) nhận được từ giai đoạn ước tính tư thế (pose estimation) sẽ được cung cấp làm dữ liệu đầu vào để cắt

Trang 26

xén lần thứ nhất nhằm trích xuất được tai có chứa thẻ đeo Sau khi nhận được tập dữ liệu được gắn nhãn có sẵn và xem xét kết quả của toàn bộ tập dữ liệu, học viên nhận thấy có rất nhiều dữ liệu rác - dữ liệu không bao gồm thẻ - trong thống kê hình 2.1.2.2 dẫn đến việc mất cân bằng trong tập dữ liệu và mô hình không thể học hiệu quả trên tập dữ liệu này Sau đó, học viên quyết định thêm bước lọc và chọn thủ công, và gắn nhãn bằng công cụ: Labelme vào việc xử lý dữ liệu Việc thực hiện cắt xén thứ hai là cần thiết để giữ cho dữ liệu sạch và giảm nhiễu, đồng thời cải thiện độ chính xác của mô hình - tham khảo bảng 1 Từ bảng này, dữ liệu trước đó được đánh giá là mất cân bằng, chứa nhiều nhiễu và lượng dữ liệu là 1375 trong khi dữ liệu hiện tại tốt hơn, ít nhiễu hơn và lượng dữ liệu là hơn 3000 hình ảnh Ngoài ra, quy ước về dữ liệu là 0: “0”, 1: “WW”, 2: “777”, 3: “Q Q”, 4: “YY”, 5: “HHH”, 6: “J J”, 7: “66”, 8: “PPP”, 9: “W”, 10: “N N”, 11: “T”, 12: “NaN”

Hình 2.2: Sơ đồ tiền xử lý dữ liệu

Do đó, kết quả sẽ có 13 lớp tương ứng với 12 thẻ được sử dụng và 1 lớp “NaN” được gán cho hình ảnh không chứa thẻ Như được hiển thị trong bảng bên dưới, duy trì cùng một môi trường thiết lập như nhãn, số lượng lớp, kích thước lô, v.v., học viên đã thực hiện việc tăng kích thước của hình ảnh và sử dụng các mô hình tương tự: ResNet18, DenseNet121, EfficientNetB0, và CoAtNet để đánh giá ảnh hưởng của kích thước đến độ chính xác của mô hình Từ kết quả nhận được, độ chính xác sẽ giảm trong khi kích thước của hình ảnh đầu vào tăng lên vì hình ảnh càng lớn, dữ liệu trong hình ảnh càng nhiễu (ví dụ: chuồng, da lợn) và thẻ ít được chú ý hơn Trong phân tích này, kích thước cắt 16x16 của hình ảnh là độ chính xác tốt nhất tuy nhiên toàn bộ thẻ không thể quan sát được, trong khi kích thước 32x32 có độ chính xác nhỏ hơn nhưng đổi lại ta có thể thấy đầy đủ thẻ Ngoài ra, kích thước 64x64, cung cấp thẻ đầy đủ và cả phần dư thừa, là cho kết quả tệ nhất trong khi khảo sát

Trang 27

Hình 2.3: Thống kê tập dữ liệu trước và sau tiền xử lý

2.1.3 Các phương pháp tăng cường được sử dụng:

Trong học máy, tăng cường dữ liệu là quá trình mở rộng tập dữ liệu huấn luyện về cả quy mô và sự đa dạng từ dữ liệu hiện tại thông qua việc sử dụng các phép biến đổi và thay đổi bằng cách đào tạo trên một số bản sao dữ liệu hiện có được sửa đổi một chút giúp giảm tình trạng bị quá mức (overfitting) khi đào tạo mô hình học máy Với mục đích nâng cao hiệu quả và tính tổng quát của các mô hình học máy nên các phương pháp tăng cường đã thường xuyên được áp dụng trong quá trình huấn luyện của các mô hình Trong trường hợp khi so sánh với tập ảnh ImageNet (nhiều hơn 14 triệu ảnh), tập dữ liệu hiện tại có số lượng rất ít chỉ với hơn 3000 ảnh nên việc áp dụng phương pháp tăng cường là bắt buộc

Có hai loại trong phương pháp tăng cường: Kỹ thuật tăng cường dữ liệu đơn giản và kỹ thuật tăng cường dữ liệu nâng cao

2.1.3.1 Kỹ thuật tăng cường dữ liệu đơn giản:

Các chuyển đổi cơ bản có thể được thực hiện đối với dữ liệu dưới dạng hình ảnh, âm thanh hoặc văn bản như một phần của phương pháp tăng cường dữ liệu đơn giản Những phương pháp này dễ áp dụng và có thể hỗ trợ tái tạo các kết quả nhất quán với tài liệu nguồn Có rất nhiều phương pháp tăng cường dữ liệu đơn giản được sử dụng thường xuyên, học viên chỉ nêu ra một vài phương pháp đã từng và đang được áp dụng trong nghiên cứu:

Trang 28

Phản chiếu và lật (Mirroring and Flipping): Hình ảnh và dạng sóng âm thanh có thể

được lật theo chiều ngang hoặc chiều dọc để tạo ra hình ảnh phản chiếu hoặc phiên bản được lật tương ứng Phương pháp này hữu ích trong các lĩnh vực mà hướng đối tượng không quan trọng, chẳng hạn như bộ dữ liệu nhận dạng khuôn mặt và phát hiện đối tượng Mô hình có thể được đào tạo để nhận dạng một vật thể theo bất kỳ hướng nào bằng cách phản chiếu hoặc lật hình ảnh

Xoay và chia tỷ lệ (Rotating and Scaling): Hình ảnh và dạng sóng âm thanh có thể

được xoay và thu nhỏ tương ứng theo kích thước hoặc hướng mới Phương pháp này có thể áp dụng trong các lĩnh vực như phân tích hình ảnh y tế và phân tích hình ảnh trên không trong đó hướng và kích thước của vật thể đóng vai trò quan trọng Mô hình có thể học cách nhận dạng vật phẩm ở nhiều góc độ và kích thước khác nhau bằng cách xoay và chia tỷ lệ dữ liệu

Hình 2.4: Ví dụ phương pháp tăng cường:

a) Ảnh gốc, b) Các phương pháp truyền thống được áp dụng (Xoay, lật, thay đổi kích thước, nhiễu), c) CutOut với kích thước khối là 8x8, d) RandAugment

Cắt xén và thay đổi kích thước (Cropping and Resizing): Cắt xén và thay đổi kích

thước là các quá trình trong đó một vùng đã chọn của dạng sóng hình ảnh hoặc âm thanh được phóng to hoặc giảm xuống kích thước mới Phương pháp này vượt trội trong các ứng dụng có kích thước đối tượng và vị trí quan trọng, chẳng hạn như bộ dữ liệu phân loại cảnh và nhận dạng giọng nói Mô hình có thể được đào tạo để nhận dạng mục ở nhiều cài đặt và độ phân giải khác nhau chỉ bằng cách cắt xén và thay đổi kích thước dữ liệu

Trang 29

Hiện tượng nhiễu màu và bão hòa màu (Color Jittering and Saturation): Hiện

tượng biến dạng và tăng độ bão hòa của màu sắc là hai cách để điều chỉnh màu sắc của hình ảnh Trong trường hợp sự phân bố màu sắc của đối tượng là quan trọng, chẳng hạn như phân đoạn hình ảnh hoặc phân loại video, phương pháp này có thể rất hữu ích Mô hình có thể học cách nhận dạng vật thể trong nhiều tình huống ánh sáng và phân bổ màu sắc khác nhau bằng cách chuyển đổi dữ liệu hay sử dụng các thay đổi về độ rung màu và độ bão hòa

2.1.3.2 Kỹ thuật tăng cường dữ liệu nâng cao:

Hình 2.5: Ví dụ phương pháp tăng cường GAN: Ảnh bên trái là ảnh gốc và 3 ảnh bên

phải lần lượt là ảnh được áp dụng UNIT với các cấu hình khác nhau (như áp dụng cân bằng histogram trên từng tập ảnh UNIT 3 và UNIT 4

hoặc 2 tập ảnh cùng một lúc UNIT 2

Để tạo dữ liệu đào tạo bổ sung từ tập dữ liệu hiện có, ngày nay các nghiên cứu thường chuyển sang các kỹ thuật tăng cường dữ liệu phức tạp Các phương pháp này thường được sử dụng trong các ứng dụng học sâu đòi hỏi lượng dữ liệu huấn luyện khổng lồ và chúng đòi hỏi các phép biến đổi phức tạp hơn có thể làm thay đổi hình dạng, kết cấu và màu sắc của dữ liệu đầu vào Trong khuôn khổ nghiên cứu, học viên đã khảo sát trên 3 phương pháp:

Xóa và cắt ngẫu nhiên (Random Erasing and Cutout): Một số phương pháp huấn

luyện bao gồm xóa hoặc cắt ngẫu nhiên các phần của dữ liệu đầu vào Điều này giúp mô

Trang 30

hình tránh bị phù hợp quá mức và chuyển sự chú ý sang các khía cạnh khác của đầu vào Việc cắt bỏ sẽ loại bỏ một vùng hình vuông của đầu vào, trong khi việc xóa ngẫu nhiên sẽ thay thế bằng nhiễu

Mạng đối thủ sáng tạo (GAN): Bằng cách nghiên cứu sự phân bố cơ bản của tập dữ

liệu gốc, các phương pháp như chuyển kiểu và GAN có thể được sử dụng để tạo ảnh mới Mục tiêu của GAN là tạo ra các hình ảnh mới tương tự như tập dữ liệu gốc, trong khi mục tiêu của việc chuyển kiểu là chuyển kiểu của hình ảnh này sang hình ảnh khác Trình tạo GAN được dạy để đánh lừa một mô hình phân biệt đối xử có thể cho biết sự khác biệt giữa ảnh thật và ảnh giả Ở đây, vì tập dữ liệu dưới dạng COCO rất lớn, học viện không kịp xử lý tập ảnh về đêm (IR) nên phương pháp GAN được áp dụng trong việc tạo mô phỏng tập ảnh hồng ngoại: chuyển ảnh RGB sang ảnh IR (tham khảo thêm trong phần phụ lục)

2.2 Các mô hình học sâu và các khối tăng cường:

Các lớp tích chập là các lớp cung cấp mạng lưới thần kinh tích chập Đồng thời với các lớp tích chập, có cách gộp giúp giảm kích thước của bản đồ đối tượng (feature maps) như gộp chung tối đa (max pooling) hoặc gộp chung trung bình (average pooling); hàm kích hoạt đầu ra của nút đó với một đầu vào hoặc một tập hợp các đầu vào cụ thể là: ReLU, Tanh, Sigmoid, GELU, ; chuẩn hóa hàng loạt (Batch Normalization – BN) tăng tốc độ đào tạo bằng cách bình thường hóa việc kích hoạt lớp ẩn (hidden layer), làm mịn hàm mất mát và so sánh sự khác biệt của đầu ra được dự đoán và kết quả thật (ground truth) Để học tập, hàm mất mát, tính đạo hàm và hàm tối ưu hóa bằng SGD, AdaGrad, ADAM, v.v được sử dụng

2.2.1 Mạng ResNet (Residual Network) [15]:

Hình 2.6: Khối residual block đơn giản

Nhằm đáp ứng nghiên cứu mô hình với tập dữ liệu ImageNet, vào năm 2012, mô hình AlexNet [13] được phát triển là một mạng nơ ron tích chập 8 lớp và 2 năm sau, vào năm

Trang 31

2014, mô hình mạng lưới nơ ron được đặt cùng tên: Visual Geometry Group (VGG) [7] tại đại học Oxford đã tiếp cận mô hình với độ sâu 19 lớp bằng cách xếp chồng lên nhau với các lớp chập 3x3 Tuy nhiên, việc xếp chồng nhiều lớp dẫn đến việc giảm nhanh độ chính xác trong quá trình huấn luyện được gọi là vấn đề “suy hao” (degradation problem) Để khắc phục điều này, mạng dư (residual network) được phát triển bởi Kaiming He, Xiangyu Zhang, Shaoqing Ren, và Jian Sun đã được giải trong cuộc thi ImageNet 2015

Khối dư (Residual block) là bước đột phá khắc phục hạn chế của cách làm truyền thống ResNet ít phức tạp hơn vì nó có ít bộ lọc và khắc phục được vấn đề biến mất độ dốc vì độ dốc có thể chảy trực tiếp qua chức năng nhận dạng từ các lớp sau đến các lớp trước đó Học phần dư sâu được hiểu là hàm: F(x) = H(x)−x trong đó hàm ban đầu sửa đổi thành F(x)+x và tăng tốc độ hội tụ của mạng sâu Nói một cách đơn giản, ResNet18 bao gồm một khối cơ bản trong đó xảy ra 2 tích chập 3x3 liên tiếp với BN và ReLU trước đó xảy ra tích chập conv3x3-conv3x3 - Hình 3.2 ResNet là mô hình hiệu quả nhất cho nhiệm vụ này Ngoài ra, nhằm mục đích tối ưu, khối chú ý được bổ sung lần lượt ở các khối 1, 2, 3, 4 (B1, B2, B3, B4) - tham khảo chi tiết thực nghiệm tại phần

Hình 2.7: Kiến trúc ResNet18 với vị trí có thể kết hợp với khối CBAM [43]

2.2.2 Mạng DenseNet – Densely Network [21]:

Trong mạng lưới thần kinh chuyển tiếp (FFN) nguồn cung cấp truyền thống, mỗi lớp tích chập ngoại trừ lớp đầu tiên (nhận dữ liều đầu vào), nhận dữ liệu đầu ra của lớp tích chập trước đó và tạo ra bản đồ các tính chất (feature map) đầu ra, sau đó, được chuyển sang lớp tích chập tiếp theo Do đó, đối với các lớp ‘L’, có các kết nối trực tiếp giữa mỗi lớp và lớp tiếp theo

Tuy nhiên, khi số lớp trong CNN tăng lên, tức là khi chúng tiến sâu hơn, vấn đề 'độ dốc biến mất' (vanishing gradient) sẽ phát sinh – điều này xảy ra trong các mô hình AlexNet [13] và VGG [7] trước đó đã giới thiệu ở trên Điều này có nghĩa là khi đường dẫn thông

Trang 32

tin từ lớp đầu vào đến lớp đầu ra tăng lên, nó có thể khiến một số thông tin nhất định 'biến mất' hoặc bị mất, làm giảm khả năng đào tạo hiệu quả của mạng

Cũng như ResNet, DenseNet – được Gao Huang và các cộng sự công bố vào năm 2016 – giải quyết vấn đề này bằng cách sửa đổi kiến trúc CNN tiêu chuẩn và đơn giản hóa mô hình kết nối giữa các lớp Trong kiến trúc DenseNet, mỗi lớp được kết nối trực tiếp với mọi lớp khác, do đó có tên Mạng kết nối dày đặc Đối với các lớp 'L', có các kết nối trực tiếp L(L+1)/2 DenseNet bao gồm một chuỗi các khối DenseBlock, trong đó kích thước của các khối đối tượng không đổi, bao gồm các thao tác tích chập hoặc gộp các lớp, chuẩn hóa hàng loạt (BN) và chức năng kích hoạt (activation function) Các kết nối L × (L + 1)/2 trong mạng L–Layers tương tự như một cấu trúc tầng với kết nối xuyên lớp (cross–layer

connection) Bằng cách đó, tham số của DenseNet ít hơn ResNet

Hình 2.8: Mô hình DenseNet [21]

2.2.3 Mạng EfficientNet – Efficient Network [22]:

Mô hình ResNet18 có thể được mở rộng lên mô hình ResNet200 bằng cách thêm nhiều lớp hơn vào mô hình ban đầu Càng thêm nhiều lớp, gradient descend sẽ xuất hiện, ảnh hưởng đến backward propation và kết quả học của mô hình Khi mạng lưới thần kinh tích chập được phát triển, chúng được thực hiện với chi phí tài nguyên cố định Các mạng được mở rộng quy mô sau này để đạt được độ chính xác tốt hơn khi có nhiều tài nguyên hơn

Trong hầu hết các trường hợp, kỹ thuật chia tỷ lệ này đã giúp cung cấp độ chính xác tốt hơn trên hầu hết các tập dữ liệu Nhưng các kỹ thuật chia tỷ lệ mô hình thông thường là rất ngẫu nhiên Một số mô hình được chia tỷ lệ theo chiều sâu và một số được chia tỷ lệ theo chiều rộng Một số kiểu máy chỉ cần có độ phân giải lớn hơn bằng cách thêm số lớp để có kết quả tốt hơn Kỹ thuật mô hình chia tỷ lệ ngẫu nhiên này điều chỉnh mang tính thủ công và tốn nhiều giờ, thường dẫn đến ít hoặc không cải thiện hiệu suất Vào năm 2019,

Trang 33

Mingxing Tan, Quoc V Le là tác giả của EfficiencyNet [22] đã đề xuất để mở rộng quy mô các mô hình CNN để đạt được độ chính xác và hiệu quả cao hơn

EfficientNet sử dụng một kỹ thuật gọi là hệ số phức hợp để mở rộng quy mô mô hình một cách đơn giản nhưng hiệu quả Thay vì tăng tỷ lệ ngẫu nhiên chiều rộng, chiều sâu hoặc số lớp, tỷ lệ kết hợp sẽ chia đồng đều cho từng chiều với một bộ hệ số tỷ lệ cố định Bằng cách sử dụng phương pháp chia tỷ lệ và AutoML, các tác giả của bảy mô hình có kích thước khác nhau đã phát triển hiệu quả, vượt qua độ chính xác hiện đại của hầu hết các mạng thần kinh tích chập và có hiệu quả tốt hơn nhiều

Với mô hình EfficientNet, học viên sẽ thử nghiệm trên phiên bản B0 là phiên bản nhẹ nhất để thay thế của phiên bản cao hơn và khối chú ý sẽ được tích hợp trong mô hình này EfficientNet được hiệu chỉnh trên ba chiều của mô hình CNN: độ sâu – số lớp, chiều rộng – chiều rộng của mạng và độ phân giải – độ phân giải của hình ảnh đầu vào Tổng số lớp cho mô hình này là 237, chứa một Khối MBConv, Khối thặng dư ngược – Reverse Surplus Block (được sử dụng trong MobileNetV2 [39]) với khối SE Ta có thể tổng hợp lại thành 5 mô-đun: điểm bắt đầu cho các khối phụ, khối phụ đầu tiên của tất cả 7 khối chính trừ khối đầu tiên một, kết nối bỏ qua cho tất cả các khối con, bỏ qua kết nối trong các khối con đầu tiên, và mô-đun cuối cùng, mỗi khối con được kết nối bỏ qua với khối con trước của nó trong một by pass-connection

Hình 2.9: Mô hình EfficientNetB0 với vị trí có thể kết hợp với khối CBAM [43]

2.2.4 Mô hình ViT – Vision Transformer [23]:

Vision Transformer (ViT) là một hình thức transformer được thiết kế cho thị giác máy tính được giới thiệu vào năm 2021 bởi Alexey Dosovitskiy và các công sự của Google Research Brain Team Transformers được biết đến vào năm 2017, và đã được sử dụng rộng rãi trong Xử lý ngôn ngữ tự nhiên như được thể hiện bằng các mô hình ngôn ngữ như BERT và GPT Vào năm 2020, chúng đã được điều chỉnh cho phù hợp với thị giác máy tính và mạng xử lý hình ảnh – ViT Cấu trúc cơ bản là chia nhỏ hình ảnh đầu vào thành một loạt các ảnh nhỏ, sau đó được mã hóa, trước khi áp dụng mã thông báo cho kiến trúc

Trang 34

Transformer tiêu chuẩn Ngược lại với hệ thống xử lý hình ảnh điển hình sử dụng mạng thần kinh tích chập, Transformer tính toán mối quan hệ giữa các cặp mã thông báo đầu vào (các từ trong trường hợp chuỗi văn bản), được gọi là khối chú ý Kết quả hao phí là bậc hai trong số lượng mã thông báo Đối với hình ảnh, đơn vị phân tích cơ bản là pixel Mang tính kế thừa và phát triển, ViT tính toán mối quan hệ giữa các pixel trong các phần nhỏ khác nhau của hình ảnh (ví dụ: 16x16 pixel), với chi phí giảm đáng kể Trong tác vụ phân loại hình ảnh – classification image – là phổ biến nhất và chỉ sử dụng Bộ mã hóa (encoder) của Transformer để chuyển đổi các mã thông báo đầu vào khác nhau Tuy nhiên, có những ứng dụng khác trong đó bộ giải mã của Kiến trúc Transformer truyền thống được sử dụng Cơ chế chú ý trong ViT liên tục biến đổi các vectơ biểu diễn của các mảng hình ảnh, kết hợp càng nhiều mối quan hệ ngữ nghĩa giữa các mảng (patches) hình ảnh trong một hình ảnh Điều này tương tự như cách xử lý ngôn ngữ tự nhiên, khi các vectơ biểu diễn chảy qua Transformers, chúng kết hợp ngày càng nhiều mối quan hệ ngữ nghĩa giữa các từ, từ cú pháp đến ngữ nghĩa ViT đã tìm thấy các ứng dụng trong nhận dạng hình ảnh (image recognition), phân đoạn hình ảnh (image segmentation) và lái xe tự động (automous driving) Tuy nhiên, ViT cần một lượng dữ liệu đầu vào khổng lồ và cũng là khuyết điểm lớn của mô hình ban đầu Transformer

Hình 2.10: Mô hình Vision Transformer [23]

Trang 35

2.2.5 Mạng CoAtNet – Convolution and Attention Network [24]:

CoAtNet là sự kết hợp giữa CNN và Mô-đun tự chú ý của Transformer Mục đích của CoAtNet là kết hợp lợi thế của CNN và Transformers thành một kiến trúc duy nhất, về mặt khái quát hóa và năng lực mô hình vì hạn chế chính của ViT là ngốn dữ liệu trong khi CNN không tập trung vào chủ thể và khó khăn trong việc đối tượng nhận dạng ở cùng cấp độ với con người Với ý tưởng là sử dụng khối MBConv sử dụng tích chập theo chiều sâu với phản hồi dư ngược vì sơ đồ nén-mở rộng này giống với mô-đun FFN của Máy biến áp Hơn nữa, tích chập để thực hiện lấy mẫu xuống và sự chú ý tương đối toàn cầu chỉ sau khi kích thước của bản đồ đặc trưng đủ nhỏ để được xử lý

Hình 2.11: Kiến trúc CoAtNet với khối chập và hai mô-đun chú ý liên tiếp [24]

2.2.6 Khối chú ý – Convolution Block and Attention Module [25, 43]:

Đầu tiên, mô-đun chú ý (Attention Module) được sử dụng để giúp mạng CNN tìm hiểu và tập trung hơn vào thông tin quan trọng thay vì tìm hiểu thông tin cơ bản không hữu ích CBAM được Sanghyun Woo, Jongchan Park và các công sự công bố vào năm 2018 Trong trường hợp phát hiện đối tượng (object detection), thông tin hữu ích là đối tượng hoặc loại lớp mục tiêu mong muốn phân loại và định vị trong ảnh Mô-đun chú ý bao gồm một lớp chập 2D đơn giản, MLP (trong trường hợp chú ý kênh) và hàm sigmoid ở cuối để tạo mặt nạ của bản đồ tính năng (feature map) đầu vào Lấy bản đồ tính năng CxHxW làm đầu vào và cung cấp 1xHxW (hoặc CxHxW trong trường hợp Bản đồ chú ý 3D) làm bản đồ chú ý đầu ra Sau đó, bản đồ chú ý này được nhân theo từng phần tử với bản đồ tính năng đầu vào để có được đầu ra nổi bật hơn Qua đó, cơ chế chú ý được áp dụng cho các kích thước không gian và kênh Hai cơ chế chú ý này tức là: Việc tạo Bản đồ chú ý theo kênh và không gian được thực hiện tuần tự

Chú ý kênh (Channel Attention Module) gồm các bước thực hiện Tổng hợp trung bình cầu (Global Average Pooling) và Tổng hợp lớn nhất (Max Pooling) của bản đồ đặc trưng F và nhận vectơ kênh Fc ∈ Cx1x1 Chuyển Fc này tới một MLP nhỏ có một lớp chiều C/r ẩn Ở đây r là tỷ lệ giảm cho kênh ẩn (Ví dụ: nếu độ dài vectơ kênh là 1024 và tỷ lệ giảm r

Trang 36

là 16 thì số lượng nơ-ron trong lớp ẩn sẽ là 64) Thêm lớp chuẩn hóa hàng loạt (BN) trước MLP này Ở đây, học viên thay hàm kích hoạt (activation function) ReLU bằng GELU để cải thiện tốc độ hội tụ và tính chính xác của mô hình

Hình 2.12: Hình minh họa khối CBAM và các tính năng được nâng cấp (GELU và Batch

Normalization) [43]

Bên cạnh đó, bình thường, với kênh chú ý không gian (Spatial Attention Module), bản đồ tính năng đầu vào được chuyển qua chuỗi lớp chập 1x1 và 3x3 Ở đây các lớp chập 3x3 chứa giá trị giãn nở d=4 Giá trị giãn nở được sử dụng để tăng trường tiếp nhận hiệu quả của mạng Sự ảnh hưởng của việc tăng giá trị độ giãn nở được giới thiệu trong chương tiếp theo Giá trị giãn nở càng cao thì trường tiếp nhận càng lớn Lớp 1x1 đầu tiên giảm kích thước kênh xuống C/r Bản đồ tính năng rút gọn này được chuyển cho hai khối chập (Convolutional block) 3x3 với d=4 Cuối cùng, các kênh đầu ra của các lớp này được giảm xuống 1xHxW bởi lớp tích chập 1x1, theo sau là Batch Norm để tạo ra giá trị đầu ra Ngoài ra, ta có thể thấy GAP (Global Average Pool) và MP (Max Pooling) được ghép nối hai đầu ra và chuyển nó qua một khối tích chập nhỏ có kích thước hạt nhân 7x7 Ở đây, CBAM sử dụng kích thước hạt nhân (kernel size) lớn để thực hiện điều tương tự Ngoài ra, đây là một khối tích chập đơn giản với d=1

2.2.7 Mạng SE – Squeeze-and-Excitation Network [18]:

Cùng ý tưởng như khối CBAM là cải thiện khả năng chú ý và học của mô hình, khối ép và kích thích (SE – Squeeze -and-Excitation), được Jie Hu, Li Shen và các công sự công bố vào năm 2018, là một đơn vị kiến trúc có thể được kết nối vào mạng nơ ron tích chập để cải thiện sự phụ thuộc lẫn nhau (interdependencies) giữa các kênh tính năng khác nhau

Trang 37

của CNN Các khối ép và kích thích mô hình hóa rõ ràng các mối quan hệ kênh và sự phụ thuộc lẫn nhau của kênh, đồng thời bao gồm một hình thức tự chú ý (self-attention) trên các kênh Trở lại năm 2018, với sự ra mắt của SE, độ chính xác của mô hình học trên tập ImageNet đã cải thiện khoảng 2,5% so với năm 2017

Hình 2.13: Hình minh họa khối SE – Squeeze-and-Excitation

Như đã biết CNN sử dụng các bộ lọc tích chập để thu thập thông tin không gian và thời gian từ hình ảnh, CNN thực hiện phân loại hình ảnh bằng cách tìm kiếm các đặc điểm cấp thấp như các cạnh và đường cong, sau đó xây dựng các đặc điểm trừu tượng hơn thông qua một loạt các lớp chập Mô hình sử dụng các đặc điểm cấp thấp thu được ở cấp độ ban đầu để tạo ra các đặc điểm cấp cao nhằm nhận dạng đối tượng Mạng Bóp và Kích thích (SENet) đều nhằm mục đích thay đổi điều này bằng cách thêm cơ chế nhận biết nội dung thích ứng để cân nhắc từng kênh Một cách đơn giản, khối SE tính đến mức độ liên quan của từng kênh khi tính toán đầu ra Đối với bất kỳ lớp nào của mạng nơ ron tích chập, khối SE có thể được xây dựng tương ứng để hiệu chỉnh lại các bản đồ đặc trưng

Trong bước “ép” – Squeeze, tính năng tổng hợp trung bình toàn cầu được sử dụng để tổng hợp các bản đồ đặc điểm theo các kích thước không gian của chúng để tạo ra bộ mô tả kênh

Tiếp đến, trong bước “kích thích” – Excitation, các lớp được kết nối đầy đủ cho đầu ra của bước “ép” được áp dụng để tạo ra tập hợp trọng số trên mỗi kênh (“kích hoạt”) được áp dụng cho bản đồ tính năng để tạo ra đầu ra cuối cùng của khối SE

Trang 38

2.2.8 Phương pháp tự học – Barlow Twins [28]:

Học tự giám sát (Self-supervised learning – SSL) là một mô hình học sâu không phụ thuộc vào các bộ dữ liệu được gắn nhãn của con người để tìm hiểu các khái niệm Điều này rất quan trọng, bởi vì trong học tập có giám sát, các bộ dữ liệu được gán nhãn đều có một số nhược điểm, chẳng hạn như hạn chế trong số lượng, khả năng mở rộng Do đó, học tự giám sát là một giải pháp đầy tìm năng để sử dụng một lượng lớn dữ liệu, chẳng hạn như hình ảnh, dữ liệu văn bản, tín hiệu âm thanh thô hoặc tín hiệu não EEG mà không cần qua xử lý và gán nhãn

Hình 2.14: Phương pháp Barlow Twins HEAD: Mô hình xương sống kiến trúc có thể là

ResNet, DenseNet, EfficientNet, v.v Tối ưu hóa ma trận nhận dạng là mục đích cuối cùng của phương pháp này để ma trận tương quan chéo để cải thiện mô hình xương sống

Vào năm 2019, Momentum Contrast (MoCo) [15] của He và cộng sự dựa trên quan điểm về học tập tương phản dưới dạng tra cứu từ điển với hàng đợi và bộ mã hóa trung bình động (moving-average encoder) Tiếp tục triển vọng này, vào năm 2020, Khung đơn giản để học tương phản về biểu diễn trực quan (A Simple Framework for Constrastive Learning of Visual Representations – SimCLR) [16] do Chen và cộng sự xuất bản đã xác định các cặp mẫu 'tích cực' và 'tiêu cực' giúp tối đa hóa sự đồng thuận giữa các chế độ xem tăng cường khác nhau của cùng một ví dụ dữ liệu và được xử lý khác nhau trong hàm mất mát Đối với bài này, mô hình sẽ sử dụng lại các trọng số đã được đào tạo trước (pre-trained) trên tập dữ liệu ImageNet vì lý do tập dữ liệu hiện tại khá ít Ngoài ra, để điều hướng sao cho mô hình phù hợp với tập dữ liệu, phương pháp tự học - Barlow Twins được Zbontar và các cộng sự công bố vào năm 2021 – được áp dụng để triển khai và tối ưu hóa xương sống (backbone) với các tính năng trong dữ liệu không được gắn nhãn Cụ thể hơn, học viên đã sử dụng phương pháp Barlow Twins với mục đích giảm dư thừa với hàm mục tiêu ma trận tương quan chéo giữa các tính năng (cross-correlation matrix) của hai mạng

Ngày đăng: 30/07/2024, 16:39

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN