Chương 3. NÂNG CAO HIỆU QUẢ TRA CỨU ẢNH THEO TIẾP CẬN KẾT HỢP ĐẶC TRƯNG MỨC THẤP VÀ ĐẶC TRƯNG MỨC CAO
3.3. Biểu diễn ảnh bằng kết hợp đặc trưng mức cao từ EfficientNetB7+ và đặc trưng mức thấp
3.3.3. Kỹ thuật đề xuất tinh chỉnh mạng efficientNetB7
Kỹ thuật transfer learning (học chuyển giao) [128] là kỹ thuật thường được dùng trong việc huấn luyện các mô hình học sâu. Mục tiêu chính của kỹ thuật
Hình 3.5. Kiến trúc mạng EfficientNetB7
này là tận dụng lại các “tri thức” đã được học của mô hình gốc trước đó trên các tập dữ liệu lớn và phức tạp. Thay vì huấn luyện lại từ đầu, có thể sử dụng mô hình gốc trên để thực hiện các nhiệm vụ mới điều này giúp tiết kiệm thời gian hội tụ của mô hình và nâng cao độ chính xác. Ngoài ra, với tri thức đã học được từ tác vụ gốc, mô hình có khả năng khái quát hóa tốt đối với nhiệm vụ mới. Mô hình có thể nhận biết các đặc trưng phổ biến trong dữ liệu mới và áp dụng để tạo ra các dự đoán chính xác.
Thông thường các bước cơ bản để thực hiện quá trình học chuyển giao được mô tả qua các bước như sau.
- Bước 1: Chọn mô hình cơ sở, mô hình này đáp ứng các tiêu chí về độ chính xác, độ ổn định trên tập dữ liệu lớn.
- Bước 2: Thêm các lớp mới vào phần đỉnh của mô hình gốc để phù hợp với nhiệm vụ mới, việc thay đổi và điều chỉnh kiến trúc của các lớp này cũng phụ thuộc vào các ứng dụng cụ thể.
- Bước 3: Huấn luyện mô hình trên tập dữ liệu mới. Cũng lưu ý ở đây rằng việc huấn luyện này có thể áp dụng các kỹ thuật đóng băng (freeze) hoặc mở đóng băng (unfreeze) tương ứng với việc không cập nhật /cập nhật lại trọng số của mô hình gốc với các dữ liệu mới.
b) Sử dụng mô hình cơ sở EfficientNetB7
Hình 3.6. Mô hình trích rút vector đặc trưng ảnh bằng mạng EfficientNetB7 (cắt bỏ lớp cuối cùng)
Khác với mô hình được miêu tả ở hình 3.5, để vận dụng kỹ thuật học chuyển giao, chúng tôi sử dụng mô hình cơ sở là EfficientNetB7 tuy nhiên được cắt bỏ lớp kết nối đầy đủ (Full connected layer), minh hoạ ở hình 3.6. Như vậy, kiến trúc hiện tại đuộc mô tả như sau.
- Khối tích chập cơ sở bao gồm các bộ lọc có kích thước 3×3 với số lượng là 64 bộ lọc làm nhiệm vụ trích chọn thông tin cơ bản đầu vào của ảnh.
- Khối MBConv bao gồm 7 khối với số lượng bộ lọc tăng dần từ 32 đến 640 giúp mô hình trích chọn được các thông tin quan trọng và phức tạp từ ảnh.
- Khối đỉnh cuối bao gồm các lớp tích chập với mặt nạ kích thước 1x1 sau đó sử dụng phép gộp toàn cục để biến tensor dữ liệu dạng 4D về vectordạng 1D.
c) Cải tiến mô hình cơ sở EfficientNetB7
Để thực hiện phương pháp học chuyển giao một cách hiệu quả chúng tôi tiếp tục nâng cấp mô hình cơ sở EfficientNetB7. Sau khi lược bỏ lớp kết nối đầy đủ sử dụng để phân lớp trong mô hình gốc, chúng tôi sử dụng thêm 1 khối Block+ bao gồm:
- Lớp Flatten với mục đích làm vector hoá bản đồ đặc trưng sau khi được xử lý bởi mô hình cơ sở.
- Lớp Batch normalization với mục đích chuẩn hoá dữ liệu đầu vào, giảm sự phụ thuộc vào các trọng số khởi tạo giúp quá trình huấn luyện thực hiện ổn định hơn. Ngoài ra lớp này cũng có mục tiêu hạn chế hiện tượng mất đạo hàm (vanishing gradient) thông qua việc ổn định quá trình lan truyền ngược với việc chuẩn hoá gradient.
- Lớp Global average pooling2D với mục tiêu giảm số chiều dữ liệu, giảm độ phức tạp và giữ lại các đặc trưng quan trọng của ảnh.
- Lớp Dense với mục tiêu đưa điều chỉnh kích thước vectorđặc trưng theo mong muốn. Trong nội dung này, đầu ra của mạng cơ sở là vector chứa 2560 chiều, minh hoạ ở hình 3.7.
Cũng lưu ý rằng với hình thức học chuyển giao tri thức này, luận án sử
dụng kỹ thuật đóng băng “Freeze” mô hình cơ sở. Nhằm giữ các đặc trưng từ ảnh đã được trích chọn ở mạng cơ sở, và tăng tốc quá trình huấn luyện do bộ dữ liệu là tương đối lớn và nguồn tài nguyên phần cứng sử dụng để huấn luyện giới hạn.
Sau khi thực hiện lựa chọn và tinh chỉnh mô hình học sâu phù hợp với bài toán cụ thể các bước của thuật toán trích rút đặc trưng mức cao của ảnh được thực hiện như sau: Với đầu vào của thuật toán là CSDL ảnh và mô hình tiền huấn luyện các mạng học sâu CNN (được huấn luyện trên bộ dữ liệu ImageNet), việc thực hiện trích rút được mô tả như thuật toán 3.1:
Thuật toán 3.1: Trích rút đặc trưng ảnh với mạng CNN tiền huấn luyện Input:
- Tập ảnh cần trích rút đặc trưng: I=(I1, I2, …, In)
- Mô hình tiền huấn luyện Ω = (Model EfficientNetB7)
Ouput: Vector đặc trưng biểu diễn ảnh HF=(HF1, HF2,…,HFn) 1. Model←LoadModel(Ω)
2. HF
3. for i=1,…, n do
Hình 3.7. Mô hình đề xuất mạng trích rút đặc trưng EfficientNetB7+
3.1 HFi←ExtractFeature(Ii, Model);
3.2 HF= HFHFi