Tập huấn luyện từng phần

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ ron tích chập (Trang 70 - 72)

4.3. Xây dựng mơ hình phân loại ảnh cho hệ thớng tìm kiếm

Mơ hình giải quyết bài tốn phân lớp một bức ảnh vào 1 lớp trong 15 chủ đề khác nhau (Cat, Dog, Peacok, … ). Đầu ra của mơ hình là một vector có 1.000 phần tử. Phần tử thứ i của vector đại diện cho xác suất bức ảnh thuộc về lớp thứ i. Do đó, tổng của các phần tử trong vector là 1.

Phân loại hình ảnh bằng mạng AlexNet với sự hỗ trợ thư viện nguồn mở TensorFlow là một nền tảng mã nguồn mở end-to-end dành cho học máy giúp đào tạo các mơ hình ML [27].

Để xây dựng mơ hình phân loại ảnh cho hệ thống tìm kiếm, tập dữ liệu thực nghiệm được chia thành 3 tập dữ liệu con là tập huấn luyện (training set) gồm 7.110 ảnh (60%), tập kiểm thử (test set) gồm 2.370 ảnh (20%) và tập giám sát (validation set) gồm 2.370 ảnh (20%). Tập dữ liệu giám sát dùng để giám sát quá trình học xem mạng có đang trong trạng thái bị học chậm (underfitting) hoặc quá khớp (overfitting) không?

Dữ liệu huấn luyện được chia thành từng batch, với batch size là 500 ảnh để đưa vào huấn luyện nhằm tránh tắt nghẽn mạng và giảm dung lượng bộ nhớ cần thiết để huấn luyện. Phương pháp tính độ lỗi của mạng là Momentum với các tham số base learning là 0,05 và lr_decay là 0,96. Khi mạng đã học qua tồn bộ ảnh trong tập h́n luyện một lần thì được xem như mạng đã học được một chu kỳ (epoch) và số epoch là 400 nên phải lặp tối đa là 5.688 lần theo công thức như sau:

Qua quá trình h́n luyện và kiểm tra mơ hình mạng nơ-ron tích chập đã thu được một số kết quả qua bảng thống kê về thời gian h́n luyện mơ hình ở Bảng 1.

Bảng 4.1: Kết quả h́n luyện mơ hình

Thời gian

(giờ:phút:giây) Bước lặp Độ chính xác

00:15:39 270 36.80% 00:45:39 790 52.39% 01:15:26 1,268 63.52% 01:45:52 1,778 69.27% 02:15:36 2,289 72.36% 02:45:36 2,829 73.38% 03:15:25 3,352 75.79% 03:45:19 3,868 77.26% 04:15:58 4,232 80.37% 04:45:38 4,639 82.52% 05:15:29 5,129 83.26% 06:09:30 5,688 85.39%

Để học được mơ hình đạt độ chính xác hơn 85% trên tập train thì cần hơn 6 giờ huấn luyện. Để kiểm tra độ chính xác của mơ hình phân lớp trên tập test thì chúng được đánh giá theo 3 độ đo là Confusion matrix ở Hình 4.2 và Precision ở Hình 4.3.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ ron tích chập (Trang 70 - 72)

Tải bản đầy đủ (PDF)

(85 trang)