Tập dữ liệu gốc sau khi thu thập về đã được chuẩn hóa về cùng một kích thước 1000 x 1500 pixel để đảm bảo tính nhất quán của dữ liệu. Sở dĩ tác giả không chuẩn hóa về kích thước nhỏ để phù hợp với mô hình huấn luyện với CNN là để có thể thử nghiệm với nhiều kích thước khác nha. Tại lần thử nghiệm này tác giả sử dụng 3 kích thước ảnh lần lượt giảm dần là 150 x 225 pixel, 100 x 150 pixel và 50 x 75 pixel. Mỗi lần thực nghiệm, tác giả đều sử dụng bộ ảnh 1000 x 1500 rồi đưa về các kích thước đề xuất để giữ nguyên chất lượng của hình ảnh, không bị mất đặc trưng khi giảm tỉ lệ ảnh nhiều lần. Tỉ lệ phân bố tập dữ liệu như đã nêu ở trên là 30 – 70 (lúc này tập huấn luyện sẽ có 1411 ảnh và còn lại 606 ảnh cho tập kiểm tra).
0 20 40 60 80 100 120 10% 20% 30% 40% 50% 60% 70% 80% 90%
Hình 4.9. Cấu trúc mô hình khi thay đổi kích thước các tập ảnh đầu vào
Quan sát sự thay đổi các giá trị đầu vào của các tang CONV – POOL – DropOut. Kích thước ảnh càng lớn thì độ dài của vector được trải ra càng lớn và gấp nhiều lần so với những tầng sau. Ta tiến hành kiểm tra độ lỗi và kết quả phân lớp của mô hình với 3 kích thước tập dữ liệu ảnh đầu vào trên.
Hình 4.10. Kết quả mô hình sử dụng tập ảnh đầu vào 50 x 75 pixel
Như đã phân tích ở trên, với tập dữ liệu ảnh đầu vào 50 x 75 pixel, độ lỗi của mô hình giảm dần qua các lần huấn luyện và kết quả qua 400 lần huấn luyện cũng
khá tốt với chỉ hơn 20%. Tuy nhiên biên độ giảm của độ lỗi với tập dữ liệu này gần như tạo thành một góc 45 độ, kết quả này có thể cho là rất khả quan.
Hình 4.11. Kết quả mô hình sử dụng tập ảnh đầu vào 100 x 150 pixel
Với tập ảnh đầu vào lớn hơn thì trong những lần huấn luyện đầu tiên, sự biến thiên của độ lỗi có vẻ mịn hơn, không tăng giảm liên tục nhiều như ở kích thước 50 x 75 pixel. Ở khoảng từ lần huấn luyện thứ 200/400 thì độ lỗi của mô hình mới giảm đến ngưỡng 50% nhưng tới đây, nó không tiếp tục giảm mạnh mà chỉ giao động nhẹ. Độ lỗi tối ưu nhất của mô hình sau 400 lần huấn luyện chỉ đạt ở mức 0.41682, thấp gấp đôi so với khi thử nghiệm với kích thước 50 x 75 pixel. Giá trị này đạt được ở lần huấn luyện thứ 304/400, có thể thấy độ lỗi của mô hình đã bão hòa và gần 100 lần huấn luyện cũng không cải thiện được gì hơn.
Với lần huấn luyện này, kết quả có mô hình không khả quan hơn so với kích thước 100 x 150 pixel. Cũng qua 200 lần huấn luyện thì mới giảm độ lỗi tới ngưỡng gần 50%, thậm chí khi tiếp tục huấn luyện thêm thì cũng không cải thiện được nữa.
Bảng 4.4. Thống kê kết quả thực nghiệm với 3 kích thước ảnh đầu vào
Kích thước Model_Accuracy Model_Loss Test_Accuracy Time cost
50 x 75 0.9404 0.20737 93.8944% 708s
100 x 150 0.9915 0.41682 89.7690% 2707s
150 x 225 1.0000 0.53224 84.8185% 6247s
Qua thực nghiệm với 3 kích thước trên ta có thể nhận thấy với một mô hình học sâu như CNN, không nhất thiết phải sử dụng hình ảnh quá lớn vẫn có thể đạt được kết quả phân lớp tốt. Thông qua các nhân chập, đặc trưng của ảnh được rút trích và sau đó được cường hóa bằng tầng max-pooling thế nên nếu kích thước của ảnh không thay đổi quá nhiều thì kết quả cũng sẽ không bị ảnh hưởng nhiều. Tuy nhiên nếu xét ở góc độ khác, số lượng hình ảnh hiện đang dùng còn khá ít, mô hình chưa được huấn luyện kỹ nên có thể kết quả trên chưa phải là điểm kết. Do đó như đã nêu, tác giả sẽ sử dụng một số kỹ thuật xử lý ảnh để tăng thêm số lượng hình ảnh cho tập huấn luyện. Trong phần tiếp theo bộ dữ liệu tăng thêm này sẽ được sử dụng.